分子生物学数据库和数据格式

数据库记录包括两部分:

1.原始序列数据

2.描述原始数据的生物学信息的注释

随着研究的积累,生物信息数据越来越多,且在研究中,如果仅仅知道数据的来源

而对其他方面知之甚少,研究也会变得极为困难。

所以为了研究的便利,能够对数据进行存储共享和使用,所以分子数据库应运而生。


分子数据库

数据库数量多

数据库种类复杂

数据量巨大且不断增长

数据间关系复杂

数据存在冗余和偏差

版本不断更新

提供开源web服务

分子数据库种类繁多,但是主要可以分为三大类:

1.核酸数据库

2.蛋白质数据库

3.其他数据库

数据库.png

数据存储格式

分子数据库数据库数据量巨大且增长速度快,数据之间关系复杂,为了方便对数据的收集,整理,分析,所以规范了数据的格式。

FASTA格式

1.基于文本形式的数据存储格式,格式中碱基对或氨基酸用单个字母表示。

那如何区分核酸和蛋白质序列?

核酸和蛋白质都以字母来编码,所以难以通过序列区分

通常核苷酸符号大小写均可而氨基酸常用大写

2.FASTA分为两部分:

第一行:“>”开头后跟序列名称和描述,以“|”分开

剩余行为序列内容(一般一行60,不超过80)

扩展名可规定为“.fasta”。

FASTQ格式

与FASTA格式类似,但多了质量信息

第一行“@”开头后跟描述信息

第二行序列信息

第三行“+”(跟描述信息但可省略)

第四行序列质量信息

NBRF/PIR格式

NBRF/PIR格式由三部分组成,第一行以“>”开头,后跟一个双字母标记,表示序列的类型。然后再跟一个分号。分号后通常是序列在数据库中的编码(ID-code),即序列的唯一标识码(sequence identification code)。第二行给出了序列的文字说明,该行可长可短,也可以是空白。剩余行给出序列本身,以星号“*”表示结束。这类格式的文件扩展名可规定为“.pir”或“.seq”。

GDE格式

它与FASTA格式基本相同,只是行首为“%”而不是“>” ,这类文件的扩展名可为“.gde”。

RAW格式

这个格式相当于去除了空白和数字的文本格式,只接受表示序列本身的字母符号。

FASTQ,NBRF/PIR,GDE,RAW都是可忽略空格和回车。


MSF格式

MSF,Phylip,ALN都是为了更好的表示序列比对的结果而特别设计。

MSF格式的起始行中包含了“MSF”字样,继而给出了序列长度、类型(前面以“Type:”标记)和校验码(前面以“Check:”标记)。后面接了一行空白行。空白行之后是序列的描述行,一条序列对应一行。每条序列的描述行都给出了序列的名称、长度、校验码和重量值(weight value),它们的前面分别以“Name: ”、“Len: ”、“Check: ”和“Weight: ”标记。接着是一行空白行,然后是一行以双斜线(“//”)开头的行表示描述内容的结束。接着是一些空白行。随后以对齐的序列比对行表示多序列比对的结果信息。序列比对行以交叉方式表示每条序列,其中每条序列行以序列名称开头后跟空格,然后是对齐的氨基酸残基。空位(gap)以句点(.)表示。

Phylip格式

Phylip格式的首行给出了进行比对的序列条数和序列的长度,中间以空格隔开。然后给出对齐的序列比对行。与MSF序列比对行不一样的是序列名占10个字符,并且只在第一组序列比对行中出现序列名,其他的行中前面空出10个字符的空格。空位以划线(-)表示。

ALN格式

ALN格式是比对程序ClustalW2的原始输出格式。首行给出“CLUSTAL”字样,后跟版本号等关于运行的clustal的程序信息,比如“2.0.10 multiple sequence alignment”,或“CLUSTAL W (2.1) multiple sequence alignment”。每组对齐的序列比对行的长度为60。其中每条序列行以从输入序列中获取的序列名开头,然后是对齐的氨基酸残基/碱基,后跟该序列行中所含的残基/碱基个数(不计空位)。每组序列比对行的最后一行给出序列的匹配程度,星号(*)表示对齐的该列中所有的氨基酸残基或核酸均相同,冒号(:)表示该列具有保守的替换,点号(.)表示该列具有半保守的替换。

关于数据的冗余

在数据提交时,不同的研究机构可能提交了相同的序列,或序列即使有显著不同可能是由于基因组多样性造成。

冗余数据可能造成很多潜在的统计错误

为了避免数据大量冗余,一般通过全局序列联配以及人工复查等手段。