数据库记录包括两部分：

1.原始序列数据

2.描述原始数据的生物学信息的注释

随着研究的积累，生物信息数据越来越多，且在研究中，如果仅仅知道数据的来源

而对其他方面知之甚少，研究也会变得极为困难。

所以为了研究的便利，能够对数据进行存储共享和使用，所以分子数据库应运而生。

分子数据库

数据库数量多

数据库种类复杂

数据量巨大且不断增长

数据间关系复杂

数据存在冗余和偏差

版本不断更新

提供开源web服务

分子数据库种类繁多，但是主要可以分为三大类：

1.核酸数据库

2.蛋白质数据库

3.其他数据库

数据存储格式

分子数据库数据库数据量巨大且增长速度快，数据之间关系复杂，为了方便对数据的收集，整理，分析，所以规范了数据的格式。

FASTA格式

1.基于文本形式的数据存储格式，格式中碱基对或氨基酸用单个字母表示。

那如何区分核酸和蛋白质序列？
核酸和蛋白质都以字母来编码，所以难以通过序列区分
通常核苷酸符号大小写均可而氨基酸常用大写

2.FASTA分为两部分：

第一行：“>”开头后跟序列名称和描述，以“|”分开

剩余行为序列内容（一般一行60，不超过80）

扩展名可规定为“.fasta”。

FASTQ格式

与FASTA格式类似，但多了质量信息

第一行“@”开头后跟描述信息

第二行序列信息

第三行“+”（跟描述信息但可省略）

第四行序列质量信息

NBRF/PIR格式

NBRF/PIR格式由三部分组成，第一行以“>”开头，后跟一个双字母标记，表示序列的类型。然后再跟一个分号。分号后通常是序列在数据库中的编码（ID-code），即序列的唯一标识码（sequence identification code）。第二行给出了序列的文字说明，该行可长可短，也可以是空白。剩余行给出序列本身，以星号“*”表示结束。这类格式的文件扩展名可规定为“.pir”或“.seq”。

GDE格式

它与FASTA格式基本相同，只是行首为“%”而不是“>” ，这类文件的扩展名可为“.gde”。

RAW格式

这个格式相当于去除了空白和数字的文本格式，只接受表示序列本身的字母符号。

FASTQ，NBRF/PIR，GDE，RAW都是可忽略空格和回车。

MSF格式

MSF，Phylip，ALN都是为了更好的表示序列比对的结果而特别设计。

MSF格式的起始行中包含了“MSF”字样，继而给出了序列长度、类型（前面以“Type:”标记）和校验码（前面以“Check:”标记）。后面接了一行空白行。空白行之后是序列的描述行，一条序列对应一行。每条序列的描述行都给出了序列的名称、长度、校验码和重量值（weight value），它们的前面分别以“Name: ”、“Len: ”、“Check: ”和“Weight: ”标记。接着是一行空白行，然后是一行以双斜线（“//”）开头的行表示描述内容的结束。接着是一些空白行。随后以对齐的序列比对行表示多序列比对的结果信息。序列比对行以交叉方式表示每条序列，其中每条序列行以序列名称开头后跟空格，然后是对齐的氨基酸残基。空位（gap）以句点（.）表示。

Phylip格式

Phylip格式的首行给出了进行比对的序列条数和序列的长度，中间以空格隔开。然后给出对齐的序列比对行。与MSF序列比对行不一样的是序列名占10个字符，并且只在第一组序列比对行中出现序列名，其他的行中前面空出10个字符的空格。空位以划线（-）表示。

ALN格式

ALN格式是比对程序ClustalW2的原始输出格式。首行给出“CLUSTAL”字样，后跟版本号等关于运行的clustal的程序信息，比如“2.0.10 multiple sequence alignment”，或“CLUSTAL W (2.1) multiple sequence alignment”。每组对齐的序列比对行的长度为60。其中每条序列行以从输入序列中获取的序列名开头，然后是对齐的氨基酸残基/碱基，后跟该序列行中所含的残基/碱基个数（不计空位）。每组序列比对行的最后一行给出序列的匹配程度，星号（*）表示对齐的该列中所有的氨基酸残基或核酸均相同，冒号（:）表示该列具有保守的替换，点号（.）表示该列具有半保守的替换。

关于数据的冗余

在数据提交时，不同的研究机构可能提交了相同的序列，或序列即使有显著不同可能是由于基因组多样性造成。

冗余数据可能造成很多潜在的统计错误

为了避免数据大量冗余，一般通过全局序列联配以及人工复查等手段。

如若转载，请注明出处：https://www.ouq.net/dnadatabaseintroduce.html

分子生物学数据库和数据格式