序列比对

比较是科学研究中最常见的研究方法之一,通过比较寻找研究对象可能具备的某些特征和特性。序列比较的理论基础是进化学说:如果两个序列之间具有足够高的相似性,那么两者可能是共同的进化祖先经过序列内残基的替换,残基或序列片段的缺失或插入以及序列重组等遗传变异过程分别演化而来。

序列比较的目的主要有两点:

  • 根据相似性通过已知序列来预测未知序列的结构和功能
  • 推断序列之间的同源性,推测进化关系

相似性 同源性

任意两条序列都有可能具有一定的相似性,可以利用一个数值进行表示相似程度,所以相似性也就是序列比对结果中相同部分所占比例的大小。

相似性很难把“偶然性”的相似与真实进化和功能关系上的相似区分开来,所以相似性无法判断同源性。

所以同源性指的是来源于相同祖先的相似序列,且与相似性不同,其无法用数值表示,是一种论断,两条序列之间要么是同源的,要么是不同源的,即使相似性很低也有可能是同源的。

直系同源,旁系同源,异同源

同源又可分为直系同源(orthology)和旁系同源(paralogy)两类。直系同源序列是不同物种内的同源序列,它们来自于物种形成时的共同祖先基因。旁系同源基因是通过类似基因复制的机制产生的同源序列。

截图

序列比较:核苷酸序列还是蛋白质序列

相对于核苷酸序列比较,氨基酸序列比较通常具有更丰富的信息,例如,许多氨基酸具有相似的理化性质(如赖氨酸和精氨酸都是碱性氨基酸),在进行氨基酸序列比较时可以用一打分系统来描述这些相关(但不匹配)的氨基酸之间的重要相关性。此外,蛋白质相对于核酸序列更为保守,只要这些物种有一个10亿年前(billion years ago, BYA)的共同祖先(例如谷胱甘肽转移酶),氨基酸序列比对可用于确定来自各物种的同源序列,而核苷酸序列比对一般情况下只能回溯到最多6亿年前(600million years ago, 600MYA)。 在某些特殊的情况下,比较核苷酸序列会更合适。比如,当确认给定DNA序列和DNA数据库中序列的一致性时,搜索多态性时,以及分析所克隆的cDNA片段的一致性等情况时,核苷酸序列的比较就显得重要。

具有同源性的序列都来自同一祖先经过序列内残基的替换,残基或序列片段的缺失或插入以及序列重组等遗传变异过程分别演化而来

序列比对

在进化过程中序列发生了差异,而序列比对就是通过特定的算法找出序列之间产生最大相似度得分的空格插入和序列排序方案。

空位

空位就是同源序列在进化过程产生分歧的突变(插入或删除等),在序列中补齐空位更加符合进化过程且更方便全长比对。

全局比对 局部比对

全局比对是序列全长进行比对,从全局出发进行考察序列之间的关系。

局部比对是着重于序列中的特殊片段,主要由于功能是由较短序列片段组成且较为保守,即使其他位点有空位存在也不会影响比对发现不同序列中的保守序列。

在序列比对时,因为空格插入不同产生了多种序列排序方案,可以通过替换计分矩阵这一计分规则来筛选出比对最大相似度的方案。


核酸和蛋白质分别有不同的替换计分矩阵。

核酸

等价矩阵

相同核苷酸之间的匹配得分为1,不同核苷酸间的替换为0。

转换-颠换矩阵

核酸的碱基按照结构可分为两类:

  • 嘌呤(两个环)
  • 嘧啶(一个环)

不同结构之间替换称为颠换,相同结构替换为转换

在进化中转换频率远大于颠换,所以转换得分为-1,颠换为-5。

BLAST矩阵

经过大量实际比较得,核苷酸相同的+5,反之为-4,则效果较好,该矩阵被广泛采用。

蛋白质

等价矩阵

相同氨基酸之间的匹配得分为1,不同氨基酸间的替换为0。

遗传密码矩阵GCM

通过计算一个氨基酸残基转变到另一个氨基酸残基所需的密码子中碱基变化数目而得到的,矩阵元素的值对应于代价。

疏水矩阵

不同的氨基酸具有不同的疏水性,而疏水性对蛋白质的结构和功能有很大影响,所以根据氨基酸替换前后的疏水性变化,进行打分。

PAM矩阵

Dayhoff模型:可接受点突变

有些氨基酸替换较为频繁,自然界易接受这种突变,也就是可接受点突变,得分应该较高

PAM矩阵是目前蛋白质序列比较中最广泛使用的计分方法之一。

PAM矩阵中的元素表示是在一给定进化时期内氨基酸替换为某一氨基酸的变化概率,给定的进化时间就是一个PAM(不同蛋白质的替换速率不同,所以不用时间,以两个蛋白质1%氨基酸发生变化为时间进度),一个PAM内的变化概率也就是PAM-1。

PAM矩阵是通过紧密相关蛋白质序列的比对(>=85%),而研究进化程度较远的蛋白质一般用PAM-N,PAM-N是通过PAM-1自乘n次得到的,最常用PAM-250。

PAM250突变概率矩阵

截图

BLOSUM矩阵

BLOSUM矩阵通过关系较远的序列来获得矩阵元素,这种方法的优点是符合实际的观测结果,不足之处是不能和进化挂起钩来。

BLOSUM的工作集中于远相关蛋白的保守区域上,而BLOSUM-62表示蛋白质的一致度>=62%。

PAM还是BLOSUM?

  • PAM-1矩阵是基于相似度较高的序列而来,只描述了在较短进化时期内每个氨基酸发生变化的频度,对于较远进化距离的矩阵并非通过真实数据产生,而是通过PAM-1自乘得到,所以PAM-N不适合用于关系较远的序列比较。
  • BLOSUM矩阵基于蛋白质序列块比对,利用相关序列中最相似的共同区域中氨基酸的替换和匹配。
image (1).png

对于关系较远的序列之间的比较,由于PAM-250是推算而来的,所以其精度受到一定的影响,BLOSUM-45更具优势。

对于关系较近的序列之间的比较,由于PAM或BLOSUM矩阵做出的比对结果,差距不大,最常用:BLOSUM-62。