AlphaFold蛋白结构预测常见使用问题

如何搜索数据库？

页面顶部的搜索栏接受基于蛋白质名称（例如游离脂肪酸受体 2）、基因名称（例如At1g58602）、UniProt 加入（例如Q5VSL9）或生物名称（例如大肠杆菌）的查询。目前不支持 BLAST / 基于序列的搜索，也不支持基于结构的搜索。

包括哪些蛋白质？

第一个 AlphaFold DB 版本涵盖了人类蛋白质组和其他几个关键生物。对于这些物种，我们尝试在其UniProt 参考蛋白质组中折叠大多数序列。

第二个版本通过添加大部分 Swiss-Prot，使数据库的大小增加了一倍多。Swiss-Prot是 UniProt 蛋白质数据库的子集，由专家手动管理。因此，除了氨基酸序列之外，这些条目还包含许多有用的生物学数据和注释，而 Swiss-Prot 蛋白质可能会受到特别关注。

第三个版本侧重于具有与被忽视的热带病或抗菌素耐药性相关的 UniProt 参考蛋白质组的生物。选择是基于世界卫生组织编制的优先名单。

目前排除以下内容：

少于 16 个或超过 2700 个氨基酸的蛋白质。（仅对于人类蛋白质，较长的序列可在批量下载中拆分成片段）
含有非标准氨基酸的蛋白质
来自病毒的蛋白质（需要改进对多蛋白的支持）

数据库中有多少种蛋白质？

AlphaFold DB 网站上有 992,316 个结构，包括 48 个完整的蛋白质组可供批量下载。

人类蛋白质还有 3,095 个结构，其中较长的序列可在批量下载中拆分成片段，使 AlphaFold DB 中的结构总数达到 995,411 个。

如果您正在寻找长度超过 2700 个氨基酸 (aa) 的人类蛋白质，AlphaFold 可提供 1400aa 长的重叠片段。例如，Titin 预测的片段结构命名为 Q8WZ42-F1（残基 1-1400）、Q8WZ42-F2（残基 201-1600）等。这些片段目前仅在批量下载页面的蛋白质组存档文件中可用。

如果我找不到我感兴趣的蛋白质怎么办？

如果您找不到所需的结构，以下是一些改进搜索结果的建议：

尝试通过蛋白质或基因名称而不是特定的 UniProt 加入进行搜索。
如果您没有看到您正在寻找的序列，请尝试使用EBI 蛋白质相似性搜索工具针对 AlphaFold DB 中的序列进行搜索。如果查询序列在 AlphaFold DB 中已经可用，这可以提供对结构预测的访问。如果查询序列不可用，则可以使用与查询序列相似的结构预测。
检查该蛋白质是否在所涵盖生物体之一的参考蛋白质组中或在Swiss-Prot中（相当于 UniProt 和“已审查”）。检查它是否未被上一个常见问题解答中涵盖的任何标准排除。
我们不提供多种异构体，因此我们鼓励用户从其参考蛋白质组中选择最合适的蛋白质。

我们计划在 2022 年扩展数据库，以涵盖更多的蛋白质组，以及所有编目蛋白质的更大比例（UniProt 的 90% 序列同一性聚类内的超过 1 亿个结构；即UniRef90）。届时将有更多感兴趣的蛋白质模型可用。

同时，AlphaFold源代码和Colab 笔记本可用于预测尚未包含在 AlphaFold DB 中的蛋白质结构。最近更新了这两种资源以支持预测多聚体结构。

如果您在搜索方面遇到任何问题，请联系afdbhelp@ebi.ac.uk。

结构页面包含什么？

结构页面显示有关蛋白质的基本信息（来自 UniProt），以及来自 AlphaFold 的三个独立输出。

第一个是 3D 坐标（如果您在查看器中单击序列，则包括侧链）。

第二个输出是一个称为pLDDT的每个残差置信度度量，用于为预测的残差着色。请注意，模型置信度在一条链上可能会有很大差异，因此在解释结构特征时咨询置信度很重要。较低的置信带与无序密切相关（参见我们的出版物）。

第三个输出是 Predicted Aligned Error，这是评估蛋白质的域包装和大规模拓扑的信心所必需的。请参阅下面的常见问题解答如何解释相对域位置。

如何下载结构预测？

坐标文件可以从结构页面右上角的菜单中下载，格式为 mmCIF 或 PDB。这些格式被 3D 结构查看软件广泛接受，例如 PyMOL 和 Chimera。

我应该对预测有多大的信心？

AlphaFold 在 0 到 100 的范围内生成其置信度的每个残差估计值。这种置信度度量称为 pLDDT，对应于模型在lDDT-Cα 指标上的预测分数。它存储在可供下载的 mmCIF 和 PDB 文件的 B 因子字段中（尽管与 B 因子不同，pLDDT 越高越好）。pLDDT 还用于在 3D 结构查看器中对模型的残基进行颜色编码。以下经验法则为给定区域的预期可靠性提供了指导：

pLDDT > 90 的区域预计将被建模为高精度。这些应该适用于任何受益于高精度的应用（例如表征结合位点）。
预计 pLDDT 在 70 到 90 之间的区域可以很好地建模（通常很好的主干预测）。
pLDDT 在 50 到 70 之间的区域置信度低，应谨慎对待。
pLDDT < 50 的区域的 3D 坐标通常具有带状外观，不应解释。我们在我们的论文中表明 pLDDT < 50 是一个相当强的无序预测指标，即它表明这样的区域要么在生理条件下是非结构化的，要么只是作为复合体的一部分而结构化。
具有许多残基间接触的结构化域可能比扩展接头或孤立的长螺旋更可靠。
非物理键长和冲突通常不会出现在置信区域中。结构的任何部分都应忽略其中的几个。

请注意，PDB 和 mmCIF 文件包含所有区域的坐标，无论其 pLDDT 分数如何。用户可以根据上述指导来明智地解释模型。

我应该如何解释域的相对位置？

与 3D 结构无关，AlphaFold 产生一个称为“预测对齐误差”的输出。这在结构页面的底部显示为交互式 2D 图。

如果预测结构和真实结构在残基 y 上对齐，则 (x, y) 处的颜色表示 AlphaFold 在残基 x 处的预期位置误差。
如果来自两个不同域的残基对 x、y 的预测对齐误差通常较低，则表明 AlphaFold 为它们预测了明确定义的相对位置。
如果来自两个不同域的残基对 x、y 的预测对齐误差通常较高，则这些域在 3D 结构中的相对位置是不确定的，不应被解释。

在某些情况下，AlphaFold 会产生有用的域间预测。然而，在 CASP14 中，域内预测精度得到了更广泛的验证，因此预计会更可靠。

如何下载和使用预测对齐错误 (PAE) 文件？

预测对齐误差 (PAE) 显示为每个结构预测的图像。如果您需要所有残基对的 PAE 原始数据，您可以使用结构页面顶部的按钮以 JSON 格式下载 PAE。

此文件采用自定义格式，任何现有软件都不支持它——您必须使用 Python 或任何其他脚本语言来处理和绘制其中包含的信息。

对于长度为 num_res 的蛋白质，JSON 具有以下数组格式的结构：
[
{
“residue1”: [ 1, 1, 1, 1, 1, …], # Length: num_res^2.
“residue2”: [ 1, 2, 3, 4, 5, …], # 长度: num_res^2.
“距离”: [0.2, 1.2, 3.7, 6.6, 8.7, …], # 长度: num_res^2.
“max_predicted_aligned_error”：31.75
}
]

JSON中的字段是：

残差1：结构与预测误差对齐的残差。
残差2：预测误差的残差。
distance：残差对的 PAE 值。
max_predicted_aligned_error：一个标量，表示 PAE 的最大可能值。最小 PAE 为 0。

由于距离包含所有残差对的值，因此可以通过重塑为形状为[num_res, num_res]的二维矩阵直接使用它。

AlphaFold 不支持哪些用例？

AlphaFold 目前专注于在 CASP14 中验证的用例：预测具有天然序列的单个蛋白质链的结构。许多其他用例仍然是活跃的研究领域，例如：

该数据库中使用的 AlphaFold 版本不输出多链预测（复合体）。在某些情况下，单链预测可能对应于复杂中采用的结构。在其他情况下（特别是在链仅与伙伴分子结合的情况下），周围分子的缺失上下文可能导致无信息预测。最近，针对复杂预测（ AlphaFold Multimer ）训练了一个单独版本的 AlphaFold 。您可以在GitHub 上找到开源代码并使用我们的Colab进行预测。
对于本质上无序或孤立的非结构化区域，AlphaFold 预计会产生低置信度预测（pLDDT < 50），并且预测的结构将具有带状外观。AlphaFold 可能用于识别这些区域，但预测没有说明不同构象的相对可能性（它不是玻尔兹曼分布的样本）。
AlphaFold 尚未经过验证可用于预测突变的影响。特别是，鉴于包含不稳定点突变的序列，预计 AlphaFold 不会产生未折叠的蛋白质结构。
在已知蛋白质具有多种构象的情况下，AlphaFold 通常只产生其中一种。不能可靠地控制输出构象。
AlphaFold 不预测在实验结构中发现的任何非蛋白质成分（如辅因子、金属、配体、离子、DNA/RNA 或翻译后修饰）的位置。然而，AlphaFold 被训练来预测蛋白质的结构，因为它可能出现在 PDB 中。因此，在离子（例如锌结合位点）或辅助因子（例如与血红素结合一致的侧链几何形状）存在的情况下，主链和侧链坐标通常与预期结构一致。

如何批量下载数据？

个别物种的预测以及额外的 Swiss-Prot 条目可供批量下载。随着数据库的扩展，通过 FTP 提供整个数据集可能变得不切实际，在这种情况下，将根据要求提供批量下载。

AlphaFold 是如何工作的？

我们的 2021 年方法论文是对此的最佳参考。它概述了最重要的想法，并在补充信息中详细描述了系统的所有方面。

请注意，CASP14 使用的系统架构与 CASP13 使用的版本有很大不同，因此参考 2021 年的出版物很重要。

AlphaFold 使用蛋白质数据库中的哪些信息？

AlphaFold 在 2018-04-30 之前发布的 PDB 中对蛋白质链进行了训练。预测还可以使用 2021-02-15 之前发布的最多 4 个模板。然而，模板并不是 AlphaFold 做出准确预测的关键输入；该模型可以仅基于多序列比对做出强有力的预测。

AlphaFold 与其他结构预测工具相比如何？

CASP14 评估详细比较了领先的结构预测方法；结果可在此处获得。AlphaFold 是排名第一的方法，所有目标的 GDT（全球距离测试）中位数得分为 92.4，在具有挑战性的自由建模类别中得分为 87.0，而在这些类别中，次优方法得分为 72.8 和 61.0。

结构生物学家更经常通过首先优化叠加结构然后计算等效残基的 Cα 原子之间的均方根距离 (RMSD) 来表达两种蛋白质结构之间的相似性。在最佳预测的 95% 残基上取中值 RMSD-Cα 可降低柔性尾部和晶体堆积伪影的影响。在这个指标上，AlphaFold 的 CASP14 预测与实验模型的中位距离为 0.96 Å，而次优方法为 2.83 Å。