导语


AlphaFold 2的问世引发了蛋白质结构及其相互作用建模的革命,使得在蛋白质建模和设计领域有了广泛的应用。Google DeepMind and Isomorphic Labs团队在5月8日Nature的最新论文“Accurate structure prediction of biomolecular interactions with AlphaFold 3”描述了最新推出的AlphaFold 3 模型,采用了一个大幅更新的基于扩散的架构,能够联合预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的结构。新的 AlphaFold 模型在许多先前专门工具上显著提高了准确性:在蛋白质-配体相互作用方面比最先进的对接工具准确得多,比核酸特异性预测器在蛋白质-核酸相互作用方面具有更高的准确性,比 AlphaFold-Multimer v2.3.在抗体-抗原预测准确性方面显著更高。这些结果表明,在单一统一的深度学习框架内实现生物分子空间的高准确建模是可能的。

关键词:AI for Science,蛋白质结构预测
王建民 | 作者
DrugAI | 来源



生物复合物的准确模型对我们理解细胞功能以及合理设计治疗药物至关重要。随着 AlphaFold 的发展,蛋白质结构预测取得了巨大进展,该领域也随之迅速发展,并有多种后续方法建立在 AlphaFold 的思想和技术基础之上。几乎在 AlphaFold 推出后不久,就显示出简单的输入修改能够实现出人意料的准确蛋白质相互作用预测,并且专门针对蛋白质相互作用预测进行 AlphaFold 2 的训练得到了一个高度准确的系统。

这些成功引发了一个问题:是否可能在深度学习框架内准确预测包含更广泛的生物分子,包括配体、离子、核酸和修饰残基的复合物的结构。针对不同特定相互作用类型已经开发了各种预测器,以及与本工作同时开发的一个通用方法,但是这些深度学习尝试的准确性参差不齐,往往低于受物理启发的方法。几乎所有这些方法也都高度专门化于特定的相互作用类型,并且无法预测包含多种实体类型的一般生物分子复合物的结构。

 AlphaFold 3(AF3)是一个能够高准确度预测包含几乎所有在蛋白质数据银行(PDB)中的分子类型的复合物的模型。在除了一个类别之外的所有情况下,它的性能都显著高于专门针对特定任务的强大方法,包括蛋白质结构和蛋白质-蛋白质相互作用的更高准确性。

这是通过对 AlphaFold 2 架构和训练过程的重大演进实现的,既适应更一般的化学结构,又提高了学习的数据效率。该系统通过用更简单的 Pairformer 模块替换 AlphaFold 2 的 Evoformer 来减少多序列比对(MSA)处理的数量。此外,它通过使用扩散模块直接预测原子坐标,取代了 AlphaFold 2 中作用于氨基酸特定框架和侧链扭转角的结构模块。扩散过程的多尺度性质(低噪声水平促使网络改善局部结构)还使我们能够消除立体化学损失,并且在网络中大部分特殊处理键合模式,轻松适应任意化学组分。

图 1




网络架构和训练




AF3的整体结构与AlphaFold 2相似,都有一个大的主干,用于演化出化学复合物的成对表示,然后是一个结构模块,利用这种成对表示生成显式的原子位置,但是每个主要组件都有很大的不同。这些修改既是为了满足广泛的化学实体而不过度特殊处理,也是基于对AlphaFold 2在不同修改下性能的观察。在主干中,MSA处理被大幅减少,采用了更小更简单的MSA嵌入块。与AlphaFold 2的原始Evoformer相比,块的数量减少到四个,MSA表示的处理采用了廉价的成对加权平均,后续处理步骤仅使用了成对表示。”Pairformer”取代了AlphaFold 2的”Evoformer”成为主要的处理块。它仅操作成对表示和单一表示;MSA表示未保留,所有信息都通过成对表示传递。成对处理和块的数量基本与AlphaFold 2相同。得到的成对和单一表示与输入表示一起传递给新的扩散模块,取代了AlphaFold 2的结构模块。

扩散模块直接在原子坐标和粗糙的抽象令牌表示上操作,而不需要旋转框架或任何等变处理。我们在AlphaFold 2中观察到,消除大部分结构模块的复杂性对预测准确性只有较小影响,而保持主链框架和侧链扭转表示对一般的分子图增加了相当多的复杂性。类似地,AlphaFold 2在训练期间需要精心调整的立体化学违规惩罚来强制执行结果结构的化学合理性。我们使用相对标准的扩散方法,在这种方法中,扩散模型被训练接收“加噪”的原子坐标然后预测真实坐标。这个任务要求网络在多种长度尺度上学习蛋白质结构,其中小噪声下的去噪任务强调了对局部立体化学的理解,而高噪声下的去噪任务则强调了系统的大尺度结构。在推断时,会采样随机噪声,然后通过递归去噪产生最终的结构。重要的是,这是一个生成式的训练过程,会生成一系列答案的分布。这意味着,对于每个答案,局部结构都将被明确定义,即使网络对位置不确定。因此,我们能够避免对残基进行基于扭转的参数化和结构上的违规损失,同时处理通用配体的全部复杂性。与最近的一些工作类似,我们发现,与分子的全局旋转和平移相关的不变性或等变性在体系结构中是不需要的,因此我们省略了它们,以简化机器学习架构。

采用生成式扩散方法也带来了一些技术挑战,我们需要解决这些挑战。最大的问题是生成模型容易产生幻觉,即模型可能在无结构的区域中发明看似合理的结构。为了抵消这种效果,我们使用了一种新颖的交叉蒸馏方法,其中我们通过AlphaFold-Multimer v2预测的结构丰富了训练数据。在这些结构中,无结构区域通常由长的延伸环代替紧凑的结构,并在它们上进行训练可以使AlphaFold 3模仿这种行为。这种交叉蒸馏大大减少了AF3的幻觉行为。

研究人员开发了置信度度量,用于预测最终结构中的原子级和成对级误差。在AlphaFold 2中,这是通过在训练期间回归结构模块输出中的误差来直接完成的。然而,这个过程对扩散训练不适用,因为扩散训练只训练了一个扩散步骤,而不是一个完整的结构生成。为了解决这个问题,我们开发了一种扩散的“回滚”程序,用于训练期间的完整结构预测生成。然后使用这个预测的结构对对称的真实链和配体进行排列,并计算性能指标来训练置信度头。置信度头使用成对表示来预测LDDT(pLDDT)和预测对齐误差(PAE)矩阵,就像AlphaFold 2中一样,以及距离误差矩阵(PDE),即与真实结构相比预测结构的距离矩阵中的误差。

图 2

图2d显示,在初始训练期间,模型迅速学习预测局部结构(所有链内指标迅速上升,并在前20000个训练步骤内达到最大性能的97%),而模型需要较长时间来学习全局结构(界面指标增长缓慢,并且蛋白质-蛋白质界面LDDT仅在60000个步骤后才达到97%)。在AF3的开发过程中,我们观察到一些模型能力相对较早达到顶峰并开始下降(很可能是由于对这种能力的有限训练样本过拟合),而其他能力仍然未被充分训练。我们通过增加/减少相应训练集的采样概率以及使用所有上述指标的加权平均和一些额外指标进行早停来解决这个问题,以选择最佳模型检查点。使用更大的裁剪大小进行的微调阶段改进了所有指标的模型,特别是在蛋白质-蛋白质界面上有很大提升。




不同复合物类型的准确度




AF3可以从输入的聚合物序列、残基修饰和配体SMILES中预测结构。图3中展示了一些示例,突显了该模型对多种生物学重要和治疗相关模态的泛化能力。选择这些示例时考虑了个体链和界面与训练集的相似性的新颖性。

图 3

研究人员评估了该系统在每种复合物类型的最新界面特定基准上的性能。对于蛋白质-配体界面的性能评估是在PoseBusters基准集上进行的,该集合由2021年或之后发布到PDB的428个蛋白质-配体结构组成。由于我们的标准训练截止日期是在2021年,研究人员单独训练了一个带有较早训练集截止日期的AF3模型。在PoseBusters集合上的准确度报告为蛋白质-配体对中口袋对齐配体RMSD小于2 Å的百分比。基准模型分为两类:一类仅使用蛋白质序列和配体SMILES作为输入,另一类则额外泄露了已解析的蛋白质-配体测试结构的信息。传统的对接方法使用后者的特权信息,尽管在实际使用情况下这些信息不可用。即便如此,AlphaFold 3在不使用任何结构输入的情况下也大大优于诸如Vina等经典对接工具(Fisher精确p=2.27 * 10-13),甚至在不使用任何结构输入的情况下也远远优于所有其他真正的盲对接工具,如RoseTTAFold All-Atom(p=4.45 * 10-25)。扩展数据图3显示了三个示例,其中AlphaFold 3实现了准确预测,但对接工具Vina和Gold没有成功。PoseBusters分析是使用了2019年9月30日的AlphaFold 3训练截止日期,以确保模型未经过PoseBusters结构的训练。为了与RoseTTAFold All-Atom的结果进行比较,我们使用了PoseBusters版本1。版本2(从基准集中去除了晶体接触)的结果,包括质量指标,显示在扩展数据图4b-f和扩展数据表1中。我们使用多个种子以确保正确的立体化学并避免轻微的蛋白质-配体碰撞(而不是像扩散引导一样强制执行),但通常能够产生高质量的立体化学。另外,我们还训练了一个接收“口袋信息”的AlphaFold 3版本,这是一些最近深度学习工作所使用的。

AF3能够比RoseTTAFold2NA更准确地预测蛋白质-核酸复合物和RNA结构。由于RoseTTAFold2NA仅针对1000个残基以下的结构进行验证,研究人员仅使用最近的PDB评估集中1000个残基以下的结构进行比较。AlphaFold 3能够预测具有数千个残基的蛋白质-核酸结构,图3a显示了其中的一个示例。请注意,研究人员没有直接与RoseTTAFold All-Atom进行比较,但基准表明,RoseTTAFold All-Atom在核酸预测方面与RoseTTAFold2NA相当或略低于其准确性。研究人员还评估了AF3在10个公开可用的CASP15 RNA目标上的表现:研究人员在自己和它们的预测的公共子集上的平均性能高于RoseTTAFold2NA和AIchemy_RNA(CASP15中的最佳基于AI的提交,也是最好的AI)。在各自的常见子集上,见扩展数据图5a以获取详细结果。研究人员没有达到最佳人类专家辅助的CASP15提交AIchemy_RNA241的性能水平。由于数据集大小有限,研究人员在这里不报告显著性检验统计数据。有关仅预测核酸(不包括蛋白质)的准确性的进一步分析,请参见扩展数据图5b。

AF3还可以准确预测共价修饰(键合配体、糖基化和修饰的蛋白质残基和核酸碱基)。这些修饰包括任何聚合物残基(蛋白质、RNA或DNA)。我们将准确性报告为成功预测的百分比(口袋RMSD < 2 Å)。我们对键合配体和糖基化数据集应用质量过滤器(与PoseBusters一样):我们仅包括具有高质量实验数据的配体(根据RCSB结构验证报告,ranking_model_fit > 0.5,即具有中位数以上模型质量的X射线结构)。与PoseBusters集合一样,键合配体和糖基化数据集不是通过与训练数据集的同源性来筛选的。基于结合的聚合物链同源性的筛选(使用聚合物模板相似度 < 40)只产生了5个键合配体和7个糖基化的聚类。在这里,我们排除了多残基糖基,因为RCSB验证报告没有为它们提供ranking_model_fit值。在所有质量实验数据上,多残基糖基的成功预测百分比(口袋RMSD < 2 Å)为42.1%(N = 131聚类),略低于所有质量实验数据上单残基糖基的成功率46.1%(N = 167)。修改的残基数据集与我们的其他聚合物测试集类似进行了过滤:它仅包含具有与训练集低同源性的聚合物链中的修改残基。

在扩展建模能力的同时,相对于AlphaFold-Multimer v2.3,AF3在蛋白质复合物准确性上也有所提高。通常,蛋白质-蛋白质预测成功率(DockQ > 0.23)增加了(配对Wilcoxon符号秩检验,p = 1.8 * 10-18),特别是抗体-蛋白质相互作用的预测表现出显著改善。单体蛋白质LDDT的改善也是显著的。AF3对MSA深度的依赖性与AF-M 2.3非常相似;具有浅MSA的蛋白质预测准确性较低。




预测的置信度与准确性相一致




与AlphaFold 2类似,AlphaFold 3的置信度度量与准确性很好地校准。研究人员的置信度分析是在最近的PDB评估集上进行的,没有同源性过滤,包括肽段。我们对配体类别进行了过滤,只考虑高质量的实验结构,并且只考虑标准的非键合配体。有关键合配体和其他界面的类似评估,请参见扩展数据图8。所有统计数据都是按聚类加权的,并仅考虑排名最高的预测。

图 4

图4a的顶部行中,我们将链对ipTM(界面预测TM分数)与界面准确性度量绘制出来:蛋白质-蛋白质DockQ,蛋白质-核酸iLDDT以及蛋白质-配体成功,成功定义为在经过阈值处理的口袋对齐RMSD值下的例子百分比。在图4a的底部行中,我们将每个蛋白质、核苷酸或配体实体的平均pLDDT绘制出来,与我们专门设计的LDDT_to_polymer指标进行比较,该指标与pLDDT预测器的训练目标密切相关。

图4b-e中,研究人员突出显示了7T82的单个示例预测,其中每个原子的pLDDT着色标识了不确定的链尾、有些自信的界面以及其余自信的次级结构。在图4c中,相同的预测按链进行了着色,图4d显示了DockQ界面评分,图4d的轴上显示了每个链的颜色作为参考。从图4e中我们可以看到,对于DockQ > 0.7的粉灰色和蓝橙色残基对,PAE置信度很高,而对于具有DockQ≈0的粉橙色和粉蓝色残基对,置信度最低。在另一个示例中,含有蛋白质和核酸链的PAE分析请参见扩展数据图5c-d。




模型局限性




研究人员注意到AlphaFold 3模型在立体化学、幻觉、动态性和对某些目标的准确性方面存在局限性。

立体化学方面,研究人员注意到两个主要的违规类别。首先,尽管模型接收了具有正确手性的参考结构作为输入特征,但模型的输出并不总是遵守手性规则。为了解决这个问题,在PoseBusters基准测试中,研究人员在模型预测的排名公式中包含了手性违规的惩罚项。尽管如此,研究人员仍然观察到基准测试中4.4%的手性违规率。第二类立体化学违规是模型偶尔会产生重叠(“碰撞”)的原子预测。有时这会表现为同构体中的极端违规,其中整个链被观察到重叠。在排名时对碰撞进行惩罚可以减少这种故障模式的发生,但无法完全消除。几乎所有剩余的碰撞都发生在蛋白质-核酸复合物中,这些复合物既有超过100个核苷酸又有超过2000个残基。

研究人员注意到从非生成式的AlphaFold 2模型转换为基于扩散的AlphaFold 3模型引入了在无序区域产生虚假结构顺序(幻觉)的挑战。虽然幻觉区域通常被标记为非常低的置信度,但它们可能缺乏AlphaFold 2在无序区域产生的独特的丝带状外观。为了在AF3中鼓励产生丝带状预测,我们使用了AlphaFold 2预测的蒸馏训练,并添加了一个排名项以鼓励产生更多的溶剂可及表面积。

蛋白质结构预测模型的一个关键局限性是它们通常预测的是PDB中所见的静态结构,而不是溶液中生物分子系统的动态行为。这个限制在AlphaFold 3中仍然存在,即使使用多个随机种子来进行扩散头或整个网络的训练,也无法产生解集的近似。

某些情况下,模拟的构象状态可能不正确或不全面,鉴于指定的配体和其他输入。例如,E3泛素连接酶在天然状态下采用开放构象,只有当结合配体时才观察到闭合状态,但是AF3专门预测了闭合状态,无论是在完整还是天然系统中。许多方法已经被开发出来,特别是围绕MSA重新采样,它们有助于从先前的AlphaFold模型中生成多样性,并且也可能有助于使用AF3进行多状态预测。

图 5

尽管AlphaFold 3在建模精度方面取得了巨大进步,但仍有许多目标的精确建模可能具有挑战性。为了获得最高的准确性,可能需要生成大量的预测并对其进行排名,这会增加额外的计算成本。研究人员观察到这种效应最明显的一类目标是抗体-抗原复合物,与其他近期的工作类似。图5a显示,对于AlphaFold 3,随着模型种子数量的增加,排名靠前的预测结果不断提高,甚至在1000个种子时仍然如此(使用蛋白质-蛋白质界面ipTM进行排名)。在其他类别的分子中,一般不会观察到使用多个种子时的这种大幅提高。对于AF3预测,每个模型种子只使用一个扩散样本而不是五个并不会显著改变结果,这表明运行更多的模型种子对于抗体评分的改进是必要的,而不仅仅是增加扩散样本。




结论




分子生物学的核心挑战是理解并最终调控生物系统中复杂的原子相互作用。AlphaFold 3模型朝着这个方向迈出了重要的一步,展示了在一个统一的框架中准确预测各种生物分子系统的结构是可能的。虽然在实现所有类型的相互作用的高度准确预测方面仍存在着重大挑战,但研究人员证明了可以构建一个深度学习系统,它对所有这些相互作用都表现出强大的覆盖和泛化能力。研究人员还证明了缺乏跨实体进化信息并不是阻碍在预测这些相互作用方面取得进展的重大障碍,而且抗体结果的显著改进表明AlphaFold衍生的方法能够在不依赖MSA的情况下对分子相互作用类别的化学和物理进行建模。最后,蛋白质-配体结构预测的大幅改进表明,在通用深度学习框架内,处理化学空间的广泛多样性是可能的,而无需人为地将蛋白质结构预测与配体对接分开。

自下而上地建模细胞组分是解开细胞内分子调控复杂性的关键一步,AlphaFold 3的性能表明,开发正确的深度学习框架可以大大减少获得这些任务上生物相关性能所需的数据量,并放大已经收集到的数据的影响。研究人员预计,结构建模将继续改进,不仅是因为深度学习的进步,还因为实验结构确定方法的持续方法学进步,比如冷冻电子显微镜和断层扫描的显著改进,将为这些模型的泛化能力提供丰富的新训练数据。实验和计算方法的并行发展将推动我们进入一个结构上明智的生物理解和治疗开发时代。

参考资料

1. Abramson, J., Adler, J., Dunger, J. et al. Accurate structure prediction of biomolecular interactions with AlphaFold 3. Nature (2024). https://doi.org/10.1038/s41586-024-07487-w

2. https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/

3. https://www.isomorphiclabs.com/articles/alphafold-3-predicts-the-structure-and-interactions-of-all-of-lifes-molecules

4. https://www.isomorphiclabs.com/articles/rational-drug-design-with-alphafold-3



大模型与生物医学:

AI + Science第二季读书会


生物医学是一个复杂且富有挑战性的领域,涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入,使得我们能够从前所未有的角度去观察和理解这个领域的问题,加速科学研究的步伐,提高医疗服务的效率和效果。这种交叉领域的合作,标志着我们正在向科技与生物医学深度融合的新时代迈进,对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。

集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩,华盛顿大学博士研究生屠鑫明,共同发起以“大模型与生物医学”为主题的读书会,共学共研相关文献,探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:

大模型与生物医学:AI + Science第二季读书会启动



推荐阅读
1. Nat. Commun. 速递:蛋白质折叠转换网络的设计和角色塑造
2. PNAS 速递:蛋白质结构预测中 transformer 的变换能力
3. 巴拉巴西新作:AI-Bind 助力蛋白质-配体结合预测
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5龙年大运起,学习正当时!解锁集智全站内容,开启新年学习计划
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会