关键词:蛋白质工程,机器学习,蛋白质适应度景观,持久谱理论



论文题目:Persistent spectral theory-guided protein engineering
论文来源:Nature Computational Science
论文链接:https://www.nature.com/articles/s43588-022-00394-y

蛋白质工程通过扫描巨大的突变空间来迭代优化蛋白质的适应度,但这受到实验设备能力的限制,现在各种机器学习模型已经大大加快了蛋白质工程的速度。三维蛋白质结构有望取得进一步的进展,但其几何复杂性阻碍了其在深度突变筛选中的应用。持久同调(persistent homology)是一种用于降低蛋白质结构复杂性的代数拓扑工具,它在过滤给定数据时无法捕获同伦形状的演化。

近日发表于 Nature Computational Science 的这篇论文介绍了一个基于拓扑的蛋白质适应度(Topology-offered Protein Fitness,TopFit)框架来补充蛋白质序列和结构嵌入。TopFit采用集成回归策略,融合了持久谱理论(persistent spectral theory,一种新的拓扑拉普拉斯理论)和两个辅助序列嵌入,以捕获突变诱导的拓扑不变量、形状演化和蛋白质适应度景观中的序列差异。TopFit的性能由34个基准数据集(128,634个变量)评估,涉及各种各样的蛋白质结构获取方式和训练集大小变化。

图1 TopFit方法的概念图

图2 拓扑持久性和同伦形状演化的PST。

图3 适应度的单次嵌入预测,基于Spearman相关测量。


复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「我的集智」推送论文信息。扫描下方二维码即可一键订阅:




推荐阅读

1. Nat. Commun. 速递:机器学习直接生成蛋白质构象集合
2. Nat. Commun. 速递:蛋白质折叠转换网络的设计和角色塑造
3. 研究速递:深度学习引入适应性,提升蛋白质结构预测能力
4. 《张江·复杂科学前沿27讲》完整上线!
5. 成为集智VIP,解锁全站课程/读书会
6加入集智,一起复杂!


点击“阅读原文”,追踪复杂科学顶刊论文