关键词:变分自动编码器,生成模型,生成景观,蛋白质预测


论文题目:Latent generative landscapes as maps of functional diversity in protein sequence space
论文来源:Nature Communications
论文链接:https://www.nature.com/articles/s41467-023-37958-z

变分自动编码器是具有生成能力的无监督机器学习模型,当应用于蛋白质数据时,它们可以通过系统发育对序列进行分类,并生成保留蛋白质组成统计特性的新序列。

以前的研究集中在聚类和生成特征上,最新发表于 Nature Communications 的这项研究,评估的是序列信息所嵌入的潜在流形(underlying latent manifold)。为了研究潜在流形的特性,作者利用直接耦合分析和 Potts Hamiltonian 模型来构建一个潜在的生成景观。论文展示了这一景观是如何捕捉系统发育分组,以及包括 Globins、β-内酰胺酶、离子通道和转录因子在内的几个系统的功能和适应特性的。这项研究说明景观如何帮助我们理解实验数据中观察到的序列变异性的影响,并提供关于定向和自然蛋白质演化的洞察力。将变分自动编码器的生成特性和功能预测能力与协同演化分析结合起来,可能有利于蛋白质工程和设计的应用。

文章指出,蛋白质序列空间中存在着许多不同的功能,但是这些功能之间的关系很难被直接观察到。作者们使用了一种新的方法来研究这些功能之间的关系,这种方法被称为“潜在生成景观”。潜在生成景观可以用来描述蛋白质序列空间中的功能多样性,并且可以用来预测新的蛋白质序列的功能。

图1. 潜在生成景观 (LGL) 方法概述。


图2. 熵和哈密顿分数与 tRNA 合成酶家族训练序列保真度之间的关系。


图3. 局部生成景观在蛋白质工程中的应用。




编译|刘志航

AI+Science 读书会启动


详情请见:
人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动


推荐阅读

1. 巴拉巴西新作:AI-Bind 助力蛋白质-配体结合预测
2. Science前沿:大语言模型涌现演化信息,加速蛋白质结构预测
3. Science 速递:大语言模型对蛋白质结构进行演化尺度预测
4. 《张江·复杂科学前沿27讲》完整上线!
5. 成为集智VIP,解锁全站课程/读书会
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会