蛋白质动力学和进化的低维特征得到了数据和理论模型的证实,这一结果更深刻地揭示了动力学和进化之间对应关系的起源。这些结果不仅有助于帮助我们理解蛋白质的功能运动和进化,而且也为蛋白质的设计提供了新的思路。
研究领域:生命系统,蛋白质动力学,进化,低维结构
论文题目:
Dynamics-Evolution Correspondence in Protein Structures
论文链接:
https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.127.098103
生物系统的动力学和进化是生命科学研究中两个核心主题。一个生物体内的动力学通常涉及的是那些细胞内快速发生的生物化学反应,正是这些反应维持着生命的日常活动,让生物适应环境。而生物的进化建立在随机突变和自然选择的基础之上,需要经年累代的积累。也就是说,动力学和进化涉及到了生命过程中两个相差巨大的时间尺度。而生物的动力学正是在漫长的进化中逐渐形成和发展的。许多研究都表明,动力学和进化这两个看起来相差巨大的过程之间存在着很高的相似性。寻找短时间尺度的动力学和长时间尺度的遗传进化之间的可能联系一直是进化和发育生物学的一个重要课题,进化生物学家和发育生物学家对这些动力学和进化过程之间是否有关系存在着长期的争论。这二者之间的关系不太容易进行定量的研究,而且这种相似性也看似缺乏理论上的依据。
近期,日本东京大学博士后唐乾元(目前在理化学研究所脑科学中心)和金子邦彦(Kunihiko Kaneko)教授以蛋白质分子为例,定量研究了蛋白质动力学和进化之间的关系,建立起了二者之间的联系,即所谓“动力学—进化对应关系(dynamics-evolution correspondence)”,相关的工作发表在物理学顶级期刊《物理评论快报》(Physics Review Letters)上。
在各种各样的生物系统中,蛋白质分子作为各种生命活动的执行者一直吸引着结构生物学家和生物物理学家们的兴趣。蛋白质的动力学和进化也一直都是生命科学研究的重要主题。
蛋白质包括催化活性在内的许多生物功能的分子基础。通常,蛋白质有一定的稳定结构,即所谓的“天然态”。在细胞内,蛋白质会受到热扰动,于是其构象会在天然态结构附近发生涨落,这种涨落会造成蛋白质结构的变形,相关的动力学与蛋白质的功能密切相关。而在更长的时间尺度下,考虑蛋白质的进化问题,蛋白质氨基酸序列会发生突变,这些突变会造成蛋白质结构的变形。从上述描述中,我们看到了蛋白质的两种不同来源的“变形”:一种是由热扰动所引起的结构变化;另一种则是由突变所引起的结构变化。前者与蛋白质的“动力学”有关,后者则与蛋白质的“进化”有关。蛋白质的这两种变形之间是否存在某种联系?
图1. 蛋白质的动力学(左)和进化(右)之间的对应关系。
在这项研究中,研究者们基于一个包含上百个蛋白质家族的数十万个蛋白质组成的数据库。对于每一个蛋白质,我们可以分析其涨落动力学;而对于每一个蛋白质家族(如下图所示,其中包含了大量结构同源的蛋白质),我们可以分析其中由于突变所造成的结构变化。通过比较这两种不同来源所导致的蛋白质结构变化,研究者们发现,在各个不同的蛋白质家族内,蛋白质的动力学和进化之间具有高度的相似性,这种相似性反映出蛋白质动力学和进化之间的对应关系。
图2. 一组结构同源的蛋白质,在结构对齐后,可以分析其因突变引起的结构变化
具体来说,这种相似性体现在如下几个方面:首先,蛋白质结构中,那些受热扰动会发生较大涨落的氨基酸残基,也更可能因序列的突变而发生重大的结构变化。其次,研究者们还发现,描述蛋白质动力学的关联矩阵和描述蛋白质进化的关联矩阵也是高度相似的。此外,相应的动力学和进化中的关联函数(关联随距离的衰减)同样显示出相似性,它们都表现出长程相关的特征 [2]。这种长程关联表明:(a)对一个残基的局部扰动可以影响空间上距离较远的其他残基的运动,这将有利于蛋白质发生大尺度的变构;(b)一个部位的突变可以导致远处部位的变化;更重要的是(c)这两种变化之间存在着对应关系。这种对应关系为理解蛋白质的功能动力学、以及分析蛋白质进化中的约束条件提供了一个统一的框架。
作者们通过一个蛋白质的简化模型解释了这种动力学—进化对应关系。在这个模型中,蛋白质被描述为“弹性网络”,其中的节点为构成蛋白质的氨基酸残基,在空间距离上靠近的氨基酸残基由弹簧连接,以蛋白质的天然态结构作为弹性网络的平衡结构。在这个模型中:
基于上述简化模型,研究者们为这种动力学与进化之间的联系找到了理论的解释。在线性近似的条件下,描述蛋白质振动的弹性矩阵(势函数相对于氨基酸残基坐标求二阶偏导所得的Hessian矩阵)与描述蛋白质进化过程中、天然态结构改变对势函数所造成的影响的经验Fisher信息矩阵是相等的。在人工智能领域的研究中,也有研究者在深层神经网络的训练中观察到类似的对应关系 [3, 4]。
有意思的是,研究者们还发现,尽管蛋白质的动力学和进化本身都涉及到非常高的自由度(组成蛋白质的成百上千个氨基酸都可以发生热涨落,也都可以在进化中发生突变),但是通过主成分分析等降维方法,可以将蛋白质的动力学和进化约化到较低的维度。在这种低维描述中,蛋白质的动力学和进化依然是高度吻合的。
这种对应关系的解释是,一方面,蛋白质天然态结构对于各种来自热噪声造成的结构改变整体表现出稳定性,然而,在蛋白质的动力学中,必须要有若干个相对敏感的运动方向,以便其发挥功能,这些特定的方向对应于蛋白质动力学中的主成分。而另一方面,面对各种突变所造成的结构改变,蛋白质的功能运动方向本身应该表现出一定的稳定性,不能因为突变造成蛋白质的功能发现巨大的改变,引发生物适应度的大幅降低 [5]。
在上述因素的影响下,蛋白质的动力学和进化都体现出鲜明的“准低维”特征,蛋白质功能运动中的构象变化被限制在低维空间,与之相应的,蛋白质的结构进化也主要被限制在这个方向上。蛋白质分子本身的模块化结构对这种低维特征有贡献。
蛋白质动力学和进化的低维特征得到了数据和理论模型的证实,这一结果更深刻地揭示了动力学和进化之间对应关系的起源。这些结果不仅有助于帮助我们理解蛋白质的功能运动和进化,而且也为蛋白质的设计提供了新的思路。不仅如此,相关的研究结果具有很强的普适性,因此对于我们研究其它生命系统(例如大脑、生物网络)乃至更一般的复杂系统也具有启发性。例如,一个人工智能系统面对着数据中的噪声,同时系统内部的连接也可以在一定的范围内发生改变,挖掘这二者之间的联系也可以对设计和训练人工智能系统提供重要的帮助。
[1] Q.-Y. Tang and K. Kaneko, Dynamics-evolution correspondence in protein structures, Phys. Rev. Lett.127, 098103 (2021)
[2] Q.-Y. Tang and K. Kaneko, Long-range correlation in protein dynamics: Confirmation by structural data and normal mode analysis, PLoS Comput. Biol. 16, e1007670 (2020).
[3] N. S. Keskar, D. Mudigere, J. Nocedal, M. Smelyanskiy, and P. T. P. Tang, On large-batch training for deep learning: Generalization gap and sharp minima, International Conference on Learning Representations (2017), https://openreview.net/forum?id=H1oyRlYgg
[4] Z. Xie, I. Sato, and M. Sugiyama, A diffusion theory for deep learning dynamics: Stochastic gradient descent escapes from sharp minima exponentially fast, International Conference on Learning Representations (2021), https://openreview.net/forum?id=wXgk_iCiYGo
[5] Q.-Y. Tang, T. S. Hatakeyama, and K. Kaneko, Functional sensitivity and mutational robustness of proteins, Phys. Rev. Research 2, 033452 (2020).
集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:
点击“阅读原文”,追踪复杂科学顶刊论文