导语

当细胞外环境发生变化时,细胞内信号分子的表达量会相应变化来调控细胞产生应激反应。理解和量化信号分子动力学传递的信息是定量生物领域的一个难题。加州大学洛杉矶分校定量与计算生物科学研究所的多位学者,开发了一个计算方法来回答这个问题,近日发表于 Nature Communications。作者利用隐马尔可夫模型学习和重构了单细胞信号分子的动力学,并计算了数据的轨迹熵和动力学互信息,以此量化了细胞通过生化信号分子有效地区分刺激物的数量和顺序。

汤迎 | 作者邓一雪 | 编辑

 

论文题目:
Quantifying information accumulation encoded in the dynamics of biochemical signaling
论文地址:https://www.nature.com/articles/s41467-021-21562-0

1. 背景介绍

当细胞遇到环境中的刺激物时,细胞内信号分子的表达量会发生变化,以此调控细胞产生应激反应。当细胞适应环境变化时,细胞内的信号转导会用随时间变化的信号分子的动力学来编码和传递信息,即信息被编码在信号分子的复杂动力学中。近年来随着实验技术的发展,研究生物系统中的单细胞数据不断积累 [1],科学家们可以实时测量多个单细胞内的信号分子表达量随时间变化的数据,这就产生了一组复杂的随机时间序列组。这类数据中往往带有蛋白随机表达带来的噪声,细胞与细胞间高度的异质性带来的随机性。此类时间序列的动力学构象空间也很复杂 [2],其可能的轨迹构象数目会随着时间点的数量而指数增加。这些特点都为时间序列的精确分析带来了挑战。


图1:当细胞受到刺激时,细胞内信号分子的反应会将信息传递至细胞核。信号分子表达和刺激物之间的互信息可以量化细胞能有效区分的刺激物数量。

对于这类数据,往往没有预先知道的数学方程来描述,数据中的随机性也会降低用定量模型来学习和分析时间序列的准确性。因此,研究者应用概率意义下的信息论来分析单细胞信号分子数据中的有效信息 [3],其中刺激物和单细胞信号分子表达量之间的互信息(Mutual Information)可以度量细胞能以该信号分子有效区分的不同刺激物种类(图1)。然而,噪声会影响计算互信息的准确度,给计算细胞内信号分子的信息传递带来干扰。特别地,如何量化信号分子动力学构象中随着时间的信息累积是一个尚未解决的问题。

 

2. 动力学互信息

计算细胞内信号分子的信息传递是定量生物领域近些年的一个热点问题。在以往的研究中,文献 [3]利用单个时间点的数据计算了互信息。但该方法无法得到信号分子在一个时间区间内传递的信息。此外,常用的信息论中的度量,比如 transfer entropy 等,主要考虑的是两个连续时间点之间的关系,而计算整条时间序列动力学中包含的信息是一个难题。比如,文献 [2]中分析时间序列的方法只在时间点较少时有效。另一种使用机器学习分类器的方法 [4]只能对互信息提供了一个下界,因为采用线性主成分的分类器不能完全区分含有振荡动力学的时间序列。


图2:量化互信息的三种代表性方法

为了量化信号动力学中编码的互信息,并进一步揭示信息传递如何随时间变化,作者开发了一个计算框架来量化在生化信号动力学中编码的信息积累(图2),被命名为动力学互信息 [5]。计算结果能够揭示细胞如何实时地对环境变化做出反应而传递的信息量。

 

3. 运用机器学习模型
重构单细胞信号分子动力学

具体地,为了有效地分析具有噪声、异质性和复杂动力学构象的时间序列,作者利用隐马尔可夫模型(Hidden Markov Model)来学习时间序列的动力学。隐马尔可夫模型通常被应用在语音识别等经典机器学习问题,而未曾被应用到的生物中细胞信号分子的表达过程。作者发现可以通过隐马尔可夫模型近似地重构单细胞信号分子的时间序列。对于模型推断,通过最大期望算法,比如 Baum-Welch 算法,可以推断出最优的输出概率和转移概率来近似地重构时间序列。通过进一步寻找最优的隐变量和输出变量状态数,模型可以在没有过拟合的情况下,重构出有80%左右准确度的时间序列组。比如,对于巨噬细胞中的免疫分子NFkB的单细胞数据(~500条),即使是对最难重构的具有非同步震荡的时间序列组,训练一个隐马尔可夫模型能够近似地重构出数据(图3)。


图3:实验数据(单细胞NFkB分子表达量)和隐马尔可夫模型的重构

 

4. 动力学互信息揭示了细胞区分刺激物的数量和顺序

基于模型的重构,作者进一步计算了在生化信号动力学中编码的互信息。具体而言,作者计算了每条时间序列的轨迹熵 [6],以及信号分子与刺激物之间的互信息。这种在轨迹空间中计算互信息的理论方法,能够给出随着时间的推移而积累的信息(图4)。对于免疫反应分子NFkB,动力学互信息揭示了细胞能有效识别刺激物种类随时间的变化,和细胞识别特定刺激物(如细菌和病毒)的时间顺序。

图4:动力学信息给出随着时间变化能有效识别的刺激物种类和顺序。(a)对于13种不同的刺激物,能有效识别约22=4种刺激物,且大部分有效识别发生在2小时前。当时间点被随机转换后信息量降低,说明时间序列的动力学包含信息。(b)细胞会以特定的时间顺序来区分不同的成对刺激物。

 


5. 总结

作者采用隐式马尔可夫模型来学习具有高度随机性和异质性的分子信号,并发展了在轨迹空间中计算动力学互信息的方法(图5)。对于免疫反应,这种互信息揭示了细胞识别刺激物的数量和时间顺序。此外,作者将信息积累的时间段与细胞内基因调控的机制对应起来 [5]。文中还将这套框架用于研究其他信号分子,如MAPK和p53。

这套计算框架普遍适用于单细胞时间序列数据分析,可用于分析细胞中与时间相关的调控机制是如何传输信息的,从而帮助理解复杂生命体中的信息传递过程。

计算框架代码:
https://github.com/signalingsystemslab/dMI

作者汤迎即将加入北京师范大学珠海校区的自然科学高等研究院从事统计物理和复杂系统的研究,期待与相关同行交流合作。邮箱:jamestang23@gmail.com

参考文献
[1] X. Qiu, Q. Mao, Y. Tang, L. Wang, R. Chawla, H. A. Pliner, and C. Trapnell, Reversed Graph Embedding Resolves Complex Single-Cell Trajectories, Nature Methods 14, 979 (2017).
[2] J. Selimkhanov, B. Taylor, J. Yao, A. Pilko, J. Albeck, A. Hoffmann, L. Tsimring, and R. Wollman, Accurate Information Transmission through Dynamic Biochemical Signaling Networks, Science 346, 1370 (2014).
[3] R. Cheong, A. Rhee, C. J. Wang, I. Nemenman, and A. Levchenko, Information Transduction Capacity of Noisy Biochemical Signaling Networks, Science 334, 354 (2011).
[4] A. A. Granados, J. M. J. Pietsch, S. A. Cepeda-Humerez, I. L. Farquhar, G. Tkačik, and P. S. Swain, Distributed and Dynamic Intracellular Organization of Extracellular Information, PNAS 115, 6088 (2018).
[5] Y. Tang, A. Adelaja, F. X.-F. Ye, E. Deeds, R. Wollman, and A. Hoffmann, Quantifying Information Accumulation Encoded in the Dynamics of Biochemical Signaling, Nat. Commun. 12, 1 (2021).
[6] U. Seifert, Entropy Production along a Stochastic Trajectory and an Integral Fluctuation Theorem, Phys. Rev. Lett. 95, 040602 (2005).

网络科学新课推荐:网络动力学



集智学园特邀陈关荣、项林英、樊瑛、宣琦、李翔、史定华、李聪、荣智海、周进、王琳等网络科学专家作为导师,依托汪小帆、李翔、陈关荣的经典教材《网络科学导论》,自2月27日起开展系列上线课程,以网络动力学为主线构建网络科学知识体系。欢迎希望进入网络科学领域、提高网络分析能力、与一线专家探讨问题的朋友报名参加!


点击查看课程详情:2021重磅新课:探索网络动力学——网络科学第二期

推荐阅读

PRX生物物理前沿:噪声驱动的细胞不同状态跳转的动力学机理Physics Reports研究速递:大脑复杂网络动力学下的创造和意识复杂网络动力学机器学习自动建模
加入集智,一起复杂!

点击“阅读原文”,追踪复杂科学顶刊论文