导语


在生物学中心法则的起点,基因作为生命复杂系统的遗传信息载体,在生命周期内稳定存在;而位于中心法则末端的蛋白质,其组织构成和时空变化的复杂性呈指数式增长。随着分子生物学数十年来的突飞猛进,尤其是生命组学(基因组学、转录组学、蛋白质组学和代谢组学等的集合)等领域的日新月异,当代生命科学临近爆发的边缘。如此海量的数据如何帮助我们揭示宇宙中最复杂的物质系统——“人体”的构成原理和设计原理?阐释人类发育、衰老和重大疾病的发生机制?

集智俱乐部联合西湖大学理学院及交叉科学中心讲席教授汤雷翰,国家蛋白质科学中心(北京)副研究员常乘、李杨,香港浸会大学助理教授唐乾元,北京大学前沿交叉学科研究院研究员林一瀚,中国科学院分子细胞科学卓越创新中心博士后唐诗婕,共同发起「生命复杂系统的构成原理」读书会,从微观细胞尺度、介观组织器官尺度到宏观人体尺度,梳理生命科学领域中的重要问题及重要数据,由生物学家提问,希望促进统计物理、机器学习方法研究者和生命科学研究者之间的深度交流,建立跨学科合作关系,激发新的研究思路和合作项目。读书会从2024年8月6日开始,每周二晚19:00-21:00进行,持续时间预计10-12周。欢迎对这个生命科学、物理学、计算机科学、复杂系统科学深度交叉的前沿领域感兴趣的朋友加入!

关键词:生命复杂系统,生命组学,统计物理,机器学习,多尺度建模





读书会背景




在当今生命科学的研究中,理解生物体的复杂性已成为一个关键的科学挑战。众所周知,细胞是生命的基本单位,构成了从微观到宏观不同层级的生命结构——从单个细胞到复杂的器官,再到整个生物体。研究这些层级间的相互作用和规律,对于揭示生命现象的本质具有重要意义。一方面,利用先进的生命组学技术(如各类单细胞组学技术、空间组学技术),研究人员已经产出了PE级的海量组学数据。在人类细胞图谱计划(Human Cell Atlas)、人体蛋白质组导航计划(the Proteomic Navigator of the Human Body project, 简称π-HuB计划)等国际大科学计划的支持下,本着“测量一切可测之物”的原则,我们将还原论发挥到极致。

另一方面,随着大量生命科学数据(包括多组学数据)、实验数据乃至人工智能预测数据的累积,整合这些数据,建立起跨尺度的生命科学理解已经成为非常关键的问题。理解生命的复杂性需要从微观到宏观、多层次、多尺度进行系统研究。通过跨学科合作和技术创新,我们能够更加全面地解析生命现象的本质,为生物医学研究和探索提供科学依据和技术支持。在未来的研究中,细胞层面、组织和器官层面以及虚拟人体建模的多尺度整合,将成为揭示生命奥秘和推动医学进步的关键途径。

本次读书会,我们从生物角度出发,梳理生命科学领域中的重要问题以及重要数据,希望促进统计物理/机器学习方法研究者和组学研究者之间的深度交流,分享最新的研究方法和技术,建立跨学科合作关系,激发新的研究思路和合作项目,加速科学问题的解决;明确当前生命科学研究中值得关注和有待解决的重要科学问题,为下一步的深入研究制定切实可行的研究计划,为生命科学的前沿研究提供新的动力和方向。




读书会框架




在本次读书会中,我们希望深入探讨以下几大类问题:

1. 如何利用统计物理和机器学习方法,揭示细胞身份鉴定、细胞状态转换和命运决策的机制?

2. 如何研究器官的不同细胞类型的具体分工原则?

3. 如何有效整合和分析来自不同组学(如基因组学、转录组学、蛋白质组学和代谢组学)的数据,以揭示生物系统的整体特性和动态变化?

从微观细胞尺度、介观组织器官尺度,到宏观人体尺度,此次读书会分为如下几个主题,并以统计物理视角贯穿其中,希望能够提供一种跨尺度视角帮助梳理生命科学领域的重要问题。





与复杂系统的关系




统计物理学通过研究大量微观个体的集体行为,揭示出复杂系统的宏观性质,为生命科学提供了独特的视角和工具。统计物理在理解生命科学多尺度的复杂现象中已有许多成功的应用:

在分子尺度上,利用统计物理中的能量景观理论,可以研究蛋白质折叠过程中的动力学路径和天然态结构,从而理解蛋白质的功能运动机制。在细胞尺度上,统计物理方法能够帮助我们理解基因调控网络的复杂动态行为。通过构建和分析基因调控网络的模型,我们能够揭示基因表达的调控机制和动力学特性。在更大的尺度上,统计物理方法可以研究神经元网络的集体行为和自组织临界现象,揭示大脑的功能和信息处理机制。此外,统计物理还可以用于理解细胞群体乃至鸟群的集体行为,研究生态系统的种群动态和进化过程,揭示物种间的相互作用和适应机制。这些跨尺度的研究深化了我们对生命复杂性的认识。

随着人工智能技术的发展和更多生物大数据的累积,统计物理方法与生命科学的融合将更加深入和广泛。这种融合不仅有望揭示更多生命的奥秘,还能够为解决生物医学问题提供新思路和新方法。

利用统计物理和人工智能,我们可以在多个方面取得突破。在疾病诊断与治疗方面,统计物理通过分析复杂生物数据,提高诊断准确性,设计个性化治疗方案,从而提升临床疗效。在基因编辑与合成生物学领域,统计物理和人工智能技术指导基因编辑,优化基因调控网络,设计和构建新生物系统,实现从头设计生命。此外,统计物理方法整合和分析不同类型的组学数据(如基因组学、转录组学、蛋白质组学和代谢组学),揭示生物系统的整体特性和动态变化,帮助理解复杂生物过程,发现新生物标志物,开发新诊断和治疗方法。

总之,统计物理与生命科学的深度融合将推动生命科学研究和应用的创新和突破。未来,通过协同作用,我们将更全面地理解生命现象,解决重大生物医学问题,实现生命的工程化改造和创新设计,为人类健康和科技进步做出更大贡献。





发起人团队




汤雷翰,西湖大学理学院及交叉科学中心讲席教授。本科毕业于中国科技大学,1981年经李政道教授组织的CUSPEA项目赴美国Carnegie Mellon大学读研,1987年获得物理学博士学位。1996年任职英国帝国理工学院Blackett实验室讲师,1997年加入香港浸会大学物理系,历任副教授、教授。2020-2024年,他担任香港浸会大学计算和理论研究所主任。2010-2020年期间,他在北京计算科学研究中心主管复杂系统研究部。2024年受聘于西湖大学,任理学院及交叉科学中心讲席教授。

常乘,国家蛋白质科学中心(北京)副研究员,中国生物信息学学会(筹)生物数据资源专委会委员,长期从事计算蛋白质组学及生物信息学研究,形成了具有自主知识产权的大规模蛋白质组数据精准解析流程和相应算法、软件。2010年毕业于湖南大学电子信息工程专业获得工学学士学位,2015年从国家蛋白质科学中心博士毕业获理学博士学位。曾获2020年中国发明协会发明创新奖一等奖(排名第4),H-index 20。个人主页:https://orcid.org/0000-0002-0361-2438

李杨,国家蛋白质科学中心(北京)副研究员,2012年毕业于清华大学获得工学学士学位,2017年从国家蛋白质科学中心博士毕业获理学博士学位。主要研究方向:基于人工智能方法的生物学网络的计算构建;基于组学大数据解析生物系统构成性。

唐乾元,香港浸会大学助理教授,集智科学家,集智-凯风研读营学者。南京大学物理学博士,曾是是日本理化学研究所博士后。研究方向:数据驱动的复杂系统研究;生物医学领域的人工智能;蛋白质进化和动力学;生物系统的复杂性和临界性。

林一瀚,北京大学前沿交叉学科研究院研究员,北京大学定量生物学中心研究员,北京大学-清华大学生命科学联合中心研究员。2005年毕业于中国科学技术大学获学士学位,2011年毕业于芝加哥大学获博士学位;2011-2016年在加州理工学院生命科学与工程部做博士后研究。2017年起任北京大学定量生物学中心研究员。研究方向:定量单细胞生物学、系统生物学、合成生物学。

唐诗婕,中国科学院分子细胞科学卓越创新中心博士后。本科就读于同济大学生物信息学专业,2016年进入中国科学院分子细胞科学卓越创新中心陈洛南研究员课题组攻读博士学位,2022年7月开始从事博士后研究。主要研究方向是利用多组学数据对癌症恶性进展分子机制的研究。

本季读书会运营负责人

梁金,统计物理硕士,集智俱乐部副主编。兴趣领域:物理,涌现,科普写作。





报名参与读书会




本读书会适合参与的对象

  • 基于复杂系统相关学科研究,对生命复杂系统、统计物理、机器学习与人工智能、AI4Science、多尺度建模等主题有有浓厚兴趣的科研工作者;
  • 具有一定生命科学、医学、物理学、复杂科学、计算机科学等相关领域学科背景,想进一步进行交叉学科研究与交流的学者、研究生、本科生。
  • 对复杂系统科学充满激情,对生命问题充满好奇的探索者,且具备一定的英文文献阅读能力。
  • 想锻炼自己科研能力或者有出国留学计划的高年级本科生及研究生。


社群管理规则

为确保专业性和讨论的聚焦,本读书会谢绝脱离读书会主题和复杂科学问题本身的空泛的哲学和思辨式讨论;不提倡过度引申在社会、人文、管理、政治、经济等应用层面的讨论。我们将对参与人员进行筛选,如果出现讨论内容不符合要求、经提醒无效者,会被移除群聊并对未参与部分退费,解释权归集智俱乐部所有。


运行模式

本季读书会预计讨论分享10-12次,以主题分享的形式按照暂定框架贯次展开;每周进行线上会议,与会者可以广泛参与讨论,会后可以获得视频回放持续学习。

举办时间
从2024年8月6日开始,每周二19:00-21:00,持续时间预计10-12周
我们也会对每次分享的内容进行录制,剪辑后发布在集智斑图网站上,供读书会成员回看,因此报名的成员可以根据自己的时间自由安排学习时间。


参与方式

此次读书会为线上闭门读书会,采用的会议软件是腾讯会议(请提前下载安装)。在扫码完成报名并添加负责人微信后,负责人会将您拉入交流社区(微信群),入群后告知具体的会议号码。

报名方式

第一步:扫码填写报名信息

扫码报名读书会

斑图地址:https://pattern.swarma.org/study_group/48

第二步:填写信息后,付费299元。

第三步:添加负责人微信,拉入对应主题的读书会社区(微信群)。

本读书会可开发票,请联系相关负责人沟通详情。


共学共研模式与退费机制

读书会采用共学共研的机制,围绕前沿主题进行内容梳理和沉淀。读书会成员可通过内容共创任务获得积分,解锁更多网站内容,积分达到标准后可退费。发起人和主讲人作为读书会成员,均遵循内容共创共享的退费机制,暂无其他金钱激励。读书会成员可以在读书会期间申请成为主讲人,分享或领读相关研究。


加入社区后可以获得的资源:

  • 在线会议室沉浸式讨论:与主讲人即时讨论交流
  • 交互式播放器高效回看:快速定位主讲人提到的术语、论文、大纲、讨论等重要时间点(详情请见:解放科研时间,轻松掌握学术分享:集智斑图推出可交互式播放器
  • 高质量的主题微信社群:硕博比例超过80%的成员微信社区,闭门夜谈和交流
  • 超多学习资源随手可得:从不同尺度记录主题下的路径、词条、前沿解读、算法、学者等
  • 参与社区内容共创任务:读书会笔记、百科词条、公众号文章、论文解读分享等不同难度共创任务,在学习中贡献,在付出中收获。
  • 共享追踪主题前沿进展:在群内和公众号分享最新进展,领域论文速递

参与共创任务,共建学术社区:

  • 论文翻译
  • 科普文章翻译
  • 讲座整理
  • 原创写作

PS:具体参与方式可以加入读书会后查看对应的共创任务列表,领取任务,与运营负责人沟通详情,上述规则的最终解释权归集智俱乐部所有。




读书会阅读材料




阅读材料较长,为了更好的阅读体验,建议您前往集智斑图沉浸式阅读,并可收藏感兴趣的论文。
读书会阅读清单

前言:呼唤理论生物学

生命科学,无疑占据着科学研究的核心位置,Nature 在创刊150周年时发布总结性文章,从中可以看到,从20世纪30年代开始,生命科学文章始终占据 Nature 发表文章的一半以上。但是,时至今日,生物学研究还是停留在以实验性研究为主的阶段,理论性研究还很不足。早在1997年,贺福初院士对20世纪量子力学和分子生物学做了回顾总结:一个综合性的基本理论体系往往汇集了多个相关领域的精华,而不是拘泥于某一领域的实验研究与理论分析,它站在时代的“制高点”与历史的“转折点”,突破了已有认识框架并超乎现有已知事实,进而开一方“天地”、启一代“新风”。并且呼唤“理论生物学”,呼吁向“理论生物学”进军。(贺福初, 呼唤理论生物学,科技导报, 1997/8)

  1. 微观:细胞

细胞是构成人体的基本单位,超过37万亿个细胞构成构成了我们的人体,构成不同器官的的细胞具有不同的种类和功能,然而如何对细胞进行分类?或者说,细胞类型如何进行定义?单细胞组学技术的发展,使人们对细胞类型的定义从形态、功能水平推进到分子水平。但是细胞内的生物大分子本身是高度动态的,从分子水平如何对细胞“类型”和“状态”进行界定?

而从时间尺度上看,我们都从单一受精卵发育而来,在生物体发育过程中,细胞命运如何决定,细胞类型如何形成?基因表达、调控网络在发育和演化尺度上有怎样的规律?从受精卵到个体(个体发育角度,不同发育过程的时序数据),从个体到种群(进化角度,不同物种进化的时序数据),各自有怎样的规律,两者有没有共通的规律?

推荐人:李杨,唐诗婕


1.1 如何对细胞类型进行定义?究竟有多少种细胞类型?

基本问题:如何发现并定义新的细胞类型?(比如通过功能和互作网络来定义,整合多组学特征来表征细胞类型)

[1] Hongkui Zeng. What is a cell type and how to define it?. Cell, 2022, 185(15): 2739-2755

这篇综述文献从哺乳动物脑的细胞类型定义出发,对细胞类型的概念、特征,以及用于表征细胞类型的方法——包括分子(转录组学、表观基因组学、蛋白质组学)、解剖(空间分布、形态学、结构连接)和生理/功能性方法——进行综述,帮助认识什么是细胞类型。

[2] Silvia Domcke, J. Shendure. A reference cell tree will serve science better than a reference cell atlas. Cell, 2023, 186(6): 1103-1114

借鉴物种分类树的概念,单细胞领域的权威研究者Jay Shendure教授在Cell上发表Perspective文章,对如何构建细胞类型的参考树(参考对物种划分的分类树),通过数据驱动,依从树状命名的原则,对细胞类型参考树进行构建。

[3] Elmentaite R, Domínguez Conde C, Yang L, et al. Single-cell atlases: shared and tissue-specific cell types across human organsNature Reviews Genetics, 2022, 23(7): 395-410.

Human Cell Atlas项目的leader之一,剑桥大学Sarah Teichman教授团队的一篇综述,讨论了如何基于单细胞图谱理解人体器官的细胞类型构成。


1.2 细胞类型如何形成?细胞命运如何决定?如何定义细胞的身份

基本问题:单一细胞如何获得细胞命运,调控网络如何发挥作用?命运决定的过程是怎样的?规律的形式是什么?能否做到定量表述?


[4] Samantha A. Morris. The evolving concept of cell identity in the single cell era. Development, 2019, 146(12): 169748

Samantha A. Morris 教授的一篇综述讨论了单细胞时代细胞身份的概念演变,从表型、谱系和状态三个方面如何定义细胞的身份。

[5] Arendt D, Musser J M, Baker C V H, et al. The origin and evolution of cell typesNature Reviews Genetics, 2016, 17(12): 744-757.

从进化角度理解细胞类型的形成。

[6] Kenji Kamimoto, Blerta Stringa, Christy M. Hoffmann, et al. Dissecting cell identity via network inference and in silico gene perturbation. nature, 2023: 1-10

基因调控网络对于细胞的命运决定具有重要作用,如何利用这个信息探究基因调控网络对细胞命运决定的作用?这篇文献构建了一种预测方法,通过对转录调控网络的干扰,预测细胞的未来命运。

[7]Ma W, Trusina A, El-Samad H, et al. Defining network topologies that can achieve biochemical adaptation[J]. Cell, 2009, 138(4): 760-773.

从更基础的网络层面,对于细胞网络的设计原理,汤超院士应用统计物理方法研究生物学网络的拓扑结构和功能的关系,找到了生物网络的普适性设计原理。


1.3 细胞演变的规律

关于细胞演变,从受精卵到个体(个体发育角度,不同发育过程的时序数据),从个体到种群(进化角度,不同物种进化的时序数据),各自有怎样的规律,两者有没有共通的规律?


[8] Bao Zhang, Peng He, John E. G. Lawrence , et al. A human embryonic limb cell atlas resolved in space and time. Nature, 2023.

这篇文献基于单细胞转录组学和空间转录组学技术建立首个人类肢体发育单细胞图谱,解析了从肢体发生早期到形态完全形成的细胞演变路径和细胞空间位置决定过程。

[9] Prisca Liberali, and Alexander F. Schier. The evolution of developmental biology through conceptual and technological revolutions. Cell, 2024.

这篇综述概述了革命性技术如何带来在动物发育理解方面的显著进展,讨论了基因调控、模式形成、形态发生、器官发生和干细胞生物学中的经典问题是如何被重新审视的。也探讨了发育与进化、自组织、新陈代谢、时间和生态学的联系,以及在合成生物学、人工智能和人类工程学时代,发育生物学可能的发展方向。

[10] Guangdun Peng, Shengbao Suo, Guizhong Cui, et al. Molecular architecture of lineage allocation and tissue organization in early mouse embryo. Nature, 2019.

利用空间转录组分析方法,对小鼠早期胚胎发育多个时期(E5.5、E6.0、E6.5、E7.0和E7.5)的外、中、内三个胚层构建空间转录组,建立起百科全书式全基因组的时空表达数据库,实现了小鼠早期胚胎所有表达基因高分辨率的数字化原位杂交图谱。

[11] Shu J, Wu C, Wu Y, et al. Induction of pluripotency in mouse somatic cells with lineage specifiers[J]. Cell, 2013, 153(5): 963-975.

2013年,汤超院士团队与邓宏魁教授合作,将非线性物理与干细胞实验结合,共同提出了干细胞重编程的“跷跷板”模型,利用这一模型可以更好地理解干性基因和胚层中分化基因间相互抑制和相互平衡的关系,而这种关系可能决定了干细胞的命运。


  1. 介观:器官

多种细胞类型以何种原则构成整体的组织和器官?不同细胞类型如何分工协作,涌现出整体的生理学特性和功能?又如何影响器官的生理病理过程?

基本问题:构成器官的不同细胞类型有怎样的分工原则?器官的细胞类型构成和空间排布结构有哪些基本的模式或规律?

推荐人:王晓文,唐诗婕


2.1 构成器官的不同细胞类型有怎样的分工原则?


[1] Chen Ding, Yanyan Li, Feifei Guo, et al. A Cell-type-resolved Liver Proteome. Molecular & Cellular Proteomics, 2016, 15(7949): 3190 – 3202

这篇论文通过解析肝脏主要细胞类型的蛋白质组,首次揭示器官(肝脏)的细胞构成规律和分工原则。

[2] Shengjin Xu, Hui Yang, Vilas menon, et al. Behavioral state coding by molecularly defined paraventricular hypothalamic cell type ensembles. Science, 2020

中科院神经所徐圣进研究员的工作,聚焦于大脑中的下丘脑室旁核区域,基于全新的成像技术,能够记录下丘脑不同分子类型的神经元在小鼠多种行为状态下的活动变化。该研究运用机器学习,系统地建立了神经细胞的功能和基因表达之间的关系,解码了大脑中不同类型的神经细胞是如何展开合作,从而使小鼠产生不同的行为。

[3] Miri Adler, Noa Moriel, A. Goeva, et al. Emergence of division of labor in tissues through cell interactions and spatial cues. bioRxiv, 2022, 42(5)

这篇论文从计算的角度分析了细胞分工产生的机制。


2.2 单细胞如何相互协调形成生物组织?

这三篇综述从复杂系统的角度讨论了组织生物学的基本问题:组织/器官可能的模块化单元,包括组成单元、功能单元和结构单元;探索了细胞相互作用的可能规则,从而导致自组织和涌现特性。

[4] Miri Adler, Arun R. Chavan, R. Medzhitov. Tissue Biology: In Search of a New Paradigm.. Annual Review of Cell and Developmental Biology, 2023, 39: 67–89
[5] Matthew L. Meizlish, R. A. Franklin, Xu Zhou, et al. Tissue Homeostasis and Inflammation.. Annual Review of Immunology, 2021, 39: 557–581
[6] Zinner M, Lukonin I, Liberali P. Design principles of tissue organisation: How single cells coordinate across scalesCurrent opinion in cell biology, 2020, 67: 37-45.


2.3 器官的细胞类型构成和空间排布结构有哪些模式?

这部分研究基于细胞分辨率的空间组学数据,解构器官的细胞构成组分,总结器官的细胞构成模式。


[7] John W. Hickey, Winston R. Becker, Stephanie A. Nevins, et al. Organization of the human intestine at single-cell resolution. nature, 2023, 619(7970): 572-584

这项研究利用单细胞分辨率的空间蛋白质组技术,描述人类肠道的细胞组成和空间定位。

[8] Elie N. Farah, Robert K. Hu, Colin Kern, et al. Spatially organized cellular communities form the developing human heart. nature, 2024: 1-11

这项研究利用单细胞分辨率的空间转录组技术,描述了在人心脏发育过程中不同心脏细胞类型如何组织形成对心脏功能至关重要的复杂心脏结构。

[9] Meng Z, Xingjie P, Won J, et al. Molecularly defined and spatially resolved cell atlas of the whole mouse brain. Nature, 2023

这项研究使用MERFISH单细胞空间转录组技术,得到了成年小鼠全脑约1000万个细胞和超过1100个基因的表达模式,描绘了小鼠全脑神经元的多样性和空间分布规律。


2.4 如何对器官进行空间异质性的全面建模以影响生命周期内器官的生理和病理过程?

[10] Yijie Wang, Qihao Li, Bo Tao, et al. Fibroblasts in heart scar tissue directly regulate cardiac excitability and arrhythmogenesis. Science, 2023, 381(8005): 1480 – 1487

鹏城实验室宋震团队的研究利用计算机科学、数学、物理学、生物物理学和电生理学等手段,建立心脏系统的数字孪生,对心脏系统开展计算机仿真研究,并探索生理病理的机制性问题。这篇论文是宋震老师的工作之一。

[11] Wenlian Lu, Longbin Zeng, Jiexiang Wang, et al. Imitating and exploring the human brain’s resting and task-performing states via brain computing: scaling and architecture. Natl Sci Rev. 2024

复旦大学冯建峰教授研究团队通过构建人类大脑的计算模型,对大脑进行了数字孪生仿真,将数字孪生脑与实验采集的静息态及认知实验任务态下的真实数据进行比较后发现,随着数字孪生脑在规模与结构上越接近人类大脑,会逐渐展现出与人脑类似的活动信号及在人脑中观测到的临界现象。

[12] Chunman Zuo , Junjie Xia , Luonan Chen. Dissecting tumor microenvironment from spatially resolved transcriptomics data by heterogeneous graph learning. Nat Commun 15, 5057 (2024). https://doi.org/10.1038/s41467-024-49171-7

基于异质图模型集成空间转录的多模态数据(基因表达、物理位置、病理学信息、肿瘤区域)和分子网络信息(蛋白互作网络、基因调控网络和配体-受体互作网络),识别肿瘤微环境的异质性细胞状态、特异性基因-基因互作网络以及与疾病进展相关的细胞通讯模式。



  1. 宏观:虚拟人体建模

人体系统建模需要模拟系统正常情况下的变化情况(动力学模型),以及受到扰动(治疗干预)时的变化情况。虚拟人体建模包括微观、介观和宏观三个尺度,分别对应虚拟细胞、虚拟器官和虚拟人体。而建立人体虚拟模型的目的则在于实现对于患者个人最优的精准医疗。

基本问题:细胞、器官和人体的构成原理和设计原理是什么?


例子:基于动力学模型与增强学习优化2型糖尿病患者的血糖控制策略

Guangyu Wang, Xiaohong Liu, Zhen Ying, et al. Optimized glycemic control of type 2 diabetes with reinforcement learning: a proof-of-concept trial. nature medicine, 2023, 29(10): 2633-2642

2型糖尿病(T2D)是全球最普遍的慢性疾病之一,导致了显著的死亡率和社会负担。控制血糖对于减少并发症和死亡率至关重要,但调整胰岛素剂量仍具有挑战性和耗时性。这项研究提出了一种基于模型的强化学习(RL)框架,称为RL-DITR,用于学习和优化2型糖尿病住院患者的胰岛素治疗方案。通过患者血糖动力学模型决策模型相互作用,RL-DITR可以优化胰岛素剂量,提高血糖控制效果。


推荐人:谢林海,常乘

3.1 如何基于组学数据构建微观动力学模型?

动力学模型需要获取时序数据,但目前由于技术限制,时序组学数据获取的成本较高,所以可考虑通过其他方式获取动力学信息,或基于少数时间点上非配对的时序数据。


[1] Cole Trapnell, Davide Cacchiarelli, Jonna Grimsby, et al. The dynamics and regulators of cell fate decisions are revealed by pseudotemporal ordering of single cells. nature biotechnology, 2014, 32(4): 381-386

单细胞转录组拟时序分析

[2] Gioele La Manno, Ruslan Soldatov, Amit Zeisel, et al. RNA velocity of single cells. nature, 2018, 560(7719): 494-498

计算基因转录速率

[3] Yutong Sha, Yuchi Qiu, Peijie Zhou, et al. Reconstructing growth and dynamic trajectories from single-cell transcriptomics data. nature machine intelligence, 2023: 1-15

基于非配单细胞转录组时序数据的动力学建模(由于每次测量后细胞死亡,无法测量单个细胞不同时间点数据,所以不同时间点测量的数据还存在细胞匹配的问题)

[4] Qu, Rihao, Cheng, Xiuyuan, Sefik, Esen, et al. Gene trajectory inference for single-cell data by optimal transport metrics. nature machine intelligence, 2024

用最优传输指标推断单细胞数据的基因轨迹,是一种识别基因轨迹而非细胞轨迹的方法。

[5] Jifan Shi, Kazuyuki Aihara, Tiejun Li, Luonan Chen. Energy landscape decomposition for cell differentiation with proliferation effectNational Science Review, 2022

提出“细胞分化的势能景观分解理论和全新方法”:始于基因、成于调控、终于类型。细胞分化过程形成了形态、结构、功能各异的细胞类型,并造就了生物圈中丰富多彩的多细胞生物群体。如何根据基因调控网络推断细胞分化过程?该研究利用动力学分析工具和数值计算手段,给出了一种直观展现分化过程中细胞类型和细胞干性的方法。


3.2 如何基于组学数据构建系统扰动模型?

[6] Mohammad Lotfollahi, F. Alexander Wolf, Fabian J. Theis. scGen predicts single-cell perturbation responses. nature methods, 2019, 16(8): 715-721

由于扰动模型往往需要刻画扰动后基因表达的不确定性,所以深度生成模型(VAE等)往往被用于建模。

[7] Yusuf Roohani, Kexin Huang, Jure Leskovec. GEARS: Predicting transcriptional outcomes of novel multi-gene perturbations. BioRxiv(Cold Spring Harbor Laboratory), 2022

扰动的复杂度随着同时扰动的数量成指数增长,不可能采样所有可能的扰动组合,所以需要有能够泛化到多种不同扰动的模型。

[8] Charlotte Bunne, Stefan G. Stark, Gabriele Gut, et al. Learning single-cell perturbation responses using neural optimal transport. nature methods, 2023, 20(11): 1759-1768
扰动前和扰动后的数据同样也往往是非配对的,所以同样需要考虑细胞间的匹配问题。


3.3 如何将上述微观模型迁移到组织尺度、器官尺度?

[9] Mark Alber, Adrian Buganza Tepole, William Cannon, et al. Integrating Machine Learning and Multiscale Modeling: Perspectives, Challenges, and Opportunities in the Biological, Biomedical, and Behavioral Sciences. arXiv:1910.01258, 2019

成年男性体内平均有大约36万亿个细胞,而成年女性体内平均有28万亿个细胞,若简单将每个细胞的多组学状态汇聚成组织、器官的状态将造成维度灾难。因此如何选择重要的特征或将微观状态进行抽象是跨尺度建模的重要问题。


3.4 建立人体虚拟模型的最终目的是为了更好地实现疾病治疗与预防,实现最优临床决策,目前已有将深度增强学习应用于临床决策的初步探索,但尚未应用于组学数据

[10] Matthieu Komorowski, Leo A. Celi, Omar Badawi, et al. The Artificial Intelligence Clinician learns optimal treatment strategies for sepsis in intensive care. nature medicine, 2018, 24(11): 1716-1720

这项研究是该领域早期标志性文章,利用深度增强学习在临床数据上优化脓毒症患者的液体治疗,数据驱动,未使用动力学模型。

[11] Guangyu Wang, Xiaohong Liu, Zhen Ying, et al. Optimized glycemic control of type 2 diabetes with reinforcement learning: a proof-of-concept trial. nature medicine, 2023, 29(10): 2633-2642

基于糖尿病患者的动力学模型探索深度增强学习在临床决策中的实用性。

[12] Thomas O. McDonald, Yu-Chen Cheng, Christopher Graser, et al. Computational approaches to modelling and optimizing cancer treatment. nature reviews bioengineering, 2023, 1(10): 695-711

这篇综述详细阐述了在癌症领域有哪些动力学模型以及如何被应用于肿瘤治疗。

[13] Ma, J., Yu, M., Fong, S. et al. Using deep learning to model the hierarchical structure and function of a cell. Nat Methods 15, 290–298 (2018). https://doi.org/10.1038/nmeth.4627

这篇文章引入了GO知识构建深度学习模型,对酵母细胞的功能进行建模仿真。



  1. 生命复杂系统的统计物理

在本次读书会中,我们希望从统计物理视角出发,针对多组学融合的生命科学系统,能够寻找关键的自由度和动力学机制,从而实现对生命科学系统进行控制和设计,包括:

1. 如何有效整合和分析来自不同组学(如基因组学、转录组学、蛋白质组学和代谢组学)的数据,以揭示生物系统的整体特性和动态变化?

2. 如何利用统计物理和机器学习方法对单细胞组学数据进行动力学分析,以揭示细胞状态转换和命运决策的机制?

推荐人:唐乾元,王顶(汤雷翰团队)

4.1 统计物理方法在蛋白质结构、功能、蛋白质蛋白质相互作用与进化中的应用

统计物理方法为生物物理学研究提供了新的理论框架和分析工具,在解析生命过程的本质机制方面具有重要的应用前景。随着生物大数据的不断积累,这些方法必将在细胞、多组学等领域发挥更加重要的作用。这部分讨论中,我们将主要以蛋白质为案例,展示用统计物理方法解释蛋白质的进化规律和动力学行为。以此为基础,我们将讨论相关方法在系统生物学、细胞行为分析等领域中的应用。


[1] James P. Roney and Sergey Ovchinnikov. State-of-the-Art Estimation of Protein Model Accuracy Using AlphaFold. physical review letters, 2024, 129(23): 238101. https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.129.238101
[2] Qian-Yuan Tang, Weitong Ren, Jun Wang, Kunihiko Kaneko, The Statistical Trends of Protein Evolution: A Lesson from AlphaFold DatabaseMolecular Biology and Evolution39(10), msac197 (2022). https://doi.org/10.1093/molbev/msac197

相关文章:

为什么蛋白质兼具可塑性与稳定性?从进化视角揭示生命复杂系统的内在平衡

蛋白质的动力学和进化之间的对应关系:两个不同时间尺度下的相同故事


4.2 机器学习方法构建基因调控网络与助力蛋白质组研究

深度学习方法能够更高效地处理和分析大规模生物数据,统计物理方法能够为我们理解这些数据背后的生物机制提供重要的工具。我们将以蛋白质组学研究和基因调控网络研究领域为主要案例展开讨论。下面这些文献将能启发我们考虑如何将统计物理方法应用于蛋白质组分析流程中,助力多组学数据整合和生物标志物发现。


[3] Qiuyue Yuan, Zhana Duren. Inferring gene regulatory networks from single-cell multiome data using atlas-scale external dataNature Biotechnology, 2024: 1-11. https://www.nature.com/articles/s41587-024-02182-7
[4] Zhang, S., Pyne, S., Pietrzak, S. et alInference of cell type-specific gene regulatory networks on cell lineages from single cell omic datasetsNature communications, 2024, 14(1): 1-25. https://www.nature.com/articles/s41467-023-38637-9

[5] Matthias Mann, Chanchal Kumar, Wen-Feng Zeng, and Maximilian T. Strauss. Artificial intelligence for proteomics and biomarker discovery. Cell Systems, 2021


4.3 物理方法对复杂体系降维寻找控制系统状态转变的关键参数

由大量参数所确定的复杂系统(如大脑),其动力学是否可以由较少的自由度所确定和控制?James Sethna关于“sloppy model”的一系列工作展示了复杂系统对不同参数有不同的敏感度,改变一些参数对复杂系统的行为不会有明显的变化,而改变另一些参数则可能很大程度影响复杂系统的性质。

Kunihiko Kaneko等人的理论和实验工作证明,在生物进化的过程中,生物体系的高维表型状态可以降维至少数个自由度。这些研究表明,通过数据分析,我们将可以找到控制高自由度复杂生物系统状态转变的少数关键参数。这对于我们理解生物系统的功能与调控机制、解析生物现象背后的设计原理有重要的意义。例如,在细胞分化过程中,通过多组学数据整合分析,我们可以发现少数几个转录因子或信号通路对细胞表型具有主导性影响,这将为我们理解和调控细胞命运提供重要线索。


[6] Transtrum M.K., Machta B.B., Brown K.S., et al. Perspective: Sloppiness and emergent theories in physics, biology, and beyond. J. Chem. Phys, 143: 07 2011. https://sethna.lassp.cornell.edu/Sloppy/
[7] Sato, T. U., Furusawa, C., & Kaneko, K. (2023). Prediction of cross-fitness for adaptive evolution to different environmental conditions: Consequence of phenotypic dimensional reductionPhysical Review Research5(4), 043222. https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.043222
[8] Kunihiko Kaneko.  Constructing universal phenomenology for biological cellular systems: an idiosyncratic review on evolutionary dimensional reductionJournal of Statistical Mechanics: Theory and Experiment, 2024, 2024.2: 024002.
相关文章:复杂性中何以涌现简单性?Sloppy模型捕捉复杂系统的关键自由度

书籍推荐:

《大自然如何运作》:关于自组织临界性的科学

通向复杂系统的奇境 | 乔治·帕里西《随椋鸟飞行》


生命复杂性社区


生命是什么?生命怎样起源?生命怎样演化?这些是对生命现象的本质追问,除了传统的生物学研究,如今有大量来自信息、物理、计算机领域的工具方法,正在揭开生命复杂性谜题。基于此,集智俱乐部策划“生命复杂性”系列读书会,于2020年底进行了「生命复杂性读书会」第一季,此次读书会是“生命复杂性”系列的第二季,围绕“生命复杂系统的构成原理”展开讨论。


生命复杂性读书会



更多生命主题读书会


自生成结构读书会


大模型与生物医学读书会



点击“阅读原文”,报名读书会