导语


肿瘤微环境是由癌细胞、成纤维细胞和免疫细胞等多种细胞类型组成的复杂“混合物”。精准评估肿瘤的细胞组成,对于深入理解肿瘤的发生发展、优化癌症诊疗策略至关重要。本周二(12月3日)晚的「生命复杂性」读书会,将由香港浸会大学副教授田亮和博士生熊昕介绍他们利用深度学习预测肿瘤微环境中细胞组成的最新研究成果。这项研究开发了一种新的细胞解卷积算法 DeSide,能够基于肿瘤样本的批量RNA测序数据准确推断不同细胞类型的比例。


在当今生命科学的研究中,理解生物体的复杂性成为一个关键的科学挑战。「生命复杂性」读书会希望从微观细胞尺度、介观组织器官尺度到宏观人体尺度,梳理生命科学领域中的重要问题及重要数据,由生物学家提问,希望促进统计物理、机器学习方法研究者和生命科学研究者之间的深度交流,建立跨学科合作关系,激发新的研究思路和合作项目。欢迎对这个生命科学、物理学、计算机科学、复杂系统科学深度交叉的前沿领域感兴趣的朋友加入!








内容简介




如何理解生物系统的复杂性是生命科学研究的关键挑战。就像一杯混合果汁,我们知道它包含苹果、橙子和猕猴桃,却不知道它们的具体比例。而肿瘤微环境也是由多种细胞类型组成的复杂“混合物”,包括癌细胞、成纤维细胞和免疫细胞等。想要复刻果汁的味道需要解析成分比例,而精准评估肿瘤的细胞组成,对于理解肿瘤发生发展、优化癌症诊疗策略至关重要,这就像是从“细胞果汁”中解析“配方”。

传统的实验方法(如流式细胞术和单细胞RNA测序)虽然能够深入解析细胞组成,但存在成本高昂且难以全面捕获所有细胞类型的局限性。研究者们开发了多种基于成本更低、操作更简便的批量RNA测序数据的计算方法来预测不同细胞类型比例。然而,使用单一模型精准预测多种肿瘤中各类细胞的丰度仍然面临巨大挑战。为此,我们团队基于深度学习技术开发了一种新的细胞解卷积算法 DeSide,可以从肿瘤样本的批量RNA测序数据中准确推断细胞组成。

DeSide整合了来自多种实体瘤的单细胞RNA测序数据集,构建了一个具有代表性的参考数据集,并通过创新的采样方法和数据质控策略合成高质量的虚拟肿瘤表达数据,结合生物信号通路与基因表达数据,并利用针对肿瘤微环境中各类细胞类型基因表达特征专门设计的深度神经网络架构,使其能够准确估算多种实体瘤中不同细胞类型的比例,并展现出对未训练肿瘤类型的强泛化能力。

更重要的是,DeSide预测的细胞比例可以有效区分患者的疾病进展情况,为探索细胞间相互作用、优化肿瘤诊疗策略提供了新工具。




参考文献




  • Balkwill, F. R., Capasso, M. & Hagemann, T. The tumor microenvironment at a glance. J. Cell Sci. 125, 5591–5596 (2012).

  • Garmire, L. X. et al. Challenges and perspectives in computational deconvolution of genomics data. Nat. Methods 21, 391–400 (2024).

  • Xiong, Xin, et al. DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironmentProceedings of the National Academy of Sciences 121.46 (2024): e2407096121.





主讲人




田亮,香港浸会大学物理系副教授、副系主任,高性能集群计算中心主任,致力于在一系列复杂系统中开展基于统计物理学、网络科学、系统生物学和人工智能的原理与方法的跨学科研究。工作核心是通过数据挖掘和人工智能技术识别和提取相关统计量、数据维度和数据特征,构建统计物理模型对复杂系统进行仿真模拟研究。通过研究,揭示和理解复杂系统的涌现属性和组织原理,以及系统中结构和功能之间复杂的相互作用。

熊昕,香港浸会大学物理系博士研究生,师从田亮副教授。研究方向为生物信息学,尤其专注于高维多组学数据分析。研究中融合了统计学、机器学习和统计物理等多种方法,致力于开发新的数据分析工具。此外,他还对利用多组学数据研究癌症生物学、免疫学和神经科学领域的基础问题有很浓厚的兴趣。



参与方式




时间:2024年12月3日(本周二)晚19:00-21:00

报名参与读书会:

斑图链接:https://pattern.swarma.org/mobile/study_group_issue/829?from=wechat


扫码参与「生命复杂性」读书会,加入群聊,获取系列读书会回看权限,加入生命复杂性社区,与社区的一线科研工作者沟通交流,共同推动这一前沿领域的发展。


报名成为主讲人
读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。
详情请见:生命复杂性读书会:从微观到宏观,多尺度视角探索生命复杂系统的构成原理







DeSide:深度学习方法

精准预测多种肿瘤内的细胞丰度


肿瘤微环境是一个由多种类型细胞组成的复杂生态系统。实体肿瘤内,除了癌细胞之外,还存在数量可观的血管内皮细胞、成纤维细胞、以及多种免疫细胞,如肿瘤相关巨噬细胞和肿瘤浸润淋巴细胞等。大量研究表明,这些不同类型细胞的比例,在多种癌症类型中与患者的病情进展密切相关。因此,精准量化肿瘤微环境中各类细胞的比例,对于深入理解肿瘤的发生与发展规律、优化癌症诊疗策略等具有重要意义。


在现有的技术中,流式细胞术和单细胞RNA测序(scRNA-seq)等实验方法能够直接测定肿瘤微环境中的细胞比例,但这些方法通常成本较高。为解决这一问题,研究人员开发了多种计算方法以基于低成本的批量RNA测序(bulk RNA-seq)数据来估算不同类型细胞的比例,例如 EPIC、MuSiC、CIBERSORTx、Scaden、Kassandra 等。然而,由于不同肿瘤类型中癌细胞的基因表达谱差异很大,使用单一模型精准预测多种肿瘤中各类细胞的丰度仍然是一个挑战。


2024年11月8日,中国科学院深圳先进技术研究院李雪飞副研究员团队与香港浸会大学田亮副教授团队合作,在《美国国家科学院院刊》PNAS发表了题为:DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment 的研究论文。


该研究开发了一种基于深度学习与公开单细胞数据集的解卷积算法,能够较精确地估算19种实体肿瘤中16种细胞类型的丰度。


论文题目:DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment

论文链接:

https://www.pnas.org/doi/10.1073/pnas.2407096121





合成高质量的训练集




首先,该研究整合了来源于6种实体肿瘤类型的12个scRNA-seq数据集,为后续合成虚拟肿瘤bulk RNA-seq数据(训练集)提供了更为全面的参考数据。其次,该研究提出了一种新的采样方法segment sampling,从而使得所合成的虚拟肿瘤bulk RNA-seq数据中包含更多样的细胞比例组合。此外,在合成bulk RNA-seq数据时,该研究通过对基因的过滤(gene-level filtering)来保留与每种细胞类型高度相关的基因,以降低输入数据的维度;再对表达谱进行过滤(GEP-level filtering)以保留与真实肿瘤表达谱相似度较高的样本。这些创新点共同有效提升了所合成的虚拟肿瘤bulk RNA-seq数据的质量。





深度神经网络结构的创新点




在深度神经网络结构中,DeSide创新性地采用了两个全连接网络:pathway网络和GEP网络,分别从生物信号通路(pathway)和基因表达谱(gene expression profile,GEP)中提取特征信息。其中,pathway网络通过引入粗颗粒度的特征,有效提升了输入数据的多样性。


此外,考虑到肿瘤细胞的基因表达谱在不同癌症类型之间差异较大,DeSide采用了sigmoid函数作为DNN输出层的激活函数,使输出总和处于[0,1]区间。这一设计先预测免疫细胞等非癌细胞类型的比例,再通过1减去所有非癌细胞的比例来估算肿瘤细胞的比例,从而有效减少了直接预测肿瘤细胞比例所带来的误差。值得指出的是,在利用深度神经网络预测细胞比例的研究方向上,DeSide是首个引入该策略的算法。


图1. (a)DeSide的深度神经网络(DNN)模型结构;(b)合成虚拟肿瘤的 bulk RNA-seq 基因表达谱(GEP)的流程。





与其它算法预测效果的比较




该研究系统对比了DeSide与现有算法在预测肿瘤微环境内细胞比例的准确性。结果表明,DeSide能较好地预测多种肿瘤类型内不同细胞类型的比例(图2 a,b)。同时,即便是与依赖参考数据的算法(Reference-based model)相比较,DeSide在特定肿瘤类型上的表现依然出色(图2c)。值得指出的是,DeSide能较准确地预测训练集中未包含的癌症类型,显示了较好的泛化能力。


图2. 对比DeSide与其它算法预测bulk RNA-seq数据中肿瘤细胞比例的能力。CCC为预测的肿瘤细胞比例与基于基因拷贝数所估算的肿瘤纯度之间的一致相关性系数(concordance correlation coefficient, CCC)。数据来源于癌症基因组图谱(The Cancer Genome Atlas, TCGA)数据库。





DeSide在临床预后分析中的应用价值




该项研究通过患者生存分析(Survival analysis)探索了DeSide在临床应用中的潜在价值。研究结果表明,基于DeSide预测的细胞比例能够有效的将患者按照病情进展情况进行评估分型,即某些细胞类型或其组合的丰度与患者的生存显著相关(图3)。未来,DeSide有望进一步帮助探究不同细胞之间关键的相互作用,从而为寻找潜在的临床治疗靶点提供新的可能。


图3. 基于DeSide预测公开数据集内不同肿瘤的不同细胞类型的比例,从而对患者进行分型与生存分析。





结论和展望




该研究所开发的DeSide算法基于公开的单细胞数据集与深度学习方法,能够较为准确、高效地估算19种实体肿瘤bulk RNA-seq测序样本中16种细胞类型的比例。这为深入理解肿瘤发生与发展机制、评估患者预后和制定精准治疗策略提供了有力的方法与数据支持。


中国科学院深圳先进技术研究院合成生物学研究所合成生物进化研究中心李雪飞副研究员、香港浸会大学物理系田亮副教授为论文共同通讯作者。香港浸会大学四年级博士生熊昕与中国科学院深圳先进技术研究院研究助理刘烨蓉为论文共同第一作者。熊昕于2020-2021年在李雪飞课题组担任研究助理期间开启了该课题的研究,随后,经由李雪飞推荐赴田亮课题组攻读博士学位。两个课题组通过紧密合作,联合完成了该项研究。


生命复杂性读书会:

生命复杂系统的构成原理


在生物学中心法则的起点,基因作为生命复杂系统的遗传信息载体,在生命周期内稳定存在;而位于中心法则末端的蛋白质,其组织构成和时空变化的复杂性呈指数式增长。随着分子生物学数十年来的突飞猛进,尤其是生命组学(基因组学、转录组学、蛋白质组学和代谢组学等的集合)等领域的日新月异,当代生命科学临近爆发的边缘。如此海量的数据如何帮助我们揭示宇宙中最复杂的物质系统——“人体”的构成原理和设计原理?阐释人类发育、衰老和重大疾病的发生机制?


集智俱乐部联合西湖大学理学院及交叉科学中心讲席教授汤雷翰,国家蛋白质科学中心(北京)副研究员常乘、李杨,香港浸会大学助理教授唐乾元,北京大学前沿交叉学科研究院研究员林一瀚,中国科学院分子细胞科学卓越创新中心博士后唐诗婕,共同发起「生命复杂性:生命复杂系统的构成原理」读书会,从微观细胞尺度、介观组织器官尺度到宏观人体尺度,梳理生命科学领域中的重要问题及重要数据,由生物学家提问,希望促进统计物理、机器学习方法研究者和生命科学研究者之间的深度交流,建立跨学科合作关系,激发新的研究思路和合作项目。读书会从2024年8月6日开始,每周二晚19:00-21:00进行,持续时间预计10-12周。欢迎对这个生命科学、物理学、计算机科学、复杂系统科学深度交叉的前沿领域感兴趣的朋友加入!



详情请见:

生命复杂性读书会:从微观到宏观,多尺度视角探索生命复杂系统的构成原理



点击“阅读原文”,报名读书会