探索生命“语言”的编码——基于单细胞转录组 | 周日直播·生物医学大模型读书会

导语
随着AI技术的不断进步,大规模的pre-training模型已经在自然语言处理及相关领域取得了突破性进展,其应用范围正不断扩展,尤其是在生命科学领域。在此基础上,郝敏升博士开发了一个名为scFoundation的大规模预训练模型,该模型具有惊人的1亿参数规模,并经过对超过5000万个人类单细胞转录组数据的训练。这个模型的独特之处在于,它不仅具备前所未有的规模和基因维度,还为单细胞转录组学提供了丰富的分子特征观测数据。scFoundation的成功表现,证明了它在多种生物医学任务中的卓越性能,包括基因表达增强、组织药物反应预测、单细胞药物反应分类等。与此同时,许涵文博士合作开发了一款名为BioTranslator的模型,该模型通过将自由文本翻译为非文本生物数据实例,实现了更广泛的生物数据标注和交互,使得科学家们能够更自由地探索生物数据,将多模态的数据识别为文本。在本期介绍中,我们邀请了清华大学自动化系生物信息学部博士研究生郝敏升和华盛顿大学计算机学院的博士研究生许涵文深入探讨这两个重要工具的原理和应用,以及它们未来的潜力。
集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩,华盛顿大学博士研究生屠鑫明,共同发起以“大模型与生物医学”为主题的读书会,共学共研相关文献,探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会从2023年8月20日开始,每周日早上 9:00-11:00 线上举行,持续时间预计8周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。


从转录组出发建立细胞“语言”基础模型
从转录组出发建立细胞“语言”基础模型
大纲
大纲
-
理解生命“语言”——从细胞出发
-
数据基础与技术背景 -
核心挑战
-
我们的工作:scFoundation模型
-
模型结构及训练任务
-
单细胞大模型的应用场景
-
应用范式 -
应用1:细胞质量增强 -
应用2:药物反应预测 -
应用3:扰动预测 -
应用4:基因网络构建
-
总结讨论
-
多组学? -
尺度及使用方式?
多语言翻译BioTranslator
在零样本生物医学分类中的应用
多语言翻译BioTranslator
在零样本生物医学分类中的应用
大纲
大纲
-
使用多语言翻译思想实现自由文本标注
-
当前注释范式的问题
-
解决方案:使用文本代替有限词表
-
BioTranslator: 实现生物学多模态数据和文本之间的相互翻译
-
模型结构
-
应用实验
-
应用1:蛋白质新功能类别预测
-
应用2:细胞新类型预测
-
应用3:药物-基因、基因-表型、基因通路-表型的零样本学习
-
总结讨论
主讲人介绍
主讲人介绍


参与方式
参与方式
活动时间
线上会议室

所涉及到的参考文献
所涉及到的参考文献
• qBioTranslator:https://www.nature.com/articles/s41467-023-36476-2
• scFoundation: https://www.biorxiv.org/content/10.1101/2023.05.29.542705
• xTrimoGene: https://www.biorxiv.org/content/10.1101/2023.03.24.534055
• DeepCDR: DeepCDR: a hybrid graph convolutional network for predicting cancer drug response | Bioinformatics | Oxford Academic (oup.com)
• SCAD: Enabling Single‐Cell Drug Response Annotations from Bulk RNA‐Seq Using SCAD – Zheng – 2023 – Advanced Science – Wiley Online Library
• GEARS: Predicting transcriptional outcomes of novel multigene perturbations with GEARS | Nature Biotechnology
大模型与生物医学:
AI + Science第二季读书会启动
详情请见:
AI+Science 读书会







