基因扰动实验与转录组学：机器学习革新的生物医学前沿 | 周日直播·生物医学大模型读书会

导语

在当今生物医学领域，机器学习不仅令研究变得更高效，也为我们揭示了前所未有的生物信息研究可能拥有的高峰。而基因扰动实验和转录组学，它们作为生物医学研究的两大支柱，理所当然也正处于由机器学习带动的，革新的浪潮之中。本次分享，我们将引领大家深入探讨这两个领域的前沿，以及机器学习如何在其中扮演着关键的角色。从基于图机器学习的GEARS方法，预测尚未实施的扰动组合，到探讨基因转录组学大模型如何深化研究者对生物学调控机制的理解，我们将为大家揭示机器学习技术如何正在重塑生物医学研究的未来。而在这个激动人心的交汇点上，我们亦将揭示机器学习如何为研究提供更强大的工具和更深刻的洞察力。本次分享，由王瀚宸和黄柯鑫老师带来对这两个领域的精密解读。

集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩，华盛顿大学博士研究生屠鑫明，共同发起以“大模型与生物医学”为主题的读书会，共学共研相关文献，探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会从2023年8月20日开始，每周日早上 9:00-11:00 线上举行，持续时间预计8周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

机器学习应用于基因扰动实验的优化与加速

细胞对多种基因扰动的响应在众多生物医学领域都至关重要，这些领域包括疾病靶点的识别、合成致死性（Synthetic Lethality）的探索以及细胞重编程等。为了深入了解这些反应，通常需要在全基因、组合基因以及不同的生物环境中进行基因扰动实验。不幸的是，这些实验的可能组合数量是指数级的，远超实际实验的实施能力。因此，计算方法的引入变得不可或缺。在本次分享中，我们将探讨如何利用机器学习加速基因扰动实验的研究。内容主要包括两大部分：首先，我将为大家介绍GEARS，这是我们基于图机器学习设计的方法，能够借助先验知识图谱预测尚未实施的扰动组合。其次，我们会讨论实验室闭环（lab-in-the-loop）扰动实验设计，并深入探讨IterPert——一种由多模态先验知识驱动的主动学习方法，能够高效地指导实验设计。

大纲

• 什么是细胞扰动实验

• GEARS：预测未测定的扰动组合结果

• IterPert：lab-in-the-loop细胞扰动实验设计

基因转录组学大模型的现状及展望

转录组学大模型目前正处于蓬勃发展的阶段，借助高通量测序技术和先进的机器学习算法，我们得以深入探索生物学的奥秘。这一领域的巨大潜力正在揭示基因表达的复杂调控机制，有助于我们更全面地理解多种生物过程和疾病状态。然而，这只是开始。随着计算能力的不断提升和算法的进一步优化，我们可以展望到更为精细、全面的转录组学图谱的实现，这将不仅为生物医学领域提供更强大的工具，还将推动定制医疗和疾病诊断领域取得更加重大的突破。

在当前的研究环境中，涌现了众多引人注目的工作，如Geneformer、scFoundation、scGPT、scBERT、GeneCompass、Universal Cell Embeddings、SCimilarity以及scEval等。然而，我们也要认识到现有方法的局限性。我们也会讲一下未来值得研究的方向（New System: Organoids; New Data: Imaging）。

大纲

• 发展现状，包括 Geneformer, scFoundation, scGPT, scBERT, GeneCompass, Universal Cell Embeddings, SCimilarity, scEval等研究工作

• 潜在的商业化方向

• 现有方法的局限以及未来方向（学界还有哪些可以做的方向）

主讲人介绍

黄柯鑫目前就读于斯坦福大学计算机系二年级，导师为Jure Leskovec教授。研究兴趣是将结构/知识引入机器学习模型来理解复杂疾病的机理和发现新的生物学现象。同时也研究由部署生物医药+机器学习系统所带来的算法挑战，比如统计保证，低数据泛化以及可解释性等。

个人主页：https://www.kexinhuang.com/

王瀚宸现任斯坦福计算机科学系与基因泰克新药研发部门联合博士后，导师为Jure Leskovec教授和Aviv Regev院士。他的研究重点在于将AI/ML等先进计算技术应用于基因组学及新型疗法的临床研究，并涉猎与基础模型相关的领域（如自监督学习、持续学习、机器学习系统等）。他作为第一作者在Nature、Nature Machine Intelligence、NeurIPS、ICCV等期刊和会议发表文章，也在ICML、NeurIPS、ICLR上举办过一些与AI for Science相关的workshop。他本科保送至南京大学匡亚明学院物理系，导师是王欣然教授。他在剑桥大学获得机器学习博士学位，导师是Joan Lasenby教授。

个人主页：https://www.hanchenw.com

参与方式

活动时间

2023年10月22日（本周日）上午 10:00-12:00

线上会议室

扫码参与大模型与生物医学读书会，加入群聊，获取系列读书会回看权限，成为大模型与生物科学读书会的种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动AI+Science社区的发展。

大模型与生物医学：

AI + Science第二季读书会启动

生物医学是一个复杂且富有挑战性的领域，涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入，使得我们能够从前所未有的角度去观察和理解这个领域的问题，加速科学研究的步伐，提高医疗服务的效率和效果。这种交叉领域的合作，标志着我们正在向科技与生物医学深度融合的新时代迈进，对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。

详情请见：

大模型与生物医学：AI + Science第二季读书会启动

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的“第五范式”。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖（Jure Leskovec 教授指导）、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣（Max Tegmark 教授指导），共同发起以“AI+Science”为主题的读书会，探讨该领域的重要问题，共学共研相关文献。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。