导语


随着大语言模型时代的到来,各领域都涌现出了一批使用大数据、强算力训练出的基础模型,它们在评测中表现优异,并能泛化到各种下游任务。在 AI for Life Science 领域,单细胞基础模型 scGPT、scFoundation,蛋白大模型Alphafold3、ROSTTAFold 等相继涌现。2024年11月15日,美国 Arc 研究所(Arc Institute)和斯坦福大学的研究团队提出了一种基因组大模型 Evo,能够以无与伦比的准确性解码和设计从分子到基因组规模的 DNA、RNA 和蛋白质序列,打通“中心法则”,这一成果刊登在当期 Science 封面,为解码复杂生命系统提供了利器。


关键词:AI for Science,基因组基础模型,基因组设计

董弘禹 | 作者



论文题目:Sequence modeling and design from molecular to genome scale with Evo
论文链接:https://www.science.org/doi/10.1126/science.ado9336

在生活中,ChatGPT 可以写小说、编写计算机代码、提供出行建议,它能够阅读互联网上的所有语言文字信息,并生成问题的答案。在分子生物学中,DNA 序列是碳基生物的“语言文字”,读懂这些信息就能够掌握遗传密码。科学家已经开发了一些模型,可以像分析大语言模型中的单词一样分析 DNA 序列,如 DNABERT2 等。然而,这些模型只能解释和预测相对较短的 DNA 片段,并且训练数据也十分有限,泛化性能不高。基于此,科学家们研发了 Evo 模型。它以数十亿条基因序列为基础,可以推断出细菌和病毒基因组的运作方式,并利用这些信息设计新的蛋白质甚至整个微生物基因组。

图1. 基因组基础模型 Evo 具有70亿个参数,可以学习从单个核苷酸到整个基因组的生命复杂性。





1. 基因组基础模型 Evo:架构与训练细节




想要理解大批量的基因数据,首先就要改进模型架构。Evo 采用了基于 StripedHyena 的框架,在 270 万个进化多样的原核生物和噬菌体基因组上进行预训练,从而获得对遗传语言的基本理解,预测 DNA 的功能或生成新的 DNA 序列

StripedHyena 架构如图1B所示,该模型混合了密集二次 Transformer 算子和次二次型 Hyena 算子用于提高计算效率。同时,该模型将上下文窗口扩增到长达13万碱基,显著提高了模型识别基因与其他基因调控元件(如启动子、增强子等)之间联系的能力。为了为了确定 Evo 的最佳架构和缩放比例,图1F、G比较了在计算最优边界上预训练的不同模型的缩放率,在数据集大小和模型大小之间进行最佳计算分配。

从训练角度来看,为了防止恶意用户设计生物武器,研究人员从 AI 的训练集中删除了任何攻击人类或其他真核生物的病毒序列,并在接近 3000 亿核苷酸序列信息上进行了4周的训练。

图2. 在原核生物中预训练基因组基础模型




2. Benchmark与性能比较




为了测试 Evo 模型的性能,研究人员首先衡量它是否能够预测突变对生物序列的影响。具体而言,在零样本功能预测的条件下使用 Evo 与其他模型,预测蛋白质突变对功能的影响、非编码 RNA 突变对功能的影响、调控 DNA 序列对基因表达的影响。图2展示其相关性的强度超过了之前从 DNA 序列数据推断突变效应的人工智能模型;其工作效果与其他依赖蛋白质序列的 AI 模型一样好。

图3. Evo 对蛋白质、非编码 RNA 和调控 DNA 进行零样本功能预测





3. 下游应用:

从分子到基因组尺度的序列设计




除了判别式任务之外,基础模型也应有生成能力。ChatGPT 能够生成文章,Evo 模型也能够生成基因序列。为此,研究团队让 Evo 设计新版本的 CRISPR 基因编辑器。如图3所示,Evo 首先研究了 70,000 多个编码 Cas 蛋白及其伴侣 RNA 的细菌 DNA 序列。然后,该模型设计了数百万个分子的潜在版本。研究人员挑选了 11 个最有可能的 Cas9 变体,并在实验室中合成了这些蛋白质。在试管实验中,设计的 Cas9 酶中最好的一种,在切割 DNA 方面与商业版本的蛋白质一样好。

图4. 在 CRISPR-Cas 序列上进行微调可实现蛋白质-RNA 复合物的生成性设计


此外,Evo 还擅长多元件系统生成任务,如图4所示,团队通过对 CRISPR-Cas 序列和IS200/IS605 序列进行微调,可以实现合成 CRISPR-Cas 分子复合物和转座系统。研究人员实验验证了 Evo 生成的 CRISPR-Cas 分子复合物以及 IS200 和 IS605 转座系统的功能活性,这是使用语言模型进行蛋白质-RNA 和蛋白质-DNA 协同设计的第一个实例。

图5. 在 IS200/IS605 序列上进行微调可实现转座生物系统的生成性设计


最后,研究人员使用 Evo 生成了长达 1MB 的 DNA 序列作为细菌的基因组,这些序列展现出真实基因组的多个特征,包括编码密度、基因组织、密码子使用偏好性、四核苷酸使用模式等(图5)

图6. Evo 生成具有密集编码架构的基因组规模序列


总体而言,Evo 经过 270 万个原核生物和噬菌体基因组的训练,展示了跨 DNA、RNA 和蛋白质模态的零样本函数预测,其性能可与特定领域的语言模型相媲美,甚至优于特定领域的语言模型。模型首次实现了单核苷酸分辨率下的长序列 DNA 建模,实现了从分子到基因组尺度的序列设计能力。这些突破为生物工程和基因组设计开辟了新的可能性。


大模型与生物医学:

AI + Science第二季读书会


生物医学是一个复杂且富有挑战性的领域,涉及到大量的数据处理、模式识别、理论模型建构和实验验证等问题。AI基础模型的引入,使得我们能够从前所未有的角度去观察和理解这个领域的问题,加速科学研究的步伐,提高医疗服务的效率和效果。这种交叉领域的合作,标志着我们正在向科技与生物医学深度融合的新时代迈进,对于推动科学研究、优化医疗服务、促进人类健康有着深远的影响。

集智俱乐部联合西湖大学助理教授吴泰霖、斯坦福大学计算机科学系博士后研究员王瀚宸、博士研究生黄柯鑫、黄倩,华盛顿大学博士研究生屠鑫明,共同发起以“大模型与生物医学”为主题的读书会,共学共研相关文献,探讨基础模型在生物医学等科学领域的应用、影响和展望。读书会已完结,现在报名可加入社群并解锁回放视频权限。

详情请见:

大模型与生物医学:AI + Science第二季读书会启动



生命复杂性读书会:

生命复杂系统的构成原理


在生物学中心法则的起点,基因作为生命复杂系统的遗传信息载体,在生命周期内稳定存在;而位于中心法则末端的蛋白质,其组织构成和时空变化的复杂性呈指数式增长。随着分子生物学数十年来的突飞猛进,尤其是生命组学(基因组学、转录组学、蛋白质组学和代谢组学等的集合)等领域的日新月异,当代生命科学临近爆发的边缘。如此海量的数据如何帮助我们揭示宇宙中最复杂的物质系统——“人体”的构成原理和设计原理?阐释人类发育、衰老和重大疾病的发生机制?


集智俱乐部联合西湖大学理学院及交叉科学中心讲席教授汤雷翰,国家蛋白质科学中心(北京)副研究员常乘、李杨,香港浸会大学助理教授唐乾元,北京大学前沿交叉学科研究院研究员林一瀚,中国科学院分子细胞科学卓越创新中心博士后唐诗婕,共同发起「生命复杂性:生命复杂系统的构成原理」读书会,从微观细胞尺度、介观组织器官尺度到宏观人体尺度,梳理生命科学领域中的重要问题及重要数据,由生物学家提问,希望促进统计物理、机器学习方法研究者和生命科学研究者之间的深度交流,建立跨学科合作关系,激发新的研究思路和合作项目。读书会从2024年8月6日开始,每周二晚19:00-21:00进行,持续时间预计10-12周。欢迎对这个生命科学、物理学、计算机科学、复杂系统科学深度交叉的前沿领域感兴趣的朋友加入!



详情请见:
生命复杂性读书会:从微观到宏观,多尺度视角探索生命复杂系统的构成原理


推荐阅读

1. AI+Science新视野:用物理信息引导AlphaFold 2预测蛋白质动力学
2. 人工智能终结了蛋白质研究吗?一文读懂蛋白质折叠的前世今生
3. Nat. Methods. 速递:考虑生物背景信息的单细胞蛋白质计算模型
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5. 龙年大运起,学习正当时!解锁集智全站内容,开启新年学习计划

6. 加入集智,一起复杂!



点击“阅读原文”,报名读书会