大型语言模型的下一个前沿是生物学

导语

像 GPT-4 这样的大型语言模型因其对自然语言的惊人掌握而席卷了世界。然而,大语言模型最重要的长期机会将需要一种完全不同类型的语言:生物学语言。
过去一个世纪,生物化学、分子生物学和遗传学研究进展的长征中出现了一个引人注目的主题:事实证明,生物学是一个可破译、可编程、在某些方面甚至是数字系统。
DNA 仅使用四个变量——A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和 T(胸腺嘧啶)来编码地球上每个生物体的完整遗传指令。将此与现代计算系统进行比较,现代计算系统使用两个变量(0 和 1)对世界上所有的数字电子信息进行编码。一个系统是二元系统,另一个是四元系统,但这两个系统在概念上有惊人的重叠;这两个系统都可以正确地被认为是数字化的。
再举一个例子,每个生物体中的每种蛋白质都由以特定顺序连接在一起的一维氨基酸串组成并定义。蛋白质的长度从几十到几千个氨基酸不等,有 20 种不同的氨基酸可供选择。
这也代表了一种非常可计算的系统,语言模型非常适合学习该系统。
正如 DeepMind 首席执行官兼联合创始人Demis Hassabis 所说:“在最基本的层面上,我认为生物学可以被视为一种信息处理系统,尽管它是一个极其复杂和动态的系统。正如数学被证明是物理学的正确描述语言一样,生物学也可能成为人工智能应用的完美类型。”
当大型语言模型能够利用大量信号丰富的数据,推断出远远超出任何人类吸收能力的潜在模式和深层结构时,它们就会变得最强大。然后,他们可以利用对主题的复杂理解来生成新颖、令人惊叹的复杂输出。
例如,通过吸收互联网上的所有文本,ChatGPT 等工具已经学会了就任何可以想象的话题进行深思熟虑和细致入微的交谈。通过摄取数十亿张图像, Midjourney等文本到图像模型已经学会了按需生成创意原创图像。
将大型语言模型指向生物数据——使它们能够学习生命的语言——将释放各种可能性,使自然语言和图像相比之下显得微不足道。
具体来说,这会是什么样子?
短期内,在生命科学中应用大型语言模型的最引人注目的机会是设计新型蛋白质。
蛋白质101
蛋白质101
蛋白质是生命本身的中心。正如著名生物学家阿瑟·莱斯克 (Arthur Lesk) 说道:“在分子尺度的生命戏剧中,蛋白质是发挥作用的地方。”
蛋白质几乎参与所有生物体内发生的每项重要活动:消化食物、收缩肌肉、在全身输送氧气、攻击外来病毒。你的荷尔蒙是由蛋白质组成的;你的头发也是如此。
蛋白质非常重要,因为它们用途广泛。它们能够承担大量不同的结构和功能,远远超过任何其他类型的生物分子。这种令人难以置信的多功能性是蛋白质构建方式的直接结果。
如上所述,每种蛋白质都由一串按特定顺序串在一起的称为氨基酸的结构单元组成。基于这种一维氨基酸序列,蛋白质折叠成复杂的三维形状,使它们能够发挥其生物功能。
蛋白质的形状与其功能密切相关。举个例子,抗体蛋白折叠成形状,使它们能够精确识别和瞄准异物,就像钥匙插入锁中一样。另一个例子,酶——加速生化反应的蛋白质——经过专门设计,可以与特定分子结合,从而催化特定反应。因此,了解蛋白质折叠成的形状对于了解生物体如何运作以及最终了解生命本身如何运作至关重要。
半个多世纪以来,仅根据蛋白质的一维氨基酸序列确定蛋白质的三维结构一直是生物学领域的一项巨大挑战。它被称为“蛋白质折叠问题”,困扰了几代科学家。2007 年,一位评论员将蛋白质折叠问题描述为“现代科学中最重要但尚未解决的问题之一”。
深度学习和蛋白质:天作之合
深度学习和蛋白质:天作之合
2020 年底,在生物学和计算领域的分水岭时刻,一个名为AlphaFold的人工智能系统提出了蛋白质折叠问题的解决方案。AlphaFold由 Alphabet 的 DeepMind 构建,能够在大约一个原子的宽度内正确预测蛋白质的三维形状,远远优于人类曾经设计过的任何其他方法。
AlphaFold 的重要性怎么强调都不为过。长期蛋白质折叠专家约翰·莫尔特 总结得很好:“这是人工智能第一次解决严重的科学问题。”
然而,当谈到人工智能和蛋白质时, AlphaFold 仅仅是一个开始。
AlphaFold不是使用大型语言模型构建的。它依赖于一种称为多重序列比对(MSA)的较旧的生物信息学结构,其中将蛋白质的序列与进化上相似的蛋白质进行比较,以推断其结构。
AlphaFold 所表明的那样,MSA 非常强大,但它也有局限性。
其一,它速度慢且计算量大,因为它需要参考许多不同的蛋白质序列才能确定任何一种蛋白质的结构。更重要的是,由于 MSA 需要存在大量进化和结构相似的蛋白质才能推理出新的蛋白质序列,因此它对于所谓的“孤儿蛋白质”(几乎没有或没有相似类似物的蛋白质)的用途有限。这些孤儿蛋白大约占所有已知蛋白序列的 20%。
最近,研究人员开始探索一种有趣的替代方法:使用大型语言模型而不是多重序列比对来预测蛋白质结构。
结构和功能之间的复杂模式和相互关系:比如,如何改变蛋白质某些部分的某些氨基酸。蛋白质的序列会影响蛋白质折叠的形状。如果您愿意,蛋白质语言模型能够学习蛋白质的语法或语言学。
蛋白质语言模型的想法可以追溯到哈佛大学 George Church 实验室2019 年UniRep 的工作(尽管UniRep使用 LSTM 而不是当今最先进的 Transformer 模型)。
2022 年底,Meta推出了ESM-2和ESMFold ,这是迄今为止发布的最大、最复杂的蛋白质语言模型之一,参数达 150 亿个。(ESM-2 是 LLM 本身;ESMFold是其相关的结构预测工具。)
ESM-2/ ESMFold在预测蛋白质三维结构方面与AlphaFold大致相同。但与AlphaFold不同的是,它能够基于单个蛋白质序列生成结构,而不需要任何结构信息作为输入。因此,它比AlphaFold快60倍。当研究人员希望在蛋白质工程工作流程中同时筛选数百万个蛋白质序列时,这种速度优势会产生巨大的差异。对于缺乏进化上相似的类似物的孤儿蛋白, ESMFold 还可以比 AlphaFold 产生更准确的结构预测。
语言模型能够对蛋白质的“潜在空间”产生普遍的理解,这为蛋白质科学开辟了令人兴奋的可能性。
AlphaFold以来的几年里,更强大的概念进步已经发生。
发明新蛋白质
发明新蛋白质
当今世界上存在的所有蛋白质仅代表理论上可能存在的所有蛋白质的极小一部分。机会就在于此。
给出一些粗略的数字:人体中存在的全部蛋白质(即所谓的“人类蛋白质组”)估计有 80,000 到 400,000 种蛋白质。与此同时,理论上可能存在的蛋白质数量约为101300,这是一个大得难以想象的数字,比宇宙中原子的数量还要多很多倍。(需要明确的是,并非所有这 101300 种可能的氨基酸组合都会产生生物学上可行的蛋白质。远非如此。但某些子集会。)
数百万年来,蜿蜒的进化过程偶然发现了数万或数十万种这样的可行组合。但这只是冰山一角。
用领先的蛋白质人工智能初创公司Generate Biomedicines的联合创始人莫莉·吉布森(Molly Gibson)的话来说:“大自然在生命历史中采样的序列空间量几乎相当于地球所有海洋中的一滴水。”
我们有机会改善自然。毕竟,尽管自然选择的进化力量非常强大,但它并不是无所不能的。它不提前计划;它不会以自上而下的方式进行推理或优化。它随机且机会主义地展开,传播恰好有效的组合。
使用人工智能,我们可以第一次系统地、全面地探索蛋白质空间的广阔未知领域,以便设计出不同于自然界中曾经存在的任何蛋白质,专为我们的医疗和商业需求而设计。
我们将能够设计新的蛋白质疗法来解决所有人类疾病——从癌症到自身免疫性疾病,从糖尿病到神经退行性疾病。除了医学之外,我们将能够创造出新型蛋白质,并在农业、工业、材料科学、环境修复等领域具有革命性的应用。
一些利用深度学习进行从头蛋白质设计的早期努力并未利用大型语言模型。
一个突出的例子是ProteinMPNN ,它来自华盛顿大学世界著名的 David Baker 实验室。ProteinMPNN架构不使用 LLM,而是严重依赖蛋白质结构数据来生成新蛋白质。
Baker 实验室最近发布了RFdiffusion ,这是一种更先进、更通用的蛋白质设计模型。顾名思义, RFdiffusion 是使用扩散模型构建的,这种人工智能技术也为Midjourney 和 Stable Diffusion 等文本到图像模型提供支持。RFdiffusion可以生成新颖的、可定制的蛋白质“骨架”,即蛋白质的整体结构支架,然后可以将序列分层到其上。
ProteinMPNN和RFdiffusion等以结构为中心的模型取得了令人印象深刻的成就,推动了基于人工智能的蛋白质设计的最先进水平。然而,由于大型语言模型的变革能力,我们可能正处于该领域新的变革的风口浪尖。
与蛋白质设计的其他计算方法相比,为什么语言模型是一条如此有前途的道路?关键原因之一:规模化(scaling)。
标度律
标度律
人工智能近期取得的巨大进展背后的关键力量之一是所谓的“标度律”(Scaling law) :事实上,LLM 参数数量、训练数据和计算的持续增加带来了几乎令人难以置信的性能提升。
在规模每增加一个数量级时,语言模型都表现出了非凡的、意想不到的、新兴的新能力,超越了较小规模下的可能性。
近年来,正是OpenAI对扩展原则的承诺,使该组织跻身人工智能领域的最前沿。随着OpenAI从 GPT-2 转向 GPT-3、GPT-4 及更高版本,他们构建了更大的模型,部署了更多的计算,并在更大的数据集上进行了训练,比世界上任何其他组织都解锁了令人惊叹的、前所未有的 AI 功能。
标度律与蛋白质领域有何关系?
过去二十年来,科学突破使得基因测序变得更加便宜且更容易获得,可用于训练人工智能模型的 DNA 和蛋白质序列数据的数量呈指数级增长,远远超过了蛋白质结构数据。
蛋白质序列数据可以被标记化,并且出于所有意图和目的被视为文本数据;毕竟,它由按一定顺序排列的线性氨基酸串组成,就像句子中的单词一样。大型语言模型可以仅针对蛋白质序列进行训练,以深入了解蛋白质结构和生物学。
因此,这个领域已经成熟,可以进行由大语言模型支持的大规模扩展工作,这些努力可能会在蛋白质科学领域带来惊人的新见解和能力。
第一个使用基于 Transformer 的LLM 来设计从头蛋白质的作品是Salesforce Research 于 2020 年发表的ProGen 。最初的ProGen模型有 12 亿个参数。
ProGen的首席研究员Ali Madani此后成立了一家名为 Profluu Bio 的初创公司,以推进大语言模型驱动的蛋白质设计并将其商业化。
Madani率先使用大语言模型进行蛋白质设计,但他也清楚地意识到,仅靠原始蛋白质序列训练的现成语言模型并不是应对这一挑战的最有力方法。结合结构和功能数据至关重要。
“蛋白质设计的最大进步将在于来自不同来源的仔细数据管理和可以灵活地从这些数据中学习的通用模型的交叉点,”马达尼说。“这需要利用我们掌握的所有高信号数据,包括来自实验室的蛋白质结构和功能信息。”
Nabla Bio是另一家应用大语言模型设计新型蛋白质疗法的有趣的早期初创公司。Nabla是从哈佛大学 George Church 实验室分离出来的,由UniRep背后的团队领导,专门专注于抗体研究。鉴于当今 60% 的蛋白质治疗药物都是抗体,并且世界上最畅销的两种药物都是抗体治疗药物,因此选择这一选择并不令人意外。
Nabla决定不开发自己的疗法,而是向生物制药合作伙伴提供其尖端技术,作为帮助他们开发自己的药物的工具。
前方的路
前方的路
弗朗西斯·阿诺德 (Frances Arnold) 在 2018 年诺贝尔化学奖获奖感言中表示:“今天,我们可以出于各种实际目的读取、写入和编辑任何 DNA 序列,但我们无法合成它。生命的密码是一首交响乐,引导着无数演奏者和乐器演奏出复杂而优美的部分。也许我们可以从大自然的成分中剪切和粘贴片段,但我们不知道如何为单个酶通道写出条形。”
就在五年前,这也是事实。
但人工智能可能在生命史上第一次让我们有能力从头开始真正构建全新的蛋白质(及其相关的遗传密码),专门为我们的需求而构建。这是一个令人惊叹的可能性。
这些新型蛋白质将作为多种人类疾病的治疗药物,从传染病到癌症;他们将帮助基因编辑成为现实;他们将改变材料科学;它们将提高农业产量;它们将中和环境中的污染物;以及更多我们甚至无法想象的事情。
人工智能驱动(尤其是大语言模型驱动)的蛋白质设计领域仍处于新生阶段且未经证实。有意义的科学、工程、临床和商业障碍仍然存在。将这些新疗法和产品推向市场需要数年时间。
但从长远来看,人工智能的市场应用很少有比这更具有前景的。
在未来的文章中,我们将深入研究蛋白质设计的大语言模型,包括探索该技术最引人注目的商业应用,以及计算结果和现实世界湿实验室实验之间的复杂关系。
从头蛋白质设计并不是生命科学中大型语言模型唯一令人兴奋的机会。
语言模型可用于生成其他类别的生物分子,特别是核酸。例如,一家名为 Inceptive 的热门初创公司正在应用大语言模型来开发新型 RNA 疗法。
其他团体有着更广泛的愿望,旨在建立通用的“生物学基础模型”,可以融合基因组学、蛋白质序列、细胞结构、表观遗传状态、细胞图像、质谱、空间转录组学等多种数据类型。
最终目标是超越对蛋白质等单个分子的建模,转而对蛋白质与其他分子的相互作用进行建模,然后对整个细胞、组织、器官进行建模,最终对整个生物体进行建模。
设计复杂生物系统的每一个复杂细节的人工智能系统的想法是令人难以置信的。随着时间的推移,这将在我们的掌握之中。
二十世纪是由物理学的基本进步定义的:从阿尔伯特·爱因斯坦的相对论到量子力学的发现,从核弹到晶体管。正如许多现代观察家所指出的,二十一世纪正在成为生物学的世纪。人工智能和大型语言模型将在未来几十年解开生物学的秘密并释放其可能性方面发挥核心作用。
系好安全带。

原文题目:
The Next Frontier For Large Language Models Is Biology
原文地址:
https://www.forbes.com/sites/robtoews/2023/07/16/the-next-frontier-for-large-language-models-is-biology/
图片来源: U OF W, ROYAL SOCIETY, HARVARD
Proteins 101
Deep Learning And Proteins: A Match Made In Heaven
Inventing New Proteins
Scaling Laws
The Road Ahead

大模型与生命医学:AI + Science第二季读书会启动
详情请见:
推荐阅读






