导语


所有可能存在的分子组成一个假想的化学空间。如何找到合成一种新药物分子的快速路径?物种A和物种B的基因序列之间经过了多少演化步骤?从非生命分子到生命大分子的可能演化路径是怎样?要回答这些问题,我们都需要探索广袤的化学空间。最新发展的“分子树”理论将化学空间中的各种分子组织在一个树形的地图里,来描述分子结构间错综复杂的关系,从而赋予化学空间以清晰的脉络。从设计新药物、定量比较基因序列,到探索生命起源,分子树都帮助我们更有效、更有目的地探索化学空间。


2021年9月24日,Science Advances 发表论文“用分子树探索化学空间”,介绍了分子树理论及其广泛应用,以下是第一作者刘宇对文章的详细解读。


研究领域:分子树,化学空间,生命起源,药物设计

刘宇 | 作者

梁金 | 审校

邓一雪 | 编辑

 

论文题目:

Exploring and mapping chemical space with molecular assembly trees

论文链接:

https://www.science.org/doi/10.1126/sciadv.abj2465


 



一、化学空间




化学空间(Chemical Space)是一个假想的“空间”概念,其中放置着所有可能存在的分子,任一特定分子在化学空间中都有一个特定的位置,就像一张巨大的地图上画上了所有的城市。位置越接近的分子,其特征、性质等也应该越接近。



但是,所有可能存在的分子原则上有无穷多。理论上推算,即使只考虑可能存在的有机小分子,也至少有1060之多,这比太阳系中所有原子的数目还多得多。所以我们不可能看到化学空间的全貌,这张无比巨大的地图全貌、这个化学的终极梦想只存在于理想之中,当然,局部的访问是可能的。


然而,地球上的生命(包括人类自己)所使用的分子种类只是化学空间中极小极小的一部分,地球上最简单的生命体只需要一两百种不同的分子就能完成其全部功能。所以这里面至少有两个有意思的、有意义的问题:


1. 为什么生命只选取了如此之少的分子?是通过怎样的标准、机制选取的?

2. 在现实意义下,我们如何在这至少1060个分子中找到与我们自身的生命活动相关的分子,用于治疗疾病、修复损伤、延长寿命等?


要回答这两个问题,我们就要去探索广袤的化学空间,而最新发展的“分子树”(Molecular Assembly Tree)概念有助于这种探索。“分子树”是一种全新的组织化学空间的方式,可以将分子组织在一个相互关联、嵌套、平行的层次结构中,挖掘出原本隐藏在化学空间中的脉络。






目前探索化学空间的方法


目前也有很多方法可以搜索化学空间,特别是在计算机、数据库蓬勃发展之后。
比如比较传统、成熟(当然也还在持续发展)的方法:建立固定的大型数据库(如GDB-17、DrugBank、PubChem),然后利用各种“分子描述符”(molecular descriptor)比如分子指纹(molecular fingerprint)、分子量子数(molecular quantum number)等来索引。但这些描述符通常是人为设计的(选择哪些特征作为描述符有比较大的主观性、需要先验的化学知识),且搜索效率很低(因为需要穷举所有所需要的特征)。

近年来,机器学习、神经网络也被利用起来。虽然这里是让计算机自动去学习分子具有哪些特征,而且在处理问题时也通常表现良好,但问题是人们完全不明白计算机是如何操作的、不能告诉我们哪些特征是重要的、我们不能从中归纳出“知识”。这个神经网络完全是一个黑箱,相当于我们花大量的电费聘请了一个聪明蛋,他帮助我们解决一些问题,却不告诉我们他是怎么做到的。






二、分子树理论




“分子树理论”的直觉来自于对大自然的这些观察:大自然总是修修补补的,而不是从零开始设计发明。即,一种新蛋白、新物种、新功能、新发明等,总是在已有物件的基础上修修补补或稍加修改而成,而不是从零开始设计或演化。这种思想至少可以追溯到诺贝尔生理学或医学奖得主François Jacob在1970s提出的 Evolution as tinkering [2]。

比如,我们哺乳类的眼睛可追溯到泥盆纪的鱼类(比如邓氏鱼),它们已经有了巨大的眼球和具有保护和变焦功能的晶状体;

-> 邓氏鱼的眼睛是在寒武纪生物(比如涡虫)凹陷的、光秃秃的眼点的基础上演化而来(涡虫至今仍具有凹陷的眼点这种结构)

-> 凹陷的眼点是在寒武纪脊索动物(比如皮卡虫)的基础上由一小撮感光细胞聚集而成;

-> 而这些感光细胞最初是来源于植物,因为它们通过需要感光细胞来进行光合作用;

-> 往前可继续追溯到感光蛋白、特定分子的能级跃迁所带来的特性……

(需要注意的是,我们这里并不是指通常所说的遗传和变异,而可能是由完全不相关的物种间的基因水平转移造成、看似毫不相干的结构或模块变化组合而成等等。)

在直觉上举一个发明无人机的例子。想象无人机由7个部件构成(极度简化):螺旋桨;磁铁、电线(二者构成电动机);柠檬、锌(二者构成电池);天线、集成电路(二者构成遥控装置)


对于疯狂原始人来说,他们需要先利用磁铁和电线发明出电动机、利用柠檬和锌发明出电池、利用天线和集成电路发明出遥控装置,再将这些部件和螺旋桨组合起来发明出无人机,即至少需要将这7个部件组合在一起。因此我们可以说,无人机对于疯狂原始人来说,其“复杂度”至少是7。

对于21世纪的我们来说,只需将螺旋桨、电动机、电池、遥控装置这4个部件组合起来——因为它们是世界上已经存在的东西、在市场上可以随意得到的东西。因此,无人机对于我们来说,其“复杂度”只是4。

更加技术性地、以[1]文中的腺嘌呤(Adenine)分子作为例子。

鉴于化学上的考虑,我们将单个化学键(而不是原子)考虑成最基本的部件,即对于Adenine来说,构成它只有4种键(这里不考虑trivial的碳氢键):碳碳单键C-C、碳碳双键C=C、碳氮单键C-N、碳氮双键C=N(化学上一般偷懒,略去C不写,就像下图中将碳氮双键标记成=N)

  • 假想有一个“池子”(pool),里面有基础部件和已经生成过的部件,每种部件都可以无限量地取用。

  • 以下3个连续的操作称为“一步”(assembly step):从池子里取出两个部件,组合在一起形成一个新的部件,再将新部件放回池子里。

  • 如果从最初只有基础部件的池子里,最快可以通过 x 步(即最短路径)使得池子里出现该分子,那么我们将x定义为该分子的 MA(Molecular Assembly Number)。不难看出,MA实际上是对分子复杂度的一种衡量。


有了这个定义,我们便可以设法找到这条最短路径来生成 Adenine,如下图所示:


第1步:将C=N和C-N从池子里取出来,组合成N=C-N(由于化学上的考虑,这里的“组合”是指重叠一个相同的原子,所以这里重叠一个C之后,N=C和C-N变成了N=C-N)

第2步:将N=C-N(因为上一步已经生成)和C-N从池子里取出,组合成C-N=C-N;

第3步:将N=C-N(因为其一旦生成,便有无限多以供取用,可以想象成一旦电池被发明出来,市场上就会瞬间出现无穷多的电池以供取用)和C-N=C-N组合成部件[3];

……

最终,一共通过7步,我们就发现池子中出现了Adenine。

事实上,上述这条生成路径正好是最短路径,所以Adenine的MA是7。(如何知道这条是最短路径并不是一个简单的问题,不过我们已经发展了一套算法和程序,详见第三节。Adenine分子由11个化学键构成,设想若每次只添加一个化学键,那么生成Adenine需要11步;但通过这条最短路径,实际上只需要7步。也就是说,Adenine并没有11步那么复杂,而只有7,有一些步数是可以省去的。

这些可省去的步数即代表了冗余的信息,挑出来扔掉,我们便得到最关键的信息,从而可以压缩化学空间。那关键的信息是什么呢?正是那些被重复利用过的部件。在这个例子里,是N=C-N(下图中粉色部分,一次用来生成C-N=C-N,一次用来生成目标组件Adenine)和C-N=C-N(下图中黄色部分,目标组件Adenine中包含2个该部件),我们可以将最关键的这几步拎出来画成一棵树的形式(这也是“分子树”这一名称的由来)


处理一个分子可行,那么自然而然地,处理一组若干个分子也可行,只需要把一组分子想象成“一个分子”(其中的“亚分子”之间没有化学键的连接)。这样,我们就可以构造出描述这一组若干个分子所蕴含的信息的“分子树”,只不过这时不是单一的一条最短路径,而是一幅有分支的地图来同时生成所有这一组分子。下图即展现包含了碱基、核糖、ATP、RNA等生命中最重要的一部分分子的分子树:


这棵分子树上所出现的重复部件即是最关键的部件,正是它们定义了这棵树,亦即这一组分子所蕴含的信息之所在,就像其他系统中的模块一样。

我们通过这种方式压缩了这一组分子所在的化学空间,更重要的是,我们知道是如何压缩的,不像在机器学习中,压缩的实现是一个黑箱。利用这些高度压缩之后的信息,我们可以更有效、更有目的性地探索化学空间。




三、实际应用:设计新药




1、解构:计算分子树

“分子树”虽然是全新的概念,但是并不难理解,从下往上,即从基础部件到目标部件,也不难构建;但是,从上至下,即从目标部件开始,寻找到一条或几条可以生成它自身的最短路径,却是一个非常难的问题。我们已经证明这是一个至少NP困难的问题,即,原则上没有任何算法能在多项式的时间内解决任意尺度的问题,解决该问题所需要的计算时间随着问题的尺度呈指数增长,计算瓶颈总会出现。

即便如此,我们还是发展了一套算法流程来给出严格的最短路径;而对于实际较大的问题,我们发展了一套 Monte Carlo 算法来给出“足够短”的路径,即“足够好”的分子树(论文[1]中已附上代码和软件,可以自由下载)

软件的详细构架请查看论文附录,这里只给出该算法的基本思想(当然这其中有很多可以提高效率的技巧和捷径)

  • 找出所有部件中的重复亚结构,剔除其中的一个;然后在剩余的所有部件中,再找出重复的亚结构,剔除其中的一个;重复这个过程,直到不能找到重复的亚结构为止;

  • 而所有曾经被剔除的那些重复结构即为分子树的关键部件,这样便能构造出一棵候选分子树;

  • 在所有候选分子树中,找到最小的那一棵(或几棵),即为最终的分子树。



2、重构:生成新分子、设计新药

正如第二节已经提到的,分子树是将冗余信息全部剔除,以一种高度压缩的方式来描述化学空间。而分子树上的节点,即那些重复的部件则是这一组目标分子所蕴含的信息之所在。如果利用原来的路径,即可重构出原来的目标分子。

可以想象,如果利用分子树上的节点、但不用原来的路径,则可以构造出不同的分子。又由于分子树上的节点包含了原来分子的关键信息,那么重构出来的新分子就会一定程度上带有原分子的一些特征。从新分子中,我们就有可能筛选出结构不同但功能相近,甚至拥有组合功能的分子。

在制药行业,可能由于专利竞争、药物具有矛盾的功能(比如阿片类药物虽然是重要的止疼药,却容易成瘾)等诸多原因,需要寻找一些不同的药物分子。分子树的方法可以大大提高搜寻成功的概率,我们在文章[1]中已经证实。

下图是通过(a)组中6种阿片类分子所构造的分子树,在理论上重构、筛选出的6个“类似却不同”的“类阿片药物分子”。(文中也给出了设计新分子的代码和软件,可以自由下载。)


事实上,对于原则上无穷大的化学空间,效率提高的意义并不仅仅在于计算时间的缩短,而在于使得寻找想要的新分子这个任务更有可能成功。




四、总结&展望




“分子树”是一种提炼若干分子中所蕴含信息的方法,它能剔除掉所有冗余信息,以高度压缩(原则上最高压缩)的方式呈现出来。可以不严格地概括为:重复的结构即蕴含着关键的信息,重复得越多,信息越关键。

我们可以利用分子树所精炼出的信息来设计新分子、新药物,因为冗余信息被剔除,所以使得搜索潜在药物所在的浩瀚的化学空间更有可能成功。

除此之外,“分子树理论”还有很多潜在应用。

比如,“分子树”可用于研究生命起源问题。为什么地球上的生命选择了碱基ATGCU、ATP等这些分子作为生命最重要的分子?仅仅是由于偶然的因素(frozen accident)吗?可能的答案是:这些分子在分子树上都位于非常近的位置,选择它们是几十亿年演化的结果。如果事实果真如此,那么顺着这条路就可能回答文章开头的问题——“为什么生命只选取了如此之少的分子?”当然这是一个需要大量进一步研究的工作(坑已挖好 

我们也可以构造“基因树”,用于定量比较基因序列,研究其演化路径,或者设计合成特定基因序列的最短路径。还可以构造污染物的分子树,探测环境中的特征污染物……

似乎从“分子树”中可以窥见一片蓝海,其中散布着尚待开发的无人之岛,比如 Leroy Cronin 教授甚至把它用在了探测外星生命上Nature Comm. 2021 [3])

希望你我可以砍下些分子树(或者其他类似的方法)做些小船。十船九沉,终将造访。


【关于作者】

刘宇
文章第一作者,现任北京师范大学珠海校区-复杂系统国际科学中心特聘副研究员,独立PI,小组目前研究神经网络和基因序列的模块演化、新药分子的设计、以及关于生命起源和信息的理论研究,详见微信公众号“三刀研学室”。

通讯作者Leroy Cronin是英国皇家化学教授,在英国格拉斯哥大学化学学院领导一个接近60人的实验室,专注于化学自动化、多酸、设计无机化学复杂系统等课题。

【关于软件】

文章[1]中的概念定义和数学推演、计算分子树、重构新分子的所有程序均为第一作者刘宇独立完成,新分子的筛选程序是与第三作者Bajczyk M共同完成,所以对于软件的所有细节都很了解。文中的所有算法和软件的源代码都是公开的、都可以免费自由下载、非商业使用,不过该软件仍有许多值得修改、改进的地方,欢迎大家各种批评、探讨。



参考文献
[1] Liu Y, Mathis C, Bajczyk M, Marshall S, Wilbraham L, Cronin L. Exploring and mapping chemical space with molecular assembly trees. Science Advances 7, eabj2465 (2021).
文章附件中可下载计算分子树和设计新分子的程序。
[2] Jacob F. Evolution and tinkering, Science 196, 1161-1166 (1977).
[3] Marshall S, et al. Identifying molecules as biosignatures with assembly theory and mass spectrometry. Nature Communications 12, 3033 (2021).

 

自生成结构读书会报名中


生命是有心(意识)的,但当你一层层剥开生命的组织,却只有心脏而没有一颗“心灵”;打开大脑皮层看到一个个神经元,却看不到“意识”。然而,生命与意识都具有”自我生成”的能力,生命自发从非生命中生成,意识自发从生命中生成。更惊人的是,生命与意识的自我生成结构似乎很相似。如果这个假设成立,那么最可能的备选结构会是什么呢?


为了更深入地认识复杂活系统的自生成结构,集智科学家小木球(仇玮祎)联合周理乾、王东、董达、刘宇、苑明理、傅渥成、章彦博等科学哲学、计算机科学、物理学和生物化学等学科的一线研究者共同发起组织《自生成结构系列读书会》。其中第一季《共识——自生成结构与自复制自动机的研究背景》,将自2021年11月20日开始,其后拟于每周五晚19:00-21:00线上举行,预计持续12周。欢迎从事相关研究、对相关领域有浓厚兴趣的探索者报名参与交流。



详情请见:
自生成结构读书会启动:剖解生命、意识与智能的核心结构



推荐阅读



点击“阅读原文”,报名读书会