导语


外星生命一定长得像人类吗?最近和你火热聊天的 ChatGPT 有智能和意识吗?当外星智慧生命出现在眼前,即使它们不是我们熟悉的样子,我们能识别出来吗?是否可以用严格的数学形式来定量描述生命和智能的复杂度?北京师范大学(珠海校区)复杂系统国际科学中心刘宇团队近期提出梯径理论(ladderpath theory),从两个维度定量地描述复杂性,并探索了系统要从简单向复杂演化需要满足的条件。梯径理论提供了一个较普适的数学框架,可用于描述序列、文字、图(化学分子、神经网络等)等各种各样的结构。


关键词:生命起源,智能,信息论,生命复杂性

刘宇 | 作者

邓一雪 | 编辑



一提到地球生命是怎么起源的,大家可能会想到海底,各种矿物质、冒泡的气体、熙熙攘攘的世界。一提到寻找外星智慧生命,大家可能会想到寻找各种生物标志物,比如氧气、磷化氢、光谱特征、类地星球,或是大眼睛的外星人。这两件事情可能让大家想到生物学、化学、物理、天文等等,却不会想到“数学”,可能更不会想到一个不参加高考的、听起来好像更“小众”的学科:“复杂系统理论”。




1. 你能判断外星生命和智能吗?




当一个外星生命摆在你面前,你真的有足够的信心断定它是生命吗?比如下面两个例子,谁更像生命呢?

(a)1996年,NASA曾一度宣布说在南极发现的一块火星陨石Allan Hills 84001上,有类似微生物化石的东西(不过该结论极具争议)


(b)2017年,加拿大魁北克地区发现的距今37.7亿年至42.8亿年的细菌化石(Dodd, Nature 2017, doi:10.1038/nature21377)


如果跟人长得一样,当然你可以说它是生命;如果跟地球生命长得一样,当然你也可以说它是生命。这里的逻辑来自于“相似性”:因为我们自己是生命,那么只要跟我们足够相似,那它就是生命。这个逻辑当然无可厚非,但“哪方面相似”、“多相似算相似”却很模棱两可。就像中国南方的吊脚楼和西北的窑洞,都是人的居住建筑,但不管从结构还是建造方法都大相径庭;而窑洞和人造石窟的构造更相似,但后者却不是居住建筑。

另一方面,如果表象上一点都不相似呢,比如既没有蛋白质、氨基酸,又没有RNA、DNA,甚至不是碳氢氧构成的、大小相差几个数量级呢?是否有某些数学性质在底层起作用,使得他们也是“生命”?

《Rick and Morty》中的外星生物

《Rick and Morty》中的外星生物

同样地,对于智能来说,当一个外星智能摆在你面前,你有足够的信心断定它有智能吗?不用说外星智能,能否、如何断定人工智能是否具有“智能”都那么不容易回答。如果你最近跟ChatGPT(OpenAI公司的自然语言处理模型)聊过天,你可能真的会觉得他跟真人没什么区别,甚至是一个“睿智”的人,他的回答甚至可能让你觉得他是不是在骗你说自己没有意识。你的这种体验就说明ChatGPT其实已经通过了“图灵测试”(阿兰·图灵在1950年代提出的检验机器是否具有人类智能的判据)

更进一步,人类智能可能是众多智能形态中的一种,智能不一定要跟人类智能相似(至少在一定程度上表现为脑的结构不同,正如ChatGPT的“脑”结构和人脑结构及工作机制大相径庭)

我与ChatGPT的对话

影视作品中的人工智能

影视作品中的人工智能

对于上述问题,除了研究“相似性”,能不能再多开辟一个思路?我们觉得,上述问题都跟“复杂的程度”有关,跟一个客体所具有的“信息量”有关。从直觉出发,生命和智能一定是复杂的、一定具有丰富的信息;细胞比一瓢水复杂、比一座山复杂,可能也比一本书复杂。当然,直觉有时是灯塔,有时是深渊入口,但不试试怎么知道对不对呢?我们尝试了一个方案:以严格的数学形式来定量描述一个客体的复杂程度(这顺带在某种程度上描绘了该客体所具有的信息量),且认为生命和智能都具有极高的复杂度(反过来倒不一定成立)

先看一个思想实验,如下图所示,如果在abcde五颗行星的表面上,分别发现以这些形式排布着的石头,哪一个更有可能是生命或者智能造成的,是否能对这种可能性给出定量描述?你有你自己的答案吗?我们下面会介绍一个理论,试图给出我们的答案。


更野的一个思考是:宇宙闪烁成摩斯密码,就几乎能断定是智能所为;那如果只是看似随机地闪烁呢?不知道读完这篇文章,你会不会有自己的答案。




2. “复杂度”:

梯径(ladderpath)的两根轴




我们提出一个理论尝试,称为“梯径(ladderpath)理论”。灵感来源于“大自然总是修修补补的,而不是从零开始设计发明;已经发明过的东西,可以无限量直接使用”。这种思想至少可以追溯到诺贝尔生理学或医学奖得主 François Jacob 在1977年发表于 Science 的文章 《Evolution and Tinkering》(tinker的意思是补锅匠,可能大家已经没有见过了)

先看一个自相矛盾的直觉。问,生命和一个盒子里的理想气体分子(即大量气体分子在无规律随机运动),哪个系统更复杂?我会说是生命(你大概也会吧),大概是因为生命是非常有序的结构。问,生命和晶体谁更复杂?我可能还是会说生命(你大概也会吧),大概是因为晶体过于有规律,简单几句话就可以描述了。但这里自相矛盾的直觉是,在生命和气体的问题中,我们认为越有序越复杂;而在生命和晶体的问题中,我们认为越没有规律、越无序越复杂。似乎只有处于有序和混乱之间的系统才是复杂的;然而,这种说法太模糊、太玄学了:“之间”多少算之间?“之间”的不同程度又如何定量描述?…

所以,“梯径理论”提出2个指标:

1. 一个是“梯径度”:定义为复现目标客体所需的最少步数。其刻画的是复现目标客体的难度(其中一个关键约定是:在复现过程中,前面已经出现过的组件可以在后续步骤中被无限重复使用,即tinkering的思想)

2. 另一个是“有序度”:定义为目标客体的规模减去其梯径度,也等价于目标客体中所含有的重复组件的规模。它刻画的是目标客体的有序程度。

在以这两个指标为轴的坐标系中,晶体的有序度非常高,梯径度很低;而气体分子的梯径度非常高,有序度很低;它们分别对应两种极端情况。而我们认为,生命系统应该是处于中间的对角线上,即梯径度和有序度同时都比较高。目前,我们暂将“梯径复杂度”定义为:梯径度×有序度÷规模度(这是我们目前仍在继续研究的课题,并且期望揭示随着生命的进程,它会自然而然地沿着45度的对角线往上演化)


另外,由于梯径理论定量地描述了信息,所以顺带有一些实际应用,比如用来设计新药分子。延伸阅读:简略版《搜索化学空间的新理论》;详细版《如何发现不同分子结构之间的关系?

以下是“梯径 (ladderpath) 理论”的一些技术细节。更详细的请参考已发表的论文:
https://www.mdpi.com/1099-4300/24/8/1082 (英文)
https://zh.wuyichen.org/chinese-version-ladderpath (中文)
不关心细节的话也可以完全跳过:

1. 梯径理论中的关键量之一是“梯径度”,它刻画的是复现目标客体(比如下图中的目标序列ABCDABCABCBC)的难度,具体定义为复现目标客体所需的最少步数,即下图中的7程 (lifts)。在计算“最少步数”时,关键约定是:复现过程中,前面已经出现过的组件可以在后续步骤中被无限重复使用。

2. 另一个关键量是“有序度”,它刻画的是目标客体的有序程度,定义为目标客体的规模度(以序列为例的话,则指一共由多少个字母组成,下图中即12)减去其梯径度,也等价于该目标客体中所含有的重复组件的规模度之和。所以此例中,目标客体ABCDABCABCBC的有序度为12-7=5程。

梯径的计算和表示。(a)此例中,虽然目标客体ABCDABCABCBC由12个字符组成,却只需要7步(“程 (lift)”是梯径理论定义的严格量,大体上可以理解成构造步数)。节省的步数是因为组件的重复使用,比如在第2步中新生成的ABC,在第3/4/5步中用了3次,所以总共是重用了2次;在第1步中新生成的BC,在第2/6步中用了2次,所以总共是重用了1次。(b)图a中的例子也可以等价地表示成偏序多重集的形式。(c)图a中的例子也可以等价地表示成“梯图 (laddergraph)”的形式,可更好地表现偏序和层级关系。


3. 我们直觉中所说的“复杂度”其实包含了“梯径度”和“有序度”两个方面。所以我们目前暂将 “梯径复杂度”定义为:梯径度×有序度÷规模度。这是我们目前仍在继续研究的课题:我们试图寻找蛋白质序列、神经网络的梯径复杂度与其功能性之间的关系。


文献中也有许多其他的定义复杂度的方式,如香农熵、柯氏复杂度、Lempel-Ziv压缩等。不过,比如用香农熵来计算复杂度,我们会发现混乱气体的复杂度是最高的,晶体的复杂度最低,生命处在两者中间——但这并不符合我们的直觉。

最后需要说明的是,梯径理论是一个较普适的数学框架,不仅可用于序列,也可用于文字、Graph(化学分子、神经网络等)、数学结构等各种各样的客体。




3. 系统如何向复杂演化、信息如何积累?




梯径度和有序度提供了定量描述复杂性的工具,是对于系统状态的单纯静态描述。更进一步的问题是:哪些系统可以从简单到复杂演化,这种演化规律是怎样的?

我们发现,如果一个系统具备两个特性:

1. 能够“成核”:指系统能够产生新的组件;

2. 能够“复制”:指系统中有一些组件能够复制。

那么该系统(称为“梯径系统 ladderpath-system”)就能够从简单向复杂演化。所谓成核,比如旧技术被改造成新技术、或现有蛋白质被改造成新蛋白质等,改造的过程就是形成新组件的过程;所为复制,比如新技术被很多人学习采用、新蛋白具有某些优势然后被大量复制等。显然,生命具备这两个特征,所以可以实现从简单到复杂的演化。这提示我们,生命起源可能没有想象中那么困难:一方面,生命并没有看上去那么复杂,因为其中有很多重复组件,另一方面,生命系统满足“成核”和“复制”两个条件,所以其复杂度会自然而然地增加。

有一个著名的、关于生命出现概率的比喻“垃圾场龙卷风”认为:生命起源的概率就像“一阵龙卷风吹过满是机械零件的垃圾场,然后这些零件自动组装成了一架空客飞机”这么低。你可以把零件想象成是组成细胞的分子,把这架飞机想象成是一个细胞。这个比喻乍听起来好像找不出什么毛病,但生命确实起源了(才有我们在这里思考这个问题),却没有见过零件自动组装成飞机。那问题出在哪里呢?(可能有人会说,如果我们再等几亿年,零件变飞机没准也能发生 emmm……原则上可能真的可以,但需要等待比目前宇宙年龄还长得多的时间,但生命其实只用几亿年就起源了)还有一个著名的“无限猴子定理”:让一只或者很多猴子在打字机上随机地按键,当按键时间达到无穷时,几乎必然能够打出任何给定的文字,比如莎士比亚的全套著作。其直觉的推论便是,只要时间足够长,生命的出现即使概率再低,也必然发生。然而,同样地,这种推论的问题在于需要无限长的时间,至少不可能像地球上一样,只花了几亿年时间,生命就出现了。


这两个论断的问题都在于,只假定了系统拥有“成核”的性质,而没有看到“复制”对于系统走向复杂的重要性。考虑如下图所示的一个例子。我们假定系统(a)拥有成核能力,但没有复制能力;最初系统中有很多基本组件,即小黑点;小黑点之间能够形成连接,可以想象成是类似于化学键的东西。所以,通过5步,可以形成结构[A]。然后考虑系统(b),假设它既有成核能力,又有复制能力,所以(b)是一个梯径系统。由于其复制能力,每一步生成的新结构都会在很短的时间内被复制(或自我复制),所以系统中会出现大量的这种新结构,这些新结构之间能够生成新的键,所以,同样是通过5步,能形成结构[B]。不管是在直觉上,还是利用梯径理论算出的复杂度,[B]都比[A]复杂。我们可以得出一个相对普遍的结论:在梯径系统中生成庞大、复杂的组件要比在非梯径系统中容易得多,花的时间要短得多。

非梯径系统与梯径系统的演化示意图(从左到右演化)。

现在,我们回到“垃圾场龙卷风”和“无限猴子定理”,空客飞机、《李尔王》、生命、蛋白质分子等等都是应该在类似(b)的梯径系统中,才有可能在可预期的短时间内出现,而不用等吹宇宙年龄那么久的龙卷风、不用等猴子敲无限长时间的键盘… 而生命系统本身、以及生命起源之初从化学系统-到前生命系统-再到生命系统的演化都是能够“成核”和“复制”的(这具体牵扯到另一个问题,即“自我复制”的涌现),所以生命的出现、并朝着复杂演化在原则上也就并不那么意外。

实际上不仅仅是生命,语言、科技、病毒演化、智能、软件开发生态等等系统也具有“成核”和“复制”的性质。比如在语言中,发明新词就是成核,别人用了你发明的新词就是复制;在软件开发如GitHub中,你修改现有的package并上传作为一个新的package就是成核,别人用了你的package就是复制,这也就是为什么开源系统要远比闭源系统复杂得多的原因,比如安卓系统的软件数量要远比iOS系统多得多。

最后,显然地,也有很多系统不满足这两个条件。举一个不那么平庸的例子:考虑科技的时候,发明过的东西如果已经在社会上广为人知,那么就可以在以后的社会中重复利用而无须再发明,这种重用就是“复制”;但如果某人发明了一个东西,却只有他的邻居们知道,生活在另一个城市的人没法重用他的发明,那这种情况下这个发明也就没有被“复制”;所以在一个闭塞的社会里,科技的这种“复制”特性也是不存在的,也就不是一个梯径系统。




4. 后续&挖坑




作为一个新提出的理论,梯径目前有很多坑,我们这里想留两个。

第一个坑是文章开头提到的问题:宇宙闪烁成摩斯密码,就几乎能断定是智能所为;那如果只是看似随机地闪烁呢?这类似于,我们在一颗外星球上发现了一架和空客飞机长得一样的东西,为了判断它是否是生命或智能所为,我们是应该只考虑这架飞机的复杂度、还是需要考虑这架飞机与地球上的长得一样的空客飞机所共同组成的整体系统的复杂度。不知道大家是不是已经有了自己的答案(上述论文中对此做了详细探讨https://zh.wuyichen.org/chinese-version-ladderpath)

第二个更野的坑是:所有出现过的复杂度快速、急剧上升的事件,是不是有可能都会对应着某种“成核”和“复制”机制的“发明”,比如生命起源、物种大爆发(利用氧气机制的传播、多细胞生活方式)、农业文明(耕种技术的采用和传播、农作物的大量繁殖)、文字出现所对应的社会系统的复杂化、互联网时代(电子文档的几乎无成本的复制传播)、技术奇点……

我们觉得这些是值得并且已经可以探讨的问题,希望以后能把这些坑填上。

* 感谢与刘培源、仇玮祎博士富有启发的讨论。

引文信息
1. Liu, Y. et al. Ladderpath Approach: How Tinkering and Reuse Increase Complexity and Information. Entropy, 2022, 24(8), 1082.
2. https://zh.wuyichen.org/chinese-version-ladderpath 引文1的中文版
3. Liu, Y. et al. Exploring and mapping chemical space with molecular assembly trees. Sci. Adv. 2021, 7, eabj2465.
4. Solé, R.; Valverde, S. Evolving complexity: How tinkering shapes cells, software and ecological networks. Philos. Trans. R. Soc. Biol. Sci. 2020, 375, 20190325.
5. Jacob, F. Evolution and tinkering. Science 1977, 196, 1161–1166.



自生成结构读书会报名中


详情请见:
自生成结构读书会启动:剖解生命、意识与智能的核心结构


‍‍‍‍‍‍‍

推荐阅读



点击“阅读原文”,报名读书会