因果涌现:用因果量化复杂系统中的涌现|集智百科
导语
因果涌现(causal emergence)是指动力系统中的一类特殊的涌现现象,即系统在宏观尺度会展现出更强的因果特性。特别的,对于一类马尔科夫动力系统来说,在对其状态空间进行适当的粗粒化以后,所形成的宏观动力学会展现出比微观更强的因果特性,那么称该系统发生了因果涌现[1][2]。同时,因果涌现理论也是一种利用因果效应度量来量化复杂系统中的涌现现象的理论。
近年来,张江老师带领研究组开始聚焦基于新兴AI技术进行数据驱动的自动建模研究,并立志破解复杂系统的涌现之谜。我们希望创建一个叫做“复杂AI次方”的开放实验室,实现思想共享、资源共享、跨学科交叉,共同为复杂系统自动建模而奋进。欢迎对复杂系统自动建模领域有热情,且认可这个领域发展前景的朋友一起来合作,促进这一领域的快速发展。
王志鹏、张江、刘凯威 | 作者
张江、王志鹏 | 审校
目录
2. 因果涌现的量化
3. 因果涌现的识别
4. 应用
5. 批判
6. 相关研究领域
1. 历史
1. 历史
1.1 相关概念的发展
因果涌现理论是一种试图用基于因果的定量研究方法,从现象学的角度回答什么是涌现这一问题的理论,因此因果涌现的发展与人们对涌现和因果等概念的认识和发展密切相关。
1.1.1 涌现
涌现一直是复杂系统中的一个重要特性,是许多关于系统复杂性,以及宏微观之间关系讨论的核心概念[3][4]。涌现可以简单理解为整体大于部分之和,即整体上展现出构成它的个体所不具备的新特性[5]。尽管学者们在各个领域都指出存在涌现的现象[4][6],如鸟类的群体行为[7],大脑中的意识形成,以及大语言模型的涌现能力[8],但目前还没有对这一现象普遍认可的统一理解。以往对涌现的研究大多停留在定性的阶段,如 Bedau et al[9][10]对涌现进行了分类研究,即将涌现分为名义涌现[11][12]、弱涌现[9][13]与强涌现[14][15]。
• 名义涌现可以理解为能被宏观层级所拥有,而微观层次没有的属性和模式,例如若干像素构成的圆这一形状就是一种名义涌现[11][12]。
• 弱涌现是指宏观层面的属性或过程是通过单个组件之间以复杂相互作用的方式产生的,或者弱涌现也可以被理解为原则上能够被计算机模拟的特性。由于计算不可约性原理,弱涌现特性即使能够被模拟,但仍然不能轻易地简化为微观层面的属性。对于弱涌现来说,其模式产生的原因可能来自微观和宏观两个层面[14][15],因此,涌现的因果关系可能与微观因果关系并存。
• 而对于强涌现来说存在很多的争论,它指的是宏观层面的属性,原则上不能简化为微观层面的属性,包括个体之间的相互作用。此外,Jochen Fromm 进一步将强涌现解释为向下因果的因果效应[16]。向下因果关系是指从宏观层面向微观层面的因果力。然而,关于向下因果关系本身的概念存在许多争议[17][18]。
由这些早期研究可以看出,涌现与因果有着天然的深刻联系。
1.1.2 因果及其度量
所谓的因果就是指事件彼此之间的相互影响。因果不等于相关,这体现为,不仅当 A 发生时 B 会发生,而且如果 A 不发生,则 B 也不发生。人们只有通过干预事件 A,从而考察 B 的结果,才能探测 A 与 B 是否存在着因果关系。
随着近年来因果科学得到了进一步的发展,使得人们可以用数学框架来量化因果,因果描述的是一个动力学过程的因果效应[19][20][21]。Judea Pearl[21]利用概率图模型来描述因果相互作用。Pearl 用不同的模型来区分并量化了三个层次的因果关系,这里我们比较关注因果阶梯中的第二层:对输入分布做干预。此外,由于发现的因果关系背后的不确定性和模糊性,测量两个变量之间的因果效应程度是另一个重要问题。许多独立的历史研究已经解决了因果关系测量的问题。这些测量方法包括休谟的恒定连接概念[22]和基于值函数的方法[23],Eells 和 Suppes 的概率性因果度量[24][25],以及 Judea Pearl 的因果度量指标等[19]。
1.1.3 因果涌现
如前所述,涌现和因果是相互联系的。具体来说,联系存在于以下方面:一方面,涌现可以理解为因果效应的一种,刻画了复杂系统中各组成部分之间复杂的非线性相互作用;另一方面,涌现出的特性也会对复杂系统中的单个个体产生因果作用。此外,以往人们习惯于将宏观因素归因为微观因素的影响,但是宏观涌现出来的模式,往往无法找到微观的归因,所以也就无法找到对应的原因。由此可见,涌现与因果存在着深刻的联系。再者,虽然我们有了对涌现的定性分类,然而却无法定量的刻画涌现的发生。因此,我们可以借助因果来定量刻画涌现的发生。
2013年,美国理论神经生物学家 Erik Hoel 尝试将因果引入涌现的衡量,提出了因果涌现这一概念,并且使用有效信息(Effective Information,简称 EI)来量化系统动力学的因果性强弱[1][2]。因果涌现可以描述为:当一个系统在宏观尺度相较其在微观尺度上具有更强的因果效应的时候,就产生了因果涌现。因果涌现很好的刻画了系统宏观和微观状态之间的区别与联系,同时把人工智能中的因果和复杂系统中的涌现这两个核心概念结合起来,因果涌现也为学者回答一系列的哲学问题提供了一个定量化的视角。比如,可以借助因果涌现框架讨论生命系统或者社会系统中的自上而下的因果特性。这里的自上而下因果指的是向下因果(downward causation)[26],表示存在宏观到微观的因果效应。例如,壁虎断尾现象,当遇到危险时,壁虎不管自己的尾巴怎样,直接将它断掉。这里整体是因,尾巴是果,那么就存在一个整体指向部分的因果力。
1.2 早期量化涌现工作
早期已经有一些相关的工作尝试对涌现进行定量的分析。Crutchfield 等[27]提出的计算力学理论考虑了因果态,该方法是在状态空间划分的基础上展开相关概念讨论的,与 Erik Hoel 的因果涌现理论存在着很大的相似性。而 Seth 等人则提出了 G-emergence 理论[28]利用格兰杰因果关系来量化涌现。
1.2.1 计算力学
计算力学理论试图用定量的框架来表述涌现的因果规律,即如何从一个随机过程中构造一种粗粒化的因果模型,从而使得这个模型可以产生已观测的随机过程的时间序列[27]。
这里的随机过程可以用 表示,基于时间
计算力学的目标是建立一个模型,希望以一定的准确度对观察到的随机序列进行重建和预测。然而,序列的随机性使我们无法获得完美的重建,因此,我们需要一个粗粒化的映射来捕获随机序列中的有序结构。这个粗粒化映射可以用一个划分函数
计算力学将任意的子集
可以证明,当使用一组状态构建预测模型时,这组状态的统计复杂性就近似等价于预测模型的大小。
此外,为了使宏观状态集在预测性和简约性之间取得最佳平衡,计算力学定义了因果等价的概念,如果
进一步,我们可以将两个因果态
计算力学可以证明,通过
虽然原始的计算力学没有给出涌现的明确定义和定量理论,但是随后一些研究人员进一步推进了该理论的发展,Shalizi 等[29]在自己的工作中讨论了计算力学与涌现的关系,如果过程
因果涌现框架与计算力学存在很多相似之处,所有历史过程
1.2.2 G-emergence
G-emergence 理论是 Seth 于 2008 年提出的,最早从因果的角度对涌现进行定量量化的研究之一[28],基本思想是用非线性格兰杰因果来量化复杂系统中的弱涌现。
具体来说,如果我们使用二元自回归模型进行预测,当只存在两个变量 A 和 B 时,自回归模型存在两个等式,每个等式对应其中一个变量,每个变量的当前时刻值都是由它自身和另外一个变量在滞后一定时间范围内的数值构成。另外,该模型还会计算残差,这里残差可以理解为预测误差,可以用来衡量每一个等式的格兰杰因果效应程度(称为 G-causality)。B 作为 A 的格兰杰因(G-cause)的程度通过两个残差方差之比的对数来计算,其中一个是在省略B时A的自回归模型的残差,另一个是全预测模型(包含了 A 和 B)的残差。此外,作者还定义了“G 自主性(G-autonomous)”的概念,表示一个时间序列的过去值可以预测自身的未来值的度量,可以用类似 G-causality 的方式来刻画这种自主预测的因果效应强度。
如上图所示,我们可以基于上述 G-causality 中的两个基本概念来判断涌现的发生(这里是基于格兰杰因果的涌现的衡量,记作 G-emergence)。如果把 A 理解为宏观变量,B 理解为微观变量。发生涌现的条件包含两个:1)A 是关于 B 的 G-autonomous;2)B 是 A 的 G-cause。其中 G-emergence 的程度是通过 A 的 G-autonomous 的程度与 B 的平均 G-cause 的程度的乘积来计算的。
Seth 提出的 G-emergence 理论首次尝试使用因果度量来量化涌现现象,然而,作者使用的因果关系是格兰杰因果,这不是一个严格的因果关系,同时度量的结果也取决于所使用的回归方法。除此之外,该方法的度量指标是根据变量而不是动力学定义的,这意味着结果会依赖于变量的选择。这些都构成了 G-emergence 理论的弊端。
因果涌现框架与前面提到的 G-emergence 也有相似之处,两个方法的宏观状态都需要人工选择。此外,需要注意的是,上述的一些定量量化涌现的方法往往没有考虑真正的干预式因果。
1.2.3 其他定量刻画涌现的理论
此外,也存在一些其他的涌现定量理论,主要有两种方法被广泛讨论。一种是从无序到有序的过程来理解涌现,Moez Mnif 和 Christian Müller-Schloer[30]使用香农熵来度量有序和无序。在自组织过程中,当秩序增加时就会出现涌现,通过测量初始状态和最终状态之间的香农熵的差异来计算秩序的增加。然而,该方法存在的缺陷是:它依赖于抽象的观察水平以及系统的初始条件。为了克服这两种困难,作者提出了一种与最大熵分布相比的度量方法。受 Moez mif 和 Christian Müller-Schloer 工作的启发,参考文献[31]建议使用两个概率分布之间的散度来量化涌现。他们将涌现理解为在所观察到的样本基础上的一种意想不到的或不可预测的分布变化。但该方法存在计算量大、估计精度低等缺点。为了解决这些问题,文献[32]进一步提出了一种使用高斯混合模型估计密度的近似方法,并引入马氏距离来表征数据与高斯分量之间的差异,从而得到了更好的结果。此外,Holzer 和 de Meer 等人[33][34]提出了另一种基于香农熵的涌现测量方法。他们认为一个复杂的系统是一个自组织的过程,在这个过程中,不同的个体通过通信相互作用。然后,我们可以根据代理之间所有通信的香农熵度量与作为单独源的香农熵总和之间的比率来测量涌现。
另一种方法是从“整体大于部分之和”的角度来理解涌现的[35][36],该方法从交互规则和主体的状态来定义涌现,而不是从整个系统的总体来进行统计度量。具体地说,这个度量需要使两项相减。第一项描述了整个系统的集体状态,而第二项代表了所有组成部分的单个状态的总和。该度量强调涌现产生于系统的相互作用和集体行为。
1.3 基于有效信息的因果涌现理论
历史上,第一个比较完整而明确的利用因果来定义涌现的定量理论当属 Erik Hoel, Larissa Albantakis 以及 Giulio Tononi 三人提出的因果涌现理论[1][2]。该理论针对马尔科夫链定义所谓的因果涌现为:粗粒化后的马尔科夫链比原始的马尔科夫链具有更大的因果效应强度的现象。这里,因果效应强度是通过有效信息来衡量的,该指标是对互信息指标的一种改造,主要差别是将
1.4 基于信息分解的因果涌现理论
此外,2020 年,Rosas 等[37]从信息理论视角出发,提出一种基于信息分解的方法来定义系统中的因果涌现,基于协同信息或者冗余信息来定量的刻画涌现。所谓的信息分解是分析复杂系统中各个变量复杂相互关系的一种新方法,通过对信息进行分解,用信息原子来表示每个部分信息,同时借助信息晶格图将每个部分信息投射到信息原子中,其中协同信息以及冗余信息都可以用对应的信息原子来表示。该方法建立在 Williams 和 Beer 等[38]提出的多元信息非负分解理论的基础之上,文中使用部分信息分解(PID)将微观态和宏观态的互信息进行分解。然而,PID 框架只能分解关于多个源变量和一个目标变量之间的互信息,Rosas 扩展了该框架,提出整合信息分解方法
1.5 近期工作
Barnett 等人[40]基于转移熵,通过判断宏观动力学与微观动力学进行解耦来判断涌现的发生,因而提出了动力学解耦的概念。也就是,将涌现刻画为,宏观的变量与微观的变量相互独立,没有因果关系,这也可以看做是一种因果涌现现象。
2024 年,张江等人[26]基于奇异值分解,提出了一套新的因果涌现理论。该理论的核心思想是指出所谓的因果涌现其实等价于动力学可逆性的涌现。给定一个系统的马尔科夫转移矩阵,通过对它进行奇异值分解,将奇异值的
2. 因果涌现的量化
2. 因果涌现的量化
接下来,我们重点介绍几种利用因果度量来量化涌现现象的研究。
2.1 几种因果涌现理论
对于如何定义因果涌现是一个关键问题,有几个代表性工作,分别是 Hoel 等[1][2]提出的基于有效信息的方法、Rosas 等[37]提出的基于信息分解的方法、张江等人[26]基于奇异值分解提出了一套新的因果涌现理论以及一些其他的理论。
2.1.1 Erik Hoel的因果涌现理论
Hoel 等于 2013 年[1][2]提出因果涌现理论,下图是对该理论的一个抽象框架,其中,横坐标表示时间,纵坐标表示尺度(Scale)。该框架可以看成是对同一个动力系统在微观和宏观两种尺度上的描述。其中,
2.1.1.1 有效信息
有效信息(
具体来说,
在马尔科夫链中,任意时刻的状态变量
其中
有效信息可以拆解为确定性和简并性两部分,还可以通过引入归一化从而消除状态空间规模大小的影响。关于有效信息的详细信息请参看词条:有效信息。
2.1.1.2 因果涌现度量
其中
进一步,
2.1.1.3 马尔科夫链实例
在文献[1]中,Hoel 给出一个含有 8 个状态的马尔科夫链的状态转移矩阵(
对该矩阵的粗粒化为如下操作:首先,将前 7 个状态归并为一个宏观状态,不妨称为 A,并且将
然而,对于更一般的马尔科夫链和更一般的状态分组,这种简单的将概率平均化的操作并不都是可行的,这是因为归并后的概率转移矩阵有可能不满足马尔科夫链的条件(如矩阵的行并不满足归一化条件,或元素数值超出 [0,1] 区间范围)。关于什么样的马尔科夫链和状态分组可以得到一个可行的宏观马尔科夫链,请参考本词条后面的马尔科夫链的约简一节,或参看马尔科夫链的粗粒化这一词条。
2.1.1.4 布尔网络实例
另一个文献[1]中的例子是一个布尔网络中发生因果涌现的例子。如图所示,这是一个含有 4 个节点的布尔网络,每个节点有 0 和 1 两种状态,每个节点与另外两个节点相连,遵循相同的微观动力学机制(a图)。因此,该系统一共含有十六个微观状态,它的动力学可以用一个
对该系统的粗粒化操作分为两步,第一步是对布尔网络中的节点进行聚类,如下图b所示,将A和B进行合并得到宏观节点
通过对比,我们发现宏观动力学的有效信息大于微观动力学的有效信息(
2.1.1.5 连续变量中的因果涌现
进一步,在[42]一文中,Hoel 等人提出了因果几何理论框架,试图将因果涌现理论推广到具有连续状态的函数映射与动力系统之中,该文章对随机函数映射定义了
2.1.2 Rosas的因果涌现理论
Rosas 等[37]从信息分解理论的视角出发,提出一种基于整合信息分解定义因果涌现的方法,并将因果涌现进一步区分为:因果解耦(Causal Decoupling)和向下因果(Downward Causation)两部分。其中因果解耦表示当前时刻宏观态对下一时刻宏观态的因果效应,向下因果表示上一时刻宏观态对下一时刻微观态的因果效应。因果解耦和向下因果的示意图如下图所示,其中微观状态输入为
2.1.2.1 部分信息分解
该方法建立在Williams和Beer等[38]提出的多元信息非负分解理论的基础之上,该文使用部分信息分解(PID)将微观态和宏观态的互信息进行分解。
不失一般性,假设我们的微观态为
其中
2.1.2.2 因果涌现定义
然而,PID 框架只能分解关于多个源变量和一个目标变量之间的互信息,Rosas扩展了该框架,提出整合信息分解方法
1)当特有信息
2)第二种方法绕开了选择特定的宏观态
值得注意的是,对于方法一判断因果涌现的发生需要依赖宏观态
2.1.2.3 具体实例
文[37]中作者列举了一个具体的例子(如上式),来说明什么时候发生因果解耦、向下因果以及因果涌现。该例子是一个特殊的马尔科夫过程,这里,
实际上,如果
因而该过程的宏观态可以就看做是整个序列所有维度和的奇偶性,该奇偶性的概率分布是微观态的异或计算的结果。 是一个特殊的微观态,它始终与上一时刻序列的宏观态保持一致。因此,当第二个判断条件中只有第一项成立时该系统发生向下因果条件,只有第二项成立时系统发生因果解耦,两项同时成立时则称系统发生因果涌现。
2.1.3 基于奇异值分解的因果涌现理论
Erik Hoel的因果涌现理论存在着需要事先指定粗粒化策略的问题,Rosas 的信息分解理论并没有完全解决该问题,因此,张江等人[26]进一步提出了基于奇异值分解的因果涌现理论。
2.1.3.1 马尔科夫链的奇异值分解
给定一个系统的马尔科夫转移矩阵
2.1.3.2 近似动力学可逆性与有效信息
我们可以将奇异值的
这里,
此外,文献中作者证明了
而且,在一定程度上可以用
2.1.3.3 无需粗粒化的因果涌现量化
然而,该理论的最大价值在于无需粗粒化策略,就可以直接量化涌现。如果
如果矩阵
总结来看,该定量化因果涌现的方法的好处在于,它可以不依赖于具体的粗粒化策略,因而可以更加客观地量化因果涌现。该方法的缺点是,若要计算
2.1.3.4 具体实例
作者给出了四个具体马尔科夫链的例子,该马氏链的状态转移矩阵如图所示。我们可以对比该马氏链的
2.1.4 动力学解耦(Dynamic independence)
动力学解耦(Dynamic Independence)是一种刻画粗粒化后的宏观动力学状态独立于微观动力学状态的方法[40],其核心思想是,尽管宏观变量是由微观变量组成,但在预测宏观变量未来状态时,只需要依赖宏观变量历史信息,而不需要微观历史提供额外的信息,这种现象就被作者称为动力学解耦,它是另一种对涌现进行量化的手段,此时的宏观动力学称为涌现动力学。动力学解耦概念中的独立性、因果依赖性等可以通过转移熵(Transfer Entropy)进行量化。
2.1.4.1 动力学解耦的定量化
转移熵是测量两个随机过程之间有向(时间不对称)信息转移量的一种非参数统计量。过程
其中,
动力学解耦的概念可以被广泛适用于多种复杂动态系统,包括神经系统、经济过程和进化过程。通过粗粒化方法,可以将高维微观系统简化为低维宏观系统,从而揭示出复杂系统中的涌现结构。
文中,作者在线性系统中进行了实验验证,实验流程是:1)使用线性系统生成参数与规律;2)设定粗粒化函数;3)得到转移熵的表达式;4)优化求解最大去耦合的粗粒化方法(对应最小转移熵)。这里的优化算法可以使用转移熵作为优化目标,然后使用梯度下降算法来求解粗粒化函数,也可以使用遗传算法来优化。
2.1.4.2 实例
文中举了一个线性动力系统的例子,其动力学是一个向量自回归的模型,通过使用遗传算法对不同的初始条件进行迭代进化,能使得系统的动力学解耦程度也逐渐增加,同时发现不同的粗粒化尺度会影响优化到动力学解耦的程度,实验发现只有在某些尺度下能达到动力学解耦,而在其他尺度则不行,因此尺度的选择也很重要。
2.2 几种因果涌现理论比较
我们可以从是否考虑因果、是否需要指定粗粒化函数,适用的动力学系统以及定量化指标这几个不同的维度,对比上述四种不同的定量化因果涌现理论,得到下表:
方法 | 是否考虑因果 | 是否涉及粗粒化 | 适用的动力学系统 | 度量指标 |
Hoel 的因果涌现理论[1] |
动力学因果,EI 定义引入了 do 干预 |
需要指定粗粒化方法 |
离散马尔科夫动力学 |
动力学因果:有效信息 |
Rosas 的因果涌现理论[37] |
用互信息刻画的相关性近似 |
基于协同信息判断时不涉及粗粒化,基于冗余信息计算则需要指定粗粒化方法 |
任意动力学 |
信息分解:协同信息或冗余信息 |
基于可逆性的因果涌现理论[26] |
动力学因果,EI 与近似动力学可逆性等价 |
不依赖于具体的粗粒化策略 |
离散马尔科夫动力学 |
近似动力学可逆性: |
动力学解耦[40] |
格兰杰因果 |
需要指定粗粒化方法 |
任意动力学 |
动力学独立性:转移熵 |
3. 因果涌现的识别
3. 因果涌现的识别
前面已经介绍了一些通过因果度量和其他信息论指标来量化涌现的工作。然而,在实际应用中,我们往往只能收集到观测数据,而无法得到系统的真实动力学。因此,从可观测数据中辨别系统是否发生了因果涌现是一个更为重要的问题。下面介绍两种因果涌现的识别方法,包括基于 Rosas 因果涌现理论的近似方法 (基于互信息近似的方法和基于机器学习的方法) 和我国学者提出的神经信息压缩(NIS,NIS+)方法。
3.1 基于 Rosas 因果涌现理论的近似方法
Rosas 的因果涌现理论包含了基于协同信息的量化方法和基于特有信息的量化方法,其中第二种方法可以绕开多变量的组合爆炸问题,但是依赖粗粒化方法和宏观态变量
3.1.1 基于互信息近似的方法
Rosas 的因果涌现理论虽然已经给出了因果涌现的严格定义,但在计算中涉及到很多变量的组合爆炸问题,因此难以将该方法应用于实际系统。为了解决这个问题,Rosas 等绕开了特有信息和协同信息的精确计算[37],而提了一种只需要计算互信息的近似公式,并推导出一个判定因果涌现发生的充分条件。
作者们基于互信息提出了三个新指标,
• 判断因果涌现的指标:
其中
• 判断向下因果的指标:
当 Δ>0 时,宏观状态 V 对微观变量 X 存在向下因果。
判断因果解耦的指标:
当 Δ>0 且 Γ=0 时,系统发生因果涌现且存在因果解耦。
之所以我们可以使用
由于
总结来看,该方法因为是基于互信息的,所以计算比较方便,且对系统的动力学没有马尔科夫性的假设和要求。但是,该理论也存在很多缺点:1)该方法提出的三个指标:
为了验证猕猴运动有关的信息是其皮层活动的一个涌现特征,Rosas 等做了如下实验:基于猕猴的皮质脑电图(ECoG)作为微观动力学的观测数据。为了得到宏观态变量
3.1.2 基于机器学习的方法
Kaplanis 等人[26]基于表示机器学习 (Representation learning) 的理论方法,用算法通过最大化
图b展示了一个 toy 模型实例,微观输入
结果表明,在图b所示的简单例子中,通过图a构建的模型最大化
3.2 神经信息压缩方法
近年来,新兴的人工智能技术已经攻克一系列重大难题,同时机器学习方法配备了各种精心设计的神经网络结构和自动微分技术,可以在巨大的函数空间中逼近任何函数。因此,张江等尝试基于神经网络提出一种基于数据驱动的能够从时间序列数据中识别因果涌现的方法[44][40],该方法能自动提取有效的粗粒化策略和宏观动力学,克服了 Rosas 方法[37]的种种不足。
在该工作中,输入的是时间序列数据
其中
所谓的因果涌现识别问题是指这样的一个泛函优化问题:
这里,
整个优化框架如下图所示:
这一优化问题的目标函数为
3.1.1 NIS
为了识别系统中的因果涌现,作者提出一种神经信息压缩器(Neural Information Squeezer,NIS)神经网络架构[44],该架构基于一种编码器-动力学学习器-解码器框架,即模型由三个部分构成,分别用于对原始数据进行粗粒化得到宏观态、拟合宏观动力学和反粗粒化运算(将宏观态配合随机噪声解码为微观态)。其中,作者们用可逆神经网络(INN)构建编码器(Encoder)和解码器(Decoder),分别近似对应粗粒化函数
具体的,编码器函数
其中
解码器为函数
这里
然而,如果我们直接优化维度平均的有效信息会存在着一定的困难,文章[44]并没有直接优化公式1,而是采用了一种取巧的方法。为了解决这个问题,作者将优化过程分为两个阶段,第一个阶段为在给定宏观尺度
除了能基于时序数据自动识别因果涌现,该框架还有很好的理论性质,其中有两个重要定理:
定理一:神经信息挤压器的信息瓶颈,即对于任意的双射
恒成立,这意味着,编码器丢弃的所有信息实际上都是与预测无关的噪声信息。
定理二:对于一个训练好的模型,
3.2.1.1 与经典理论的比较
NIS框架与前面章节中提到的计算力学框架存在很多相似之处,NIS 可以被视为一种
同时NIS框架与前面提到的 G-emergence 理论也有相似之处,例如,NIS同样采用了格兰杰因果的思想:通过预测下一个时间步的微观状态来优化有效的宏观状态。然而,这两个框架之间有几个明显的区别:a)在 G-emergence 理论中,宏观状态需要人工选择,而NIS则是通过自动优化粗粒化策略来得到宏观状态的;b)NIS使用神经网络来预测未来状态,而 G-emergence 使用自回归技术来拟合数据。
3.2.1.2 计算实例
NIS 作者在弹簧振子模型中进行了实验,结果如下图所示,图a展示下一时刻通过编码的结果与通过宏观动力学的迭代结果线性重合验证了模型的有效性,图 b 展示了学习到的两个动力学和真实的动力学同样重合,进一步验证了模型的有效性,图 c 是模型多步预测的效果,预测和真实的曲线很接近,图 d 展示了不同尺度下的因果涌现大小,发现在尺度为2时因果涌现最显著,对应了真实的弹簧振子模型也只需要两个状态(位置和速度)就可以描述整个系统。
3.2.2 NIS+
NIS 虽然率先提出了对 EI 进行优化,从而在数据中辨识因果涌现的方案,但是该方法存在一些不足:作者将优化过程分为两个阶段,但是并没有真正的最大化有效信息,即公式1。因此,杨明哲等人[40]进一步改进该方法,提出了 NIS+ 方案,通过引入反向动力学以及重加权技术,借助变分不等式将原始的最大化有效信息转换成最大化其变分下界来直接优化目标函数。
3.2.2.1 数学原理
具体地,根据变分不等式和逆概率加权方法,公式2所给出的带约束的优化问题可以转变为如下不带约束的最小化问题:
其中
其中
3.2.2.2 工作流与模型架构
下图展示了 NIS+ 的整个模型框架,图 a 是模型的输入:时间序列数据,可以是轨迹序列、连续图像序列以及脑电时间序列数据等;图c是模型的输出,包括因果涌现的程度、宏观动力学、涌现模式以及粗粒化策略;图b是具体的模型架构,区别于 NIS 方法,增加了反向动力学和重加权技术两部分。
3.2.2.3 实例分析
文章对不同的时间序列数据集进行了实验,包括疾病传播动力系统模型SIR动力学、鸟群模型(Boids模型)和元胞自动机:生命游戏所生成的数据,以及真实人类被试的脑神经系统fMRI信号数据,这里我们选择鸟群和脑信号分别实验进行介绍说明。
下图为 NIS+ 学习 Boids 模型的群集行为的实验结果。(a)和(e)给出了不同条件下鸟群的实际和预测轨迹。具体来说,作者将鸟群分为两个组,并且比较了在不同噪声水平(
这组实验表明,NIS+可以通过最大化EI来学习宏观状态和粗粒化策略。这种最大化增强了模型对超出训练数据范围情况的泛化能力。学习到的宏观状态有效地识别了平均群体行为,并且可以使用梯度积分方法将其归因于个体位置。此外,因果涌现的程度随外在噪声的增加而增加,而随内在噪声的增加而减少。这一观察结果表明,模型通过粗粒化可以消除外在噪声,而不能削减内在噪声。
脑实验是基于真实的 fMRI 数据,该数据通过对 830 个人类被试做了两组实验得到。第一组是让被试执行看一段电影短片的视觉任务记录完成,第二组实验是让他们处于静息态下记录完成。由于原始维度比较高,作者们首先通过使用 Schaefer atlas 方法对原始的 14000 维数据降维到 100 个维度,每个维度对应一个脑区。之后,作者们通过 NIS+ 学习这些数据,并提炼出 6 个不同宏观尺度下的动力学,图 a 展示了不同尺度下的多步预测误差结果,图 b 展示了在静息态和看电影视觉任务中 NIS 与 NIS+ 方法在不同宏观维度上 EI 的对比。作者们发现在视觉任务中,宏观态维度在 q=1 时因果涌现最显著,通过归因分析发现视觉区发挥的作用最大 (图 c),与真实的场景保持一致。图d展示了脑区归因的不同视角图。而在静息态下,1 个宏观维度不足以预测微观时间序列数据,因果涌现最大的维度是表现在 3-7 维之间。
这些实验表明 NIS+ 不仅可以辨识数据中的因果涌现、发现涌现的宏观动力学和粗粒化策略,而且另外的实验还表明,NIS+ 模型还能够通过 EI 最大化而增加模型的分布外泛化能力。
4. 应用
4. 应用
本小节主要讲解因果涌现在各个复杂系统中的潜在应用, 包括: 生物系统、神经网络、脑神经系统、人工智能 (因果表示学习、基于世界模型的强化学习、因果模型抽象) 以及在一些其他的潜在应用(包括意识研究和中国古典哲学)等。
4.1 复杂网络中的因果涌现
2020 年,Klein 和 Hoel 改进马尔科夫链上定量化因果涌现的方法以应用到复杂网络中[45],作者借助随机游走子来定义网络中的马尔科夫链,将随机游走子放在节点上等价于对节点做干预,然后基于随机游走概率定义节点间的转移概率矩阵。同时作者将有效信息与网络的连通性建立联系,连通性可以通过节点的出边和入边的权重的不确定性来表征,基于此定义复杂网络中的有效信息。详细方法可以参考复杂网络中的因果涌现。
作者在随机网络(ER)、偏好依附网络模型(PA)等人工网络以及四类真实网络中进行了实验比较,发现:对于ER网络来说,有效信息的大小只依赖于连接概率
在该文章中,作者使用贪婪算法来粗粒化网络,然而对于大规模网络来说,这种算法效率很低。随后,Griebenow 等[46]提出了一种基于谱聚类的方法来识别偏好依附网络中的因果涌现。相比贪婪算法以及梯度下降算法,谱聚类算法的计算时间更少,同时找到的宏观网络的因果涌现也更加显著。
4.2 在生物网络上的应用
进一步,Klein 等人将复杂网络中的因果涌现方法扩展到了更多的生物网络中。前文已经指出,生物网络具有更大的噪音,这使得我们很难理解其内部的运作原理,这种噪音一方面来自系统的固有噪音,另一方面是由于测量或观察引入的。Klein 等[47]进一步探索了生物网络中的噪声、简并性和确定性三者之间的关系以及具体含义,得出了一些有趣的结论。
例如,基因表达网络中的高确定性可以理解为一个基因几乎肯定会导致另一个基因的表达。同时生物系统在进化过程中也普遍存在高简并性现象。这两个因素共同导致,目前人们尚不清楚应该在何种尺度上分析生物系统才能更好理解它们的功能。Klein 等[48]分析了超过 1800 个物种的蛋白质相互作用网络,发现宏观尺度的网络具有更小的噪音和简并性,同时与不参与宏观尺度的节点相比,组成宏观尺度网络中的节点更具有弹性。因此,生物网络为了适应进化的要求,需要演化出宏观尺度以提高确定性来增强网络弹性以及提高信息传输的有效性。
Hoel 等在文章[49]中借助有效信息理论进一步研究了生物系统中的因果涌现。作者将有效信息应用到基因调控网络上,以识别最能提供信息的心脏发育模型从而控制哺乳动物的心脏发育。通过量化酿酒酵母基因网络的最大联通集团中的因果涌现,文章揭示了富有信息的宏观尺度在生物学中是普遍存在的,以及生命机制本身也经常运行在宏观尺度上。该文章也为生物学家提供了一种可计算的工具来识别最具有信息的宏观尺度,并且可以在此基础上建模、预测、控制和理解复杂的生物系统。
Swain 等在文章[50]中探索了蚁群的交互历史对任务分配和任务切换的影响,使用有效信息研究噪声如何在蚂蚁之间传播。结果发现,蚁群之间历史交互程度影响任务的分配,并且具体交互中蚂蚁群体的类型决定了交互中的噪音。此外,即使当蚂蚁切换功能群时,蚁群涌现出来的凝聚力也能保证群体的稳定,同时不同功能蚁群在维持蚁群凝聚力方面也发挥着不同的作用。
4.3 在人工神经网络上的应用
Marrow 等人在文章[51]中尝试将有效信息引入神经网络,来量化和跟踪训练过程中神经网络因果结构的变化,其中有效信息用于评估节点和边对每层下游目标的因果的影响程度,这里每层神经网络的有效信息 EI 定义为:
这里的
这里 i,j 分别代表输入层和输出层的任意神经元组合,
这里应该区别于有效信息的定义,这里是对输入层中的每一个神经元分别进行do干预,然后将每两个神经元计算出来的互信息进行累加作为灵敏性的定义,简并性通过有效信息与灵敏性的差得到,定义为:
通过观察模型训练过程中的有效信息,包括灵敏性和简并性的变化,就可以知道模型的泛化能力,从而帮助学者更好的理解和解释神经网络的工作原理。
4.4 在脑神经系统上的应用
脑神经系统是一个涌现的多尺度复杂系统,Luppi 等人[52]基于整合信息分解,揭示了人类意识的协同工作空间。作者构建了脑认知的三层架构,包括:外部环境、具体的模块以及协同全局空间。大脑的工作原理主要包括三个阶段:第一个阶段负责将来自多个不同模块的信息收集到工作空间中,第二个阶段负责在工作空间中整合收集到的信息,第三个阶段负责将全局信息广播到大脑的其他部分。作者在三类不同静息态的 fMRI 数据上进行实验,包括 100 个正常人、15 个参与麻醉实验的被试者(包括麻醉前、麻醉以及恢复三种不同状态)以及 22 个慢性意识障碍(DOC)的被试者。该文章使用整合信息分解得到协同信息和冗余信息,以及使用修正后的整合信息值
4.5 在人工智能系统上的应用
因果涌现理论与人工智能领域也存在着非常强的联系,这体现为:首先,因果涌现识别问题的机器学习解决方案其实就是一种因果表示学习的应用;其次,有效信息的最大化等技术也有望应用到因果机器学习等领域。
4.5.1 因果表示学习
因果表示学习是人工智能中的一个新兴领域,它试图将机器学习中的两个重要领域:表示学习和因果推断结合起来,尝试结合各自的优势,自动提取数据背后的重要特征和因果关系[53]。基于有效信息的因果涌现识别可以等价于一种因果表示学习任务。从数据中识别因果关系的涌现,等价于学习数据背后的潜在因果关系与因果机制。具体来说,我们可以把宏观状态看成因果变量,宏观动力学类比为因果机制,粗粒化策略可以看作是一个从原始数据到因果变量的编码过程或表示(Representation),有效信息可以理解为对机制的因果效应强度的衡量。
由于这两者存在很多相似之处,这就使得两个领域的技术和概念可以相互借鉴。例如,因果表示学习技术可以应用于因果涌现识别,反过来,学习到的抽象因果表征可以被解释为一种宏观状态,从而增强因果表示学习的可解释性。但是两者也存在显著差异,主要包括两点:1)因果表示学习假设其背后存在一个真实的因果机制,数据是由这个因果机制产生的,然而宏观层面涌现出的状态和动力学之间可能并不存在“真正的因果关系”;2)因果涌现中的粗粒化后的宏观状态是一种低维的描述,然而因果表示学习中并没有这个要求。从认识论的视角看,两者并不存在差异,因为两者所做的都是从观察数据中提取有效信息的,从而获得具有因果效应更强的表征。
为了更好地对比因果表示学习和因果涌现识别任务,我们列出了下表:
因果表示学习与因果涌现识别的比较
4.5.2 有效信息在因果机器学习中的应用
因果涌现能够在分布外场景中增强机器学习的性能,
4.5.2.1 因果模型抽象
在复杂系统中,由于微观状态往往存在噪音,人们需要将微观状态进行粗粒化才能得到噪音更小的宏观状态,使得宏观动力学的因果性更强。同样对于解释各类数据的因果模型也一样,由于原始模型过于复杂,或者计算资源受限,所以人们往往需要得到更加抽象的因果模型,并且保证抽象的模型尽可能保持原始模型的因果机制,这就是所谓的因果模型抽象(Causal Model Abstraction)。
因果模型抽象属于人工智能的一个子领域,它特别在因果推理和模型可解释性方面发挥着重要的作用,这种抽象可以帮助我们更好地理解数据中隐藏的因果机制,以及变量之间的相互作用。因果模型抽象通过评估一个高层次模型尽可能模拟一个低层次模型的因果效应的优化来实现[56]。如果高层次模型能够概括低层次模型的因果效应,我们称这个高层次模型是低层次模型的因果抽象。
因果模型抽象讨论的也是因果关系与模型抽象(可以看成粗粒化过程)之间的相互作用[57]。因此,因果涌现识别与因果模型抽象存在很多相似之处,可以把原始的因果机制理解为微观动力学,抽象出来的机制理解为宏观动力学。在 神经信息压缩框架中(NIS),研究者对粗粒化策略和宏观动力学进行了限制,要求宏观动力学的微观预测误差要足够小以排除平凡解。这个要求也类似于因果模型抽象中希望抽象后的因果模型与原始模型要尽可能相似。但是两者也存在一些不同:1)因果涌现识别是对状态或数据进行粗粒化,而因果模型抽象是对模型进行粗粒化操作;2)因果模型抽象中考虑了混肴因子,然而这一点却被因果涌现识别的讨论所忽略。
4.5.2.2 基于世界模型的强化学习
基于世界模型的强化学习假设强化学习主体内部存在一个世界模型,从而可以模拟智能主体所面对环境的动力学[58]。世界模型的动力学可以通过智能体与环境的相互作用来学习,从而帮助智能体对不确定的环境做出计划和决策。同时为了表示复杂的环境,世界模型一定是对环境的粗粒化描述,一个典型的世界模型架构总是包含一个编码器和一个解码器。
基于世界模型的强化学习与因果涌现识别也存在很多相似之处。世界模型也可以被视为一种宏观动力学,环境中的所有状态可以看作是宏观状态,这些可以看成是压缩后的,忽略了无关信息的状态,能捕捉环境中最重要的因果特征,以便智能体可以做出更好的决策。在规划(Planning)过程中,智能体也可以使用世界模型来模拟真实世界的动力学。
两个领域之间的相似性和共同特征可以帮助我们将一个领域的思想和技术借鉴到另一个领域。例如,具有世界模型的智能体可以将复杂系统作为一个整体来进行交互,并从相互作用中获得涌现的因果规律,从而更好的帮助我们做因果涌现识别任务。反过来,最大化有效信息技术也可以被用于强化学习,使世界模型具有更强的因果特性。
4.6 其它潜在应用
除了上述应用领域之外,因果涌现理论对于其它重要问题还可能存在着巨大的潜在应用价值,例如它对于意识问题的研究以及在中国古典哲学的现代科学解释方面有一定的前景。
4.6.1 意识研究
首先,因果涌现理论的提出就与意识科学研究存在着巨大的联系,这是因为因果涌现理论的核心指标有效信息最早就是 Tononi 在研究意识的定量理论整合信息论中提出来的。后经过改造,才被 Erik Hoel 应用到了马尔科夫链上,并提出因果涌现概念。因此,从这个意义上说,有效信息其实是定量意识科学的副产品。
其次,因果涌现作为复杂系统中的重要概念在意识科学的研究中也起着重要的作用。例如,在意识领域中,一个核心问题是意识究竟是一个宏观尺度的现象还是微观尺度的现象?至今,尚没有直接证据表明意识发生的尺度是多大。因果涌现的深入研究,特别是结合脑神经的实验数据,有可能回答意识现象的发生尺度问题。
再次,因果涌现有可能回答自由意志(Free will)问题。人有没有自由意志?我们做出的决定真的是我们意志的自由选择吗?还是有可能它仅仅是一种幻觉?事实上,如果接受因果涌现概念,并承认宏观的变量会对微观变量产生因果力,那么人们所有的决策其实都是脑系统自发完成的,而意识仅仅是对这一复杂决策过程进行了某种层面的解释,因而自由意志是一种涌现出的向下因果。这些问题的回答都有待因果涌现理论的进一步研究。
4.6.2 中国古典哲学
与西方科学、哲学不同,中国古典哲学保留了一套完整而不同的对宇宙进行解释的理论框架,这包括阴阳、五行、八卦,也包括占卜、风水、中医等,并能对宇宙中的各类现象进行完全独立的解释。长久以来,东西方两套哲学始终难以融合。因果涌现思想有可能提供一套新的解释,从而弥合东西方哲学的冲突。
根据因果涌现理论,一套理论的好坏取决于因果性的强弱,也就是
例如,就用东方哲学中的五行概念来说,我们完全可以将五行理解成万事万物的五种宏观态,而五行的相生相克关系就可以被理解为是这五种宏观态彼此之间的一种宏观因果机制。那么,从万事万物中提炼出五行这五种状态的认知过程,就是一种粗粒化过程,它依赖于观察者的类象能力。因此,五行理论就可以看作是对万事万物进行抽象的因果涌现理论。同样地,我们还可以将因果涌现的概念应用到更多领域,包括中医、占卜、风水等。这些应用的共同点将会是,它的因果机制相对于西方科学更加简单,也有可能因果性更强,但是得到这种抽象的粗粒化过程则更加复杂,更加依赖于有经验的抽象者。这就解释了为什么东方哲学都强调实践者自身的修为,这是因为,这些东方哲学理论将巨大的复杂性和计算量都放到了类象思维上。
5. 批判
5. 批判
纵观历史,关于因果关系和涌现的本体论和认识论方面一直存在长期的争论。
例如,Yurchenko 就在文献[59]中指出”因果“(causation)这一概念往往是模糊的,应区分为原因(cause)和理由(reason)两种不同的概念,它们分别符合本体论和认识论的因果。其中,原因(cause)指的是充分导致结果的真实原因,而理由(reason)则仅仅是观察者对结果的解释。理由可能没有真正的原因那么严格,但它确实提供了一定程度的可预测性。同样,关于因果涌现的本质也存在争论。
因果涌现是否是一种独立于特定观察者而存在的真实现象?这里需要强调的是,对于 Hoel 的理论,不同的粗粒化策略可以导致不同的宏观动力学机制与不同的因果效应度量结果(
Dewhurst[60]对 Hoel 的理论进行了哲学上的澄清,认为它是认识论的,而不是本体论的。这表明,Hoel 的宏观因果仅仅是一种基于信息论的因果解释,而不涉及“真正的因果”。这也引起了对均匀分布假设的质疑(参见有效信息词条),因为没有证据表明它应该优于其他分布。
除此之外,Hoel 的
同时有人指出,Hoel的理论忽略了对粗粒化方法的约束,某些粗粒化方法可能导致歧义[61]。此外,一些对状态的粗粒化操作和对时间的粗粒化操作的组合并不表现出可交换性,例如假定
那么,空间粗粒化和时间粗粒化的可交换性条件,就是如下等式:
(3)
左边表示的是先对连续两个时间步的状态做粗粒化,再将两个时间步的动力学TPM乘到一起,得到一个两步演化的转移矩阵;方程右边表示先将两个时间步的 TPM 乘到一起,得到微观态的两步演化,再用 A 做粗粒化得到宏观的 TPM。该等式的不满足表明某些粗粒化操作会导致宏观状态的演化与微观系统演化后的粗粒化状态存在差异。这意味着需要对粗粒化策略添加某种一致性的约束,例如马尔科夫链可聚类的条件(lumpable),参见马尔科夫链的粗粒化词条。
然而,如文献[40]中指出,通过在连续变量空间中最大化EI的同时考虑模型的误差因素,上述问题可以得到缓解。
不过,虽然机器学习技术促进了因果关系与因果机制的学习,以及对涌现属性的识别,但重要的是通过机器学习获得的结果是否反映了本体论的因果关系和涌现,或者它们仅仅是一种认识论现象?这一点则尚无定论。尽管机器学习的引入不一定能解决围绕本体论和认识论因果关系和涌现的争论问题,但它可以提供有助于减轻主观性的依赖。这是因为机器学习主体可以被视为一个“客观”的观察者,对因果关系和涌现做出判断,这种判断是独立于人类观察者的。然而,唯一解的问题在这一方法中仍然存在。机器学习的结果是本体论还是认识论的?答案是,结果是认识论的,其中认识主体是机器学习算法。然而,这并不意味着机器学习的所有结果都是无意义的,因为如果学习的主体得到了良好的训练,并且定义的数学目标得到了有效的优化,那么结果也可以被认为是客观的,因为算法本身是客观的,且透明的。结合机器学习方法可以帮助我们建立观察者的理论框架,并研究观察者与相应的被观察复杂系统之间的相互作用。
6. 相关研究领域
6. 相关研究领域
存在一些相关研究领域与因果涌现理论联系比较紧密,这里我们重点介绍与动力学模型约简、动力学模态分解以及马尔科夫链的简化三个相关领域的区别和联系。
6.1 动力学模型约简
因果涌现的一个重要的指标就是粗粒化策略的选取,而如果在微观模型已知的时候,对微观态的粗粒化就等价于对微观模型进行模型约简(Model Reduction)。模型约简是控制论中的一个重要子领域,Antoulas 就曾经写过相关的综述文章[62]。
模型约简,就是要将高维的复杂系统动力学模型进行化简、降维,用低维的动力学来描述原系统的演化规律,这一过程其实就是因果涌现研究中的粗粒化过程。对大尺度动力系统的近似方法主要有两大类,即基于奇异值分解[62][63]的近似方法和基于 Krylov[62][64][65]的近似方法。前者基于奇异值分解,后者基于矩匹配。虽然前者具有许多理想的性质,包括误差界,但它不能应用于高复杂度的系统。另一方面,后者的优势在于它可以迭代实现,因此适用于高维度的复杂度系统。将这两种方法的优势相结合,就产生了第三类近似方法,即称为 SVD/Krylov 的方法[66][67]。两种方法都是基于粗粒化前后输出函数的误差损失函数来对模型约简效果做评价的,因此,模型约简的目标就是寻找能使误差最小的约简参数矩阵。
一般情况下基于模型约简前后输出函数的误差损失函数可以用来判断粗粒化参数,这一过程默认了系统约简的过程会损失信息量,因此误差最小化是判断约简方法有效性的唯一方法。但是如果从因果涌现角度考虑,有效信息会因为降维而增大,这也是因果涌现研究中的粗粒化策略和控制论中的模型约简最大的不同。当动力系统是随机系统的时候[64],直接计算损失函数会因为随机性的存在,导致其稳定性无法保证,因而约简的有效性也会无法准确测量。而本身就是基于随机动力系统的有效信息和因果涌现指标,一定程度上可以增加评判指标的有效性,使对随机动力系统的控制研究更加严谨。
6.2 动力学模态分解
除了动力学模型约简之外,动力学模态分解也和粗粒化有着密切的联系。动力学模态分解(Dynamic Mode Decomposition, DMD)[68][69]模型的基本思想是直接从数据中得到流场中流动的动态信息,根据不同频率的流场变动寻找数据映射。该方法基于把非线性无穷维动力学转化为有穷维的线性动力学的方式,并采用了Arnoldi 方法以及奇异值分解降维的思想,借鉴了 ARIMA、SARIMA 以及季节模型等许多时间序列的关键特征,被广泛的使用在数学、物理、金融等领域[70]。动态模式分解按照频率对系统进行排序,提取系统的本征频率,从而观察不同频率的流动结构对流场的贡献,同时动态模式分解模态特征值可以对流场进行预测。因为动态模态分解算法具有理论的严密性、稳定性、简易性等优点。在不断应用的同时,动态模态分解算法也在原有基础之上不断被完善,如与 SPA 检验结合起来,以验证股票价格预测对比基准点的强有效性以及通过联系动态模态分解算法和光谱研究的方式,模拟股票市场在循环经济当中的振动模式等。这些应用均能够有效地采集分析数据,并最终得到结果。
动力学模式分解,属于利用线性变换同时对变量、动力学、观测函数进行降维[71]的方法。这种方法是另一种与因果涌现中粗粒化策略相近的,将误差最小化作为主要目标来进行优化的方法。模型约简和动力学模式分解虽然都和模型粗粒化十分接近,但是它们都没有基于有效信息的优化,本质上都是默认了一定程度上的损失信息,同时也不会增强因果效应的。在文献[72]中,作者们证明了其实误差最小化解集包含了有效信息最大化的最优解集,因此如果要优化因果涌现,可以先最小化误差,在最小误差的解集中寻找最佳的粗粒化策略。
6.3 马尔科夫链的简化
马尔科夫链的简化(或叫做马尔科夫链的粗粒化)也和因果涌现有着重要的联系,因果涌现中的粗粒化过程本质上就是马尔科夫链的简化。马尔科夫过程的模型简化[73]是状态转移系统建模中的一个重要问题,它是通过将多个状态合并成一个状态以降低马尔科夫链的复杂度。
做简化的意义主要有三点,第一,我们在研究一个超大规模系统的时候,并不会关注每一个微观状态的变化。因此,在粗粒化中我们希望能过滤掉一些我们不感兴趣的噪声和异质性,而从微观尺度中总结出一些中尺度或宏观尺度的规律;第二,有些状态的转移概率非常相似,所以可以被看成同一类状态,对这种状态做聚类(也称为对状态做划分,即 Partitioning),从而得到新的更小的马尔科夫链可以减少系统表示的冗余性;第三,在用到马尔科夫决策过程的强化学习里,对马尔科夫链做粗粒化可以减少状态空间的大小,提高训练效率。在许多文献中,粗粒化(coarse-graining)和降维(dimension reduction)是等价的[74]。
其中,对状态空间做粗粒化有硬分组(Hard Partitioning)和软分组(Soft Partitioning)两种。软分组可以看作是把微观状态打散重构出一些宏观状态的过程,并允许微观态的叠加而得到宏观态;而硬分组则是严格的微观态分组,把若干个微观状态分成一个组,不允许重叠和叠加(参见马尔科夫链的粗粒化)。
马尔科夫链的粗粒化不仅要对状态空间做,也要对转移矩阵做,也就是根据状态的分组简化原转移矩阵以得到新的更小的转移矩阵。除此之外,还要对状态向量做约简。因此,一个完整的粗粒化过程需要同时考虑状态、转移矩阵、状态向量的粗粒化。于是,这就引出了一个新的问题,即状态分组得到的新马尔科夫链中的转移概率应该如何计算?同时,归一化条件是否能够得到保证?
除了这些基本保证之外,我们通常还要求对转移矩阵的粗粒化操作应该与转移矩阵是可交换的,这一条件能够保证经过粗粒化后的状态向量再经过粗粒化的转移矩阵(相当于宏观动力学)的一步演化,是等价于先对状态向量进行一步转移矩阵演化(相当于微观动力学),之后再进行粗粒化的。这就同时为状态分组(状态的粗粒化过程)以及转移矩阵的粗粒化过程提出了要求。这一可交换性的要求,就导致人们提出了马尔科夫链可聚类性的要求。
针对任意的状态硬划分,我们可以定义所谓的可聚类性(lumpability)的概念。可聚类性(Lumpability)是一种对聚类的衡量,这个概念最早出现在 Kemeny, Snell 在 1969 年的有限马尔科夫链(Finite Markov Chains)[75]中。可聚类性(Lumpability)就是一个数学条件,用来判断“对于某一种硬分块的微观状态分组方案,是否对微观状态转移矩阵是可约简的”。不管状态空间按照哪一个硬分块方案做分类,它都有对应后续的对转移矩阵和概率空间的粗粒化方案[76]。
假设对马尔科夫状态空间
(4)
关于具体的粗粒化马尔科夫链的方法,请参考马尔科夫链的粗粒化。
参考文献
(参考文献可上下滑动查看)
因果涌现读书会第五季
跨尺度、跨层次的涌现是复杂系统研究的关键问题,生命起源和意识起源这两座仰之弥高的大山是其代表。从2021年夏天至今,集智俱乐部已经陆续举办了四季「因果涌现」读书会,系统梳理了因果涌现理论的发展脉络,深入探讨了信息整合与信息分解的本质,并探索了在生物网络、脑网络、机器学习等跨学科领域的应用。此次因果涌现读书会第五季将追踪因果涌现领域的前沿进展,展示集智社区成员的原创性工作,希望探讨因果涌现理论、复杂系统的低秩表示理论、本征微观态理论之间的相通之处,对复杂系统的涌现现象有更深刻的理解。读书会已完结,现在报名可加入社群并解锁回放视频权限。
“复杂 AI 次方”开放实验室招募
作为北师大系统科学学院教授、集智俱乐部与集智学园创始人、集智科学研究中心院长,张江从2003年开始长期从事有关复杂系统建模的工作。近年来,张江带领着北师大的研究组开始聚焦在基于新兴AI技术进行基于数据驱动的自动建模研究,并立志破解复杂系统的涌现之谜。我们希望可以有对复杂系统自动建模领域有热情,且认可这个领域发展前景的朋友一起来合作,促进这一领域的快速发展。我们希望这个叫做“ Complexity AI ”,中文叫做“复杂AI次方”的开放实验室,能够真正实现思想共享、资源共享、跨学科交叉,共同为复杂系统自动建模而奋进。
详情请见:“复杂 AI 次方”开放实验室招募,挑战“涌现”难题
推荐阅读
6. 加入集智,一起复杂!
点击“阅读原文”,报名读书会