时间之河从过去流向未来,原因导致结果,此刻的行为可以影响未来但不能改变过去…… 我们在世界中体验到的最直接显著的不对称性,是因果不对称性。然而,如果我们的感官能够深入到微观水平,看到的却是一个时间对称的世界。从时间对称的底层物理定律,如何涌现出动力学的不对称性?因果之箭是否只是我们透过宏观透镜看世界的产物?过去几十年里,统计力学基础概念的厘清和干预主义因果概念的发展,为因果不对称性提供了新启发。
关键词:因果关系,因果不对称性,干预主义,统计力学,热力学梯度,时间箭头
Jenann Ismael | 作者
朱欣怡 | 译者
宛舒、刘志航 | 审校
梁金 | 编辑
论文题目:
Reflections on the asymmetry of causation
论文链接:
https://royalsocietypublishing.org/doi/10.1098/rsfs.2022.0081#d68669961e1
目录
摘要
1. 前言
2. 因果关系
3. 统计力学
4. 知识不对称
5. 干预主义因果论
6. 宏观粗粒化
7. 问题的核心
8. 总结
我们对世界体验中最直接显著的不对称性(asymmetry)是因果(causation)关系的不对称性。过去几十年里,统计力学基础概念的厘清以及干预主义因果概念(interventionist conception of causation)的发展,为因果关系的不对称性提供了新启发。本文主要讨论:给定热力学梯度(thermodynamic gradient)和干预主义(interventionist)对因果关系解释的情况下,因果箭头的状态(status)是什么?我们发现因果关系的不对称根植于热力学梯度,“因”沿着热力学梯度和干预因果路径,循着支撑变量之间概率关系的干预支架,将“果”传向未来,但不能传回过去。这是因为在低熵边界条件的存在下,当前系统的宏观状态将屏蔽与过去的概率相关性。然而,这种不对称性只在宏观粗粒化(macroscopic coarse-graining)的情况下才会出现,这就引出了一个问题:因果之箭是否只是我们透过宏观透镜看世界的产物?我们将这个问题进一步深化,并提出了一个答案。
在牛顿之前,人们普遍认为因果关系是客观世界关系的范例。早期科学把它当作世界的基本秩序关系。1903 年,在论文[1]中,罗素(Bertrand Russell)首次讨论了物理学中的因果关系。他观察到:“现代物理学在其数学形式的底层并没有因果的逻辑”。他认为,应用随时间演化的时间对称定律(time-symmetric laws)来取代因果概念,并建议不要在科学的语境下讨论“因果”[1]。虽然罗素的观点被众多原因证明是不可行的,但他确实提出了一个问题:给定潜在动力学的时间对称性(time symmetry),不对称性(asymmetry)又从何而来?在描述我们对世界的体验的一系列时间不对称性中,因果的不对称性可以说是最重要的。在过去几十年里,有两个发展启发了因果的不对称性:(1)引入干预主义的因果分析;(2)更明晰的统计力学基础。然而,最近的工作在这些发展的基础上发问:不对称性是否(或在何种意义上)是视角性的?(参见[2-7],特别是[8]。)
本文试图厘清这一问题。我们要问的是:给定热力学梯度和干预主义对因果关系解释的情况下,因果之箭的状态究竟是什么?我们发现因果的不对称根植于统计力学,“因”沿着热力学梯度和干预因果路径,循着支撑变量之间概率关系的干预支架,将“果”传向未来,但不能传回过去。这是因为在低熵边界条件的存在下,当前系统的宏观状态将屏蔽与过去的概率相关性。这一观察结果直接将因果不对称与产生热力学之箭的不对称边界条件联系起来。然而,这种不对称性只在宏观粗粒化(macroscopic coarse-graining)的情况下才会出现,我们探讨:相对化是否(或在何种意义上)让因果箭头变得主观?
为什么罗素是错的?因果语言比相关模式的描述多了些什么?我们为什么需要这些信息?举个吸烟的例子,吸烟和患癌之间存在相关性,吸烟者的口气和患癌之间也有相关性。然而,戒烟可以降低患癌风险,但治疗口臭则不能。为什么呢?因为吸烟是患癌的原因,而口臭不是原因。信息(information)不同于影响(influence),我们要会捕捉其间差异。如 A(某事件)携带 B(另一事件)的信息(A,B 存在相关性),在因果信息的作用下,A 能够影响 B(A,B 也存在相关性)。因果语言是在相关性的基础上加入了影响传播的路径信息。我们需要这些信息,以便有策略地干预有序的事件流。我们不仅观察,而且干预,还希望知道干预的影响。对于我们这种生物来说,因果知识不可或缺。Nancy Cartwright 在1979年对罗素的有影响力的回应中指出了这一点[9]。在哲学领域,对因果概念的分析热情也高涨起来。人们试图将因果信息(causal information)简化为特殊的相关关系(correlation)。反事实(counterfactual)叙述也日渐流行,但在为反事实产生语义(semantics)的尝试中陷入困境。我们是否在试图捕捉人们对因果关系的预设直觉?或者,我们是否在提供一个可以与科学中那些积极寻找因果的部分相对应的描述?这两个问题存在一些混淆。至今,这个问题仍未得到解决。
与热力学基础和时间不对称的物理基础相关的讨论重新浮现。然而如果没有对因果概念明晰精确的分析,这种讨论就很难继续。
随着干预主义(interventionism)的引入,一切都变了。干预主义分别由 Pearl [10] 和 Glymour, Spirtes 和 Scheines [11]独立引入,Woodward 又在哲学上发展了它[13](脚注 1)。干预主义提供了一个优美的框架,捕捉了所有科学追因溯源的基础思想。干预主义的核心思想是:当且仅当我们可能通过操纵 A 来干预 B(脚注 2),那么A才是B的原因。干预是一种理想的、无混淆的实验操作,切断控制变量与其他历史变量的联系,这样任何剩余的相关性都可以归因于被控制的变量。干预主义以实验为基础,增进了我们对因果的理解:关于因果知识能为概率、建立因果关系的数据类型和支持这些因果关系的推理模式带来什么?它还提供了一种公理化的演算,类似于概率演算,用来表示和推理因果关系(脚注 3)。
科学知识总是自然地用因果关系的术语来传达和构思,但长期以来,存在使用统计或概率术语来传达科学知识的倾向。这是因为因果讨论是启发性的,而事实内容又由统计数据传达。干预主义消除了这种倾向。
自从经典力学的时间对称性引起了热力学第二定律中不对称性来源的问题以来,关于世界上时间不对称性来源的问题一直存在。一个半世纪以来统计力学基础的研究表明了,尽管底层法则是时间对称的,我们仍然可以恢复出涌现动力学的不对称性。
David Albert 在《Time and chance》[18]中给出的统计力学的玻尔兹曼解释清晰准确地表达了这些基础概念(脚注 4),此解释有三个前提:
1.经典动力学定律(The classical dynamical laws),也就是我们熟知的牛顿运动定律。
2.统计假设(The statistical postulate):这是统计力学的中心假设;相空间(phase space)上的标准勒贝格测度(standard Lebesgue measure)给出了给定宏观状态中的系统处于与该宏观状态兼容的一个或另一个微观状态的概率(或者更精确地,处于与该宏观状态相关联的相空间的体积的某个子体积中)。
3.过去假设(The past hypothesis):这是初始的(遥远过去)一个边界条件,最常被框定为宇宙曾经处于非常低熵状态的假设。
这些假设共同起作用,产生了过去未来皆适用的热力学,如下所述。
经典动力学定律划定了一组物理上的可能状态。
统计假设在状态空间施加了概率分布,这种概率分布极大地偏好于熵增轨迹的世界(脚注 5)。
过去假设排除了在初始(遥远的过去)处于非低熵的所有状态。
其结果是我们世界的历史极有可能是熵增加的。在这三个前提假设中,(1)和(2)在时间上是对称的。牛顿力学定律在时间反演下是对称的:对于从 A 到 B 的封闭系统的任何物理上可能的轨迹,该轨迹的反演(通过反转位置和动量获得)在物理上也是可能的。概率分布与时间无关。不对称性完全体现在(3)中,因为(3)仅在时间的一端施加不对称边界条件。
关于 Albert 的解释的各个层面有很多争议。本文将以他的解释为基础(但如果这不是你对统计力学基础的偏好描述,可以用你自己的来代替)。任何统计力学基础的解释,只要能成功地产生热力学的普遍性(thermodynamic generalizations),都会保证记录的不对称性。在 Albert 的解释中看到不对称性如何运作是很有用的,但无论你用何种逻辑从自己的假设中推导不对称性,反演此种逻辑都应能让你按下述描述的形式推出因果不对称性。
从经验出发描绘时间不对称性,并将其置于热力学梯度来研究的工作可以追溯到赖兴巴赫(Reichenbach)。此工作经过 Paul Horwich 和 Huw Price 的研究,并在 Albert 的工作基础上得到发展(脚注 6)。存在两种不对称性:一种是认知不对称(epistemic asymmetry),另一种是行为不对称(practical asymmetry)。认知不对称是指我们对过去的认识多于未来这种不对称感;行为不对称是指我们的实践只能影响未来而无法影响过去的不对称感。
Albert 用如下例子来解释认知不对称:从一个主体出发,这个主体可以感知到当前环境的宏观状态。然后我们能用统计力学的工具推断该主体能从这些信息中推断出什么(脚注 7)。假定系统初始处于低熵状态,我们可以在宏观状态取微正则分布(microcanonical probability distribution),然后使其向前或向后演化(脚注 8)。主体会发现由此产生的概率分布有大量关于宏观过去的详细信息,但未来信息很少[18-23]。原因在于:以过去假设为条件来决定当前的宏观世界会让主体(以极高的概率)推断出:环境中近似孤立子系统的所有半有序状态都是从更有序的状态演化而来的,这使它们实际上成为过去的记录。如半混合的奶油咖啡和沙滩上的脚印,或环境中近似绝热孤立子系统(adiabatically isolated subsystem)的任何半有序宏观状态(semi-ordered macrostate)。从宏观上看,用概率假设向前演化,我们可以以高概率推断系统会向更高的熵状态发展(奶油更混合、脚印褪去)。如果我们不对过去进行条件假设,然后让系统反演。由于力学定律是时间反演对称的,所以在此方向上结果相同:它极有可能来自于一个更高熵的状态。但如果我们以初始低熵为条件,一切都不同了。我们就可以只考虑那些来自低熵状态的轨迹,奶油混合程度更低,脚印更明显。如果我们沿此轨迹追溯到最初产生有序的时刻,我们会发现:半混合的奶油最初只是一滴、脚印只是匆匆步履的片刻记录、树上划痕只是过去受伤的结痂。
那行为不对称(只影响未来,不影响过去)又如何解释呢?框架沿着记录说起。还是之前的要素,然后问:主体(比如我们)对世界的影响如何传播到未来或过去(脚注9)?然后,主体问:如果我走过一片沙滩,挖个洞、埋点坚果、或者改变一点环境特征,会发生什么?也就是说:我在环境中创造一点有序态,然后会发生什么?为了回答这个问题,我们以过去假设为条件,在当前的宏观状态应用概率假设,获取相应的微观状态分布,然后根据力学定律向前或向后演化。我们发现,能感知世界的主体将能看到:行为能影响未来,但无法触及过去。比如说,我从沙滩走过,留下脚印,直至潮水来回抹去;我挖一条水沟、盖一栋房子,我虽用着更耐用的材料,但还是在做同一件事情:给环境制造需要时间来瓦解的有序态。记录的不对称性和结果的不对称性是硬币的两面。你所认为的行为的结果只是其未来将发生的记录。一个聪明的主体能够用行动干预,创造未来的记录。
看看这其中的逻辑,就能明白为什么干预不会改变过去:以过去假说为条件,固定了过去的每一个有宏观记录的特征。过去任何有可能的宏观特征,也将对此时此地的局部宏观干预“无动于衷”。这意味着,一旦我们把过去的假设作为当前宏观状态的条件,现在与过去的状态就不会有任何可靠的、显现的概率关联。(脚注 10)。综上所述可以解释,为什么像我们这样的生物,通过宏观视角观测世界,会看到我们行为的影响是向未来运行的。
行文至此,也未明确提及因果关系(causation)。我们假设了定律、概率公理和过去假设,也谈到了一个能感知环境宏观状态的主体可以得到关于过去和未来的什么信息和该主体对其自身行为结果的期望。通往因果不对称的捷径会说,这就是因果不对称的全部。但这仍有太多问题没有解答。
从主体(agent)视角出发,我们好奇满满:她对自己的经验有什么看法?因果概念是如何嵌入到她脑中的概念网络的?可以推出因果关系和其他概念的什么联系?它们是如何被囊括在与世界的认知和行为的交流中?
从世界(world)视角出发,我们困惑重重:环境中支持这些概念的外部基础是什么?因为主体本身就是物理世界的一部分,我们可以认为物理分析的单元 = 主体 + 环境(或嵌入在环境中的主体)。
干预主义给了我们对因果关系的解释,它并不本质上参考主体的视角。我们使用这个框架来得到一个清晰的诊断,即在引入主体之前,是否存在一个可以识别的不对称性。
根据干预主义,给定一个变量网络和一组约束条件,变量 A 与变量 B 有因果关系(在变量网络和约束条件下),就等价于干预 A(外在改变 A 的值)能影响 B(或影响 B 的概率)。下面有一个变量网络。我们想知道 A 是否是 B 的原因,所以我们在 A 上施加干预,然后观察是否对 B(取值或取值的概率)有影响(图 1)。
这里对宏观变量没有限制,所以 A、B 可以是任何变量。大框架是时间对称的。我们通常希望找到未来的因果效应,所以我们在定义干预的时候本身就是时间不对称的(干预是对变量值的外在改变,切断了过去的潜在原因),然后找干预对时间下游变量(temporally downstream variables)的因果效应。如果我们想知道阿司匹林能否缓解偏头痛,我们通常会控制环境变量,设定系统宏观可观测环境变量和过去假设。但其实在干预主义的框架中,没有任何东西迫使我们这样思考。我们很容易就能建立一个变量网络,选择变量 A,然后手动切除 A 与其时间上游变量(temporally upstream variables)的联系。然后探究干预 A 是否会影响过去时间的变量值(或其分布概率)。
2000 年,Pearl 在其书[28]中讨论了这种不对称性。在他看来,方向性完全来自于对内生和外生的选择。我们从系统里抽取出一部分,然后想象自己参与其中,设定特定变量值,然后观察对其他变量的影响。外生(exogenous)变量就是网络外的过程设定值的变量,反之为内生(endogenous)变量。Pearl 如是说:
正是内外生变量的选择在我们看待问题的视角上创造了不对称性,正是这种不对称性让我们能够谈论“外部干预”。因此才产生了因果性和因果效应的方向。
我们倾向于先选择外生变量而非内生变量,因为后期状态随早期状态变化有何差异对于指导行动来说非常重要。但从形式上来说,先选内生变量也没有任何问题。我们好奇未来状态变量对过去的影响,就像我们考虑过去状态变量对未来有影响一样。这种问题在逻辑上很说得通。Pearl 写道:
这个启发就是我们分割宇宙的方式决定了联系因果的方向性。每种科学都默认了这种分法,麦卡锡(McCarthy)在人工智能中称其为限制逻辑(circumscription)。在经济学中,限制逻辑在经济学中就等价于确定哪些变量是内生的、哪些变量是外生的 [ 28, p. 420]。
从这个角度来看,各事件虽有联系,但并不存在内在的依赖方向。世界本身有其模态子结构(modal substructure,由时间对称律给出),因果判断的基础是一种假设的情形,不同假设意味着选择了不同的内、外生变量(由特定限制给出)。因果依赖的方向就由内生变量和外生变量的选择给出,而这又由实验者根据实际兴趣裁定。我们是时间导向的主体,所以我们倾向于固定过去,然后看因果影响。但仔细想想又会发现其实这些事件关系本身并没有内在的不对称性(脚注 11)。
这不完全正确,但它的不完整是有误导性的。跟着我们继续想象,你将对主体不对称性(asymmetry of agency)和因果不对称性(asymmetry of causation)的关系有更精深的理解。一点剧透:我们将证明:事件关系中不存在局部不对称,但在沿热力学梯度的宏观模式事件中,主体的出现和利用信息却是不对称的。因此,我们需要从宏观不对称的存在解释到主体的出现。我们之所以能透过宏观的视角看待问题,是因为信息收集和利用的不对称。
回顾前文,我们会发现经典力学定律、过去假设和微正则概率分布共同为因果关系的方向(从过去到未来)作出担保。那么时间反转呢?我们为此固定了系统大量可观测宏观变量。深入一个网络,拿出一些变量然后切断其与未来变量的联系。如果我们改变了未来变量,过去变量将会发生什么?是否会对过去变量产生任何概率影响?只要我们设定了过去低熵边界条件,答案将是否定的。当前可观测宏观状态与过去低熵边界条件一起,固定了每一个宏观记录,这将屏蔽任何过去的潜在概率效应。
从统计力学的角度出发,如果我们从干预的角度理解因果关系,那么过去假设就是约束之一,此约束足以确保因果箭头成为客观事实。过去时间的低熵边界条件不仅是“我们一般强加的约束”,它还是世界的基本事实,是我们行动固有背景的一部分。它是世界不变支架的一部分,让我们得以了解过去、预测干预措施的未来影响。如果“因果影响的方向”是局部干预的概率效应的方向,那么在一个具有熵梯度的系统中,因果影响就只能传到未来,无法影响过去。干预主义框架以其本身的时间对称性帮助我们明确了不对称的根源(脚注 12)。
我们可以用干预主义分析移除主体使人们更关注主体所处物理环境的不对称性。“因”沿着热力学梯度和干预因果路径(如:支架式干预)循着变量间的概率关系,将“果”传向未来,但不能传回过去。原因很普遍,因为当前系统的宏观状态将屏蔽与过去的概率相关。由于未来没有类似的边界条件,所以概率可以在该方向上自由传播。
然而,我们还不能完全排除主体的影响,因为我们仍在谈论宏观状态(macrostate)。宏观状态的概念有点模糊;它有时表示任何微观状态的粗粒化(coarse-graining);有时又仅表示具体由热力学变量施加的粗粒化。前文我一直用的是后者意义下的宏观状态,也无需担心歧义,但在本节里行不通了。在本节中,我将用普通字体代表一般意义下的宏观状态,用粗体代表热力学变量施加粗粒化的宏观状态。将系统划分为不同粗粒化状态的众多方法中,除了我们的感官青睐之外,热力学粗粒化还有什么特殊之处?即使在宏观粗粒化下出现了客观不对称,我们又为什么要谈论宏观状态?
假设我们都同意:如果我们的感官能深入到微观水平,我们将看不到定律的决定方向。假设我们都同意:当整个结构组装完成(定律,热力学梯度主体与世界宏观结构耦合,对局部变量的干预),时间不对称会从主体的视角涌现,并与世界相融。问题在于:我们能看到行为只能影响未来而不能影响过去,是否仅仅因为我们通过宏观镜头来观察?
提出这个问题就是在探究面对同一世界的其他视角。我们选择一个系统就像我们处于微观状态一样:同样的微观状态,同样的时间对称律。我们引入主体;主体的传感器能挑出并“点亮”特定的粗粒化变量。其他所有则被推向幕后,形成无形网络,控制着我们可见变量的动态变化(图 2)。
我们可以通过对不同宏观变量进行粗粒化来解释不同的模式。任选一组宏观变量就会在微观上对这些变量产生动力学(告诉它如何随时间演化)。宏观变量服从热力学第二定律,由此与系统耦合。这意味着,我们能看到不可逆的过程以及我们的干预能持续对未来产生影响。但在形式上我们有多种粗粒化方式。既能在各复杂结构中自由支配,我们就能引入多种主体“观察”多种模式。一只鸟、一条鱼或上帝之眼可以同时观察。自底向上看,没有证据表明我们眼中的模式具有任何特殊地位。大家不解的是,我们能否在一个相同的系统中,通过传感器和制动器将主体耦合到此系统引入主体,从而扭转时间视角?我们能否固定系统的微观状态,找到一种与之耦合的方式,从而扭转我们经历的时间取向特征?
此问题似有一个尖锐的答案。然而,就目前的情况而言,它还不够详细。我们在选择粗粒化时留有多少余地?相空间可以进行高度重新划分吗?时空积分只能是守恒量吗?什么样的干预是可行的?我们是否允许麦克斯韦妖式的微观自由度控制,或像通货膨胀这样的分布式高级变量?系统的哈密顿量呢?我们应如何激活约束?我们不想选择与本身观点相匹配的约束,因为我们希望探索可能存在的替代观点。完全自由的情况下,答案应该是肯定的:我们只需要进行普通的热力学粗粒化,对任何相空间的体积,取出一组轨迹,然后反转。选择一些时间间隔(比如 100 年)。将反向轨迹的点集作为定义相空间的新体积。这看上去不像是我们习惯的粗粒化;这是一个高度纤维化的点集,但我们根据刘维尔定理(Louisville’s theorem)可以知道:体积是不变的。为了获得一些哲学上有趣的东西,让我们精炼一下这个问题:我们真正想问的是什么?
哲学文献倾向于,当引入思想实验来区分什么是系统内的东西和什么是透视的人工产物时,要把我们自己当作外部的、不与所属系统耦合的先验主体。这是错的。我们不应从外部先验主体进入系统的角度思考问题;我们应问系统中主体(有通过物理信道收集信息的传感器,有能操纵环境局部特征的制动器)用什么方式看世界?我们应思考,在像我们这样的世界里,可能会有什么样的具体因果观点(脚注 13)。在我们有完全精确的问题之前,需要先确定一大堆物理问题:主体至少应具有传感器和致动器;主体应能识别“所见”和“所为”的区别;主体应能随着时间的推移了解其干预措施的效果,并利用这些信息来指导行为。这样的主体将具有由时间方向定义的内部箭头,在该时间方向上,它将其动作的效果视为传播。最近,Pete Evans, Gerard Millburn 和 Sally Shrapnel 做了一篇特别漂亮的工作,为我们的精炼化问题和回答提供了准确的物理分析。他们引入了一个最小模型的因果主体,证明了任意主体的内部箭头将与热力学梯度对齐。原因很简单,这种物质的物理性质是耗散的,这并非偶然,而是因为能量和信息之间的联系,这是这里问题的核心。任何一个在功能上收集和使用信息来指导行为的物理系统都要使用能量,并将受到热力学约束(脚注 14)。
故事至此讲了一半了,我们已经知道一个能收集并利用信息的系统的方向为什么能和热力学梯度一致了,但还没告诉我们为什么这儿会存在一个能收集和利用信息的系统。
图 3 是水力发电的工作原理。我们建造一座大坝,当水通过水闸时会沿着一条通道流下,并转动涡轮机(脚注 15)。
涡轮机是世界的一个子系统,具有内部旋转箭头。内部箭头与外部电流的方向对齐。为什么呢?因为物理。该设备的物理原理显示了为什么涡轮机能沿着电流的方向运行,而非反向。但如果我们不问“为什么涡轮机的旋转箭头与外部电流的旋转箭头对齐?”,而问“为什么会有涡轮机呢?”这个问题的答案更能说明问题,也更能切中此处目的:涡轮机的存在正是为了利用这种梯度。
前文已证,因果动因的时间方向与热力学梯度一致。我们不仅要问“什么样的因果主体是物理上可实现的?”,更要问“为什么会有因果主体?”为什么生物有感觉、能行动、会学习?这和热力学梯度有什么关系?在我们这样的世界里,什么样的动因视角会自然地自主涌现?答案很有启发性;主体涌现是为了抓住热力学梯度创造的利用和控制信息的机会。我们以这样的方式粗粒化并非偶然:我们的感官天生就为揭示不对称的、富有信息的模式以指导行动。
微观上,有些局部的过程始终与不变的规律相谐。宏观上,不可逆的过程(无论是在局部绝热隔离的子系统,还是全局范围的)都发生在熵增加的方向。过去的低熵边界条件使得宏观过去信息累积成记录成为可能(脚注 16)。存在热力学梯度的宏观世界充满了包含宏观历史印记的记录。沙滩上的脚印、树干的伤疤、一张照片、一张纸上的一串字母……;你周围所有半有序的近似绝热孤立系统都是从熵更低的状态演化而来的,并带有它们过去的印记。
这些系统的宏观发展将遵循其正常的过程,将能量耗散到环境中:脚印会被冲走、冰会融化。但是宏观环境中包含的信息(即在从较低熵向较高熵演化的系统的当前状态中)可用于其它系统作为它们自身行为的基础。进化使这样的系统随处可见。鹿能读懂最近狮子狩猎的迹象,狐狸知道地上的一个洞意味着附近可能有啮齿动物,这会比不知道的生物表现更好。生物知道一些已经发生事情的信息,也知道一些将要发生事情的信息。宏观的规律将已经发生的事情与将要发生的事情联系起来,而这些规律并没有被宏观的现在所屏蔽,所以能使用环境中信息的生物具有选择性优势。
就像鹿和海狸一样,我们在日常生活中不加批判地依赖记录来获取过去的信息。我们想当然地认为,粉笔的痕迹应该在黑板上、脚印应该留在雪地里、图画是在古代洞穴墙壁上的、甚至月球上的陨石坑,都是曾经有序状态的遗迹。热力学基础旨在明确支持这种依赖的物理事实。如果宇宙不是从低熵状态开始的,那么局部宏观环境所携带的关于过去的信息就不会比关于未来的信息多。那些我们认为是捕食者和猎物的标志的东西,更有可能是偶然地从平衡中涨落而来,而不是从一个更有序的状态演化而来。所有这些都是可能的,因为低熵的过去使得宏观过去的信息更易获得。正是由于过去的低熵性质,关于过去的事实,尽管早已过去,却在系统的当前宏观状态上留下了印记,而宏观状态反过来又可以调节局部过程。因此,即使微观过程都是局部的和马尔可夫的(屏蔽自身过去的概率),我们高屋建瓴,通过过去低熵边界条件下宏观状态的信息承载属性,有效地在过去和现在之间建立因果桥梁。
所以我们能感觉宏观信息绝非偶然。事实上,一旦我们得到了热力学系统的宏观状态,条件化微观状态(自然情况下,通常)就不会影响未来的宏观概率。这意味着,一旦我们知道了系统的宏观状态,就能从过去提取出一切可以有效转化为未来信息的东西。这一切都表明,我们的视角是天工巧作,如此精妙的设计旨在揭示我们活动的土壤——富含信息的宏观模式。通过过滤微观噪音,你的视角可以减轻认知的负担(或者说少做一点认知,这取决于你怎么想)。
所以,如果自底向上看,宏观的粗粒化看上去不比揭示耶稣的话语更特别。它不会有任何特殊的形而上学(metaphysical)地位。但是如果一个人在世界的组合结构中寻找一个支持信息收集和利用的层次,那么从宏观粗粒化中涌现的模式将脱颖而出(脚注 17)。
如果我们的双眼突然能看到这个世界的微观细节,我们就能知道增加微观信息能否增加未来宏观的可预测性。在确定论的背景下,如果某时刻我们得到了系统微观态的所有信息,那我们肯定能够预测其他时刻所发生的一切。但如果我们还有一点儿不知道的,这种能力就会消失。微观定律意味着,开放子系统的未来由其内部微观状态与外部影响共同决定。一般来说,知道了系统的微观状态并不能帮助我们预测,除非我们还能知道所有外部的微观影响:从空气中分子的位置到大气中倾落的中子。一旦微观层面的信息不完整,未来的微观状态的预测就无法保证。如果我们想从微观规律入手进行预测,要么要有完整的信息,要么能够屏蔽外界影响。此种控制只能在实验室实现,自然界里几乎没有。因此没有明确的(自然)选择压力来增强我们对微观信息的感知,捕获和记录信息的热力学成本给此种预测带来了压力。实际上,使预测成为可能的不是宿命论(deterministic)的微观规律,而是与微观基础无关的涌现模式。其中最普遍的是热力学定律,它普遍适用,(实际上也)毫无例外。此外,专门化子系统的典型行为也存在各种宏观规律:树、青蛙、人或企鹅。实际上,正是这些宏观规律让世界变得可预测(脚注 18)。
我们想知道,在何种条件下,由环境敏感性调节的行为会被(自然)选择?或许有些进化模型可以帮助我们理解。例如:Peter Godfrey Smith 给出了一个公式,能计算环境中各种关注信息调节行为的预期收益[32]。他用这个公式回答了:海苔藓(sea moss)是应该一直长着尖刺呢,还是应该有传感器来检测海蛞蝓(sea slugs)产生的化学物质,只有当周围化学物质浓度足够高时才产生尖刺?在什么情况下,灵活策略(flexible strategy,人类行为受局部环境参数的调节)会比最优不灵活策略更好?灵活策略是否更好取决于所用线索是否足够可靠,是否足以克服两种系统状态的预期重要性之间的差值。系统状态重要性定义为在该状态下采取适当行动的收益与在该状态下采用另一种不适当行为的收益之差。期望重要性定义为重要性乘以该状态的概率。如果该有机体只能产生一种行为,最好就是产生最适合系统状态的、具有更高期望重要性的行为。只有当与灵活策略相关的线索足够可靠,足以克服世界两种状态的预期重要性之间的不对称性时,才值得使用灵活策略(脚注 19)。
该模型回答了以下问题:一条线索在被用来指导行为之前必须具备哪些可靠性?我们可以用它来衡量在我们这样的环境中使用微观和宏观信息来指导行为的预期收益。我们认为,在给定宏观信息的条件下,微观信息在自然状态下几乎没有收益(脚注 20)。所有这些都是为了说明:信息丰富的认知模式有赖于环境的宏观状态。除非能有超自然的条件,否则微观信息根本不起作用。因此,对于宏观粗粒化下出现的箭头只是视角的偶然产物的担忧,正确的回应是,我们的视角没有任何偶然性。
我们从经验的时间导向特征仅是视角的产物的担忧开始。我们的发现是:我们的视角与世界紧密结合,并且为认知量身定制,是为了揭示信息丰富的认知模式,特别是我们所例证的丰富形式的认知模式。知觉和认知是具身生物的进化活动,它们的运行无法从身处的底层物理学中分离,但能利用物理学给的机会。
这是视角主义的一种形式吗?这不是轻率的的视角主义(glib perspectivalism)!轻率的视角主义认为世界的某些特征仅是我们透过透镜观察到的人工产物。比如说,你可能会指责某人透过玫瑰色眼镜看世界,这意味着玫瑰色完全是投射出来的。玫瑰色并不存在于世界,而在眼镜上。如果把它归因于世界,就是错误的。与油嘴滑舌的视角主义对比的是深思熟虑的视角主义(thoughtful perspectivalism)。此种主义持有者认为:“世界充满了好与坏”。透过玫瑰色眼镜看世界的人看到的是真实的东西,他们关注世界上的美好事物,并让它主宰视野。深思熟虑的视角主义者是在透过眼镜揭示世界的真实。有人透过经济学家的眼镜看世界,关注经济变量;有人透过性别的眼镜看世界,缓和性别关系;还有人透过信息流或权力关系的眼镜看世界。在这些情况下,他们看到的是完全真实的,透过眼镜看到了世界上存在的东西。存在哪些模式?在某些情况下,对于特定目的,哪些模式值得看到,都是客观的问题。
1 参见[10,11]的形式框架和 Woodward [12]的哲学发展,包括对干预概念的讨论。
2 干预的正式定义迄今仍有争议(见[13])。干预主义并没有给出唯一清晰定义的因果概念,而且不能证明对科学有用。因果过程的概念[14,15]捕捉了我们因果直觉的一部分,但这些在干预主义的原因概念中没有。我认为没有一个单一的概念能囊括所有直觉,我们应该对不同因果直觉、可精确定义的物理概念持多元态度。本文重点讨论干预主义概念的原因是因果过程本质上的不对称性。这是干预的路径,是因果不对称性分析的目标。
3 关于概率演算和干预主义形式之间的比较,见[16,17]。
4 参见[18]。最近有一个特别微妙的评估,也涉及量子情况,见[19]。
6 Albert 的书[18],Albert 之后的作品[23,24,25]。
8 当然,实际上没有一个主体有关于宏观状态的全部信息,所以这就表征了主体原则上可以获得的信息。将“surveyed”替换为“surveyable”即主体实际拥有的信息。
9 这里有一点微妙,关于如何描述在主体控制下,世界上发生的正确的事?人类运动本身没有内在机制:举个例子,如果你抬起手臂,你也举起了组成手臂的所有粒子,产生的电脉冲沿着肌肉向上传播,在大脑引起微观神经变化。但控制需要感知反馈。人体中有复杂的感觉运动网络,这些网络循环着我们的手臂和腿的运动,我们头部的运动,我们的声音,没有比这更精细的自愿控制了。
10 Albert [18,23]提供了一个反事实的因果关系,并试图从热力学梯度中推导出因果不对称性。Frisch [26]和 Elga [27]举出了一些反例,这些反例涉及一些特殊的条件,这些条件是为了确保过去事件对当前行为的反事实依赖。Albert 承认,在适当的条件下,他的叙述会产生过去事件对现在事件的反事实依赖,因此会有向后的因果关系,但他认为,这不是那种可以刻意改变过去的依赖。当所讨论的事件是一种干预时,两个例子中的向后依赖(它利用了当前事件可以提供关于过去的信息这一事实)就消失了,因为干预打破了它们所依赖的那种过去的概率依赖。干预因果路径是支架式的干预支持概率关系。这些关系不能回到过去的镜像是我们对未来也一无所知。
11 这就是我 1016 年在[29]中论证的:一切都取决于什么是固定的,什么是允许变化的。
12 如果不把低熵过去作为一种约束,那么现在干预的过去效应(切断与上游变量的联系,干预对过去的影响)恰恰反映了现在干预的未来效应。一旦我们施加低熵边界条件,不对称性就会出现,概率效应只会持续到未来。
13 透视的概念一直有着双重的生命。人们可以正式地对待透视,并询问某些领域是否允许引入某种形式的参考框架,以及某些感兴趣的特征如何依赖于参考框架。或者一个人可以把一个观点看作物理实现。例如,在时空物理学中,有时人们指的是正式定义的空间参照系,而当他们谈论对称变换时,如助推和旋转,他们指的又是一种纯粹的形式运算。这个想法是,我们可以让世界完全独立,并对我们的参考系进行数学变换,使定律(或正在讨论的模型或系统)完好无损。其他时候,它们意味着物理的参考系是被建模的系统的一部分,例如移动的船、电梯中的人以及对称变换是帧的位置或运动状态的物理变化。在这种情况下,这种区别经常被指出,而且基本上是良性的。它在这里变得很重要,因为我们正在谈论一个系统的内部动力学与其环境的不对称性的一致性。
14 http://philsci-archive.pitt.edu/18844/, https://arxiv.org/abs/2009.04121.这两篇论文内容广泛,论证详尽。人们一旦开始思考,能量和信息之间的联系就会变得很重要,而且它会更像是定律。任何使用和处理信息的物理可实现系统都将与热力学梯度保持一致。参见[30,31]。
15 一位匿名的评论家正确地指出,利用自然产生的流动的风力涡轮机或太阳能电池板的类比可能更恰当。这引出了这里的核心观点,即世界提供了机会,主体加以利用。进化产生了对宏观变量敏感的主体,因为这是可利用的信息承载模式的存在基础。
16 我将恢复使用不加粗“宏观状态”的普通惯例,在本文的其余部分专门,依然用它来指代热力学粗粒化。
17 自然状态下的各种噪声条件下,涌现的宏观规律存在的鲁棒性以及是高度非通用了。但这些规律沿着热力学梯度,长期支持信息收集和利用。在否认宏观粗粒化具有特殊的形而上学地位时,我指的是任何需要本体论区别而没有被这些动力学考虑所捕获的东西。
18 人们经常说(宿命论下),如果你知道某人做出困难决定时的确切大脑状态,你就能够预测他们的决定。当然,这是无稽之谈。原则上,作为一个微观物理定律,任何事情都可以改变你的行为,从特定的空气分子撞击皮肤表面的特定速度,到落在脖子后面的微小灰尘颗粒。人们的回答通常是,这些事情不太可能产生影响,但在这样说的时候,人们依赖于宏观概括,关于什么会对像我们的决定产生影响。树木和交通灯的行为也是如此。
19 该模型与贝叶斯决策理论中使用的信息收集模型密切相关,该模型描述了实验的好处。它假设一个主体必须决定如何在给定的情况下采取行动,她可以选择进行一个免费的实验。实验的可能结果(对她来说)与决定她行动成功或失败的世界状态有关。与生物学模型中的灵活策略相关联的比非灵活策略差的线索对应于贝叶斯模型中的零值实验。
20 “像我们这样的环境”意味着一个存在类似复杂性,沿着热力学梯度的经典世界。一个密切相关的结论的另一种方法,见[33]。
21 Rovelli [34]推测,在一个像我们这样复杂的世界中,应该有一种粗糙的纹理来颠倒这一整套特征。这就提出了一个问题,即我们的世界是否可能存在子系统,这些子系统通过宏观性质与之耦合,这些宏观性质定义了熵的概念,熵的梯度相对于热力学熵是相反的。这是一个不同的挑战,比我在这里回答的更激进。以反转梯度的方式进行形式上的粗粒度化的可能性留下了一个开放的空间,即存在对粗粒度化的限制,这些限制将这种可能性排除在具体的可能性之外,但我将这个挑战留作一个开放的问题。
-
Russell B. 1913 On the notion of cause. Proc. Aristot. Soc. 13,1–26.
-
Price H. 1991 Agency and probabilistic causality. Br. J. Philos. Sci. 42, 157–176. (doi:10.1093/bjps/42.2.157)
-
Price H. 1992 Agency and causal asymmetry. Mind 101, 501–520.
-
Price H. 2007 Causal perspectivalism. In Causation, physics, and the constitution of reality (eds H Price, R Corry), pp. 250–292. Oxford, UK: Clarendon Press.
-
Woodward J. 2003 Making things happen: a theory of causal explanation. Oxford, UK: Oxford University Press.
-
Woodward J. 2007 Causation with a human face. In Causation, physics, and the constitution of reality (eds H Price, R Corry), pp. 66–105. Oxford, UK: Clarendon Press.
-
Woodward J. 2015 Methodology, ontology and interventionism. Synthese 192, 3577–3599. (doi:10. 1007/s11229-014-0479-1)
-
Woodward J. 2021 Causation with a human face. Oxford, UK: Oxford University Press.
-
Cartwright N. 1979 Causal laws and effective strategies. Nous 13, 419–438.
-
Pearl J. 2009 Causality. New York, NY: Cambridge University Press.
-
Spirtes P, Glymour C, Scheines R. 1993 Causation, prediction, and search. Lecture notes in statistics, 81.
-
New York, NY: Spring-Verlag.
-
Woodward J. 2003 Making things happen: a theory of causal explanation. Oxford, UK: Oxford University Press.
-
Woodward J. 2001 Causation and manipulability. In The Stanford encyclopedia of philosophy (winter
-
2016 edition) (ed. EN Zalta). Stanford, CA: Stanford University.
-
Dowe P. 1992 Wesley Salmon’s process theory of causality and the conserved quantity theory. Philos. Sci. 59, 195–216. (doi:10.1086/289662)
-
Anon. 2008 Causal processes. In The Stanford encyclopedia of philosophy (fall 2008 edition) (ed. EN Zalta). Stanford, CA: Stanford University.
-
Pearl J. 2001 Bayesianism and causality, or, why I am only a half-Bayesian. In Foundations of Bayesianism. Applied logic series, vol. 24 (eds D Corfield, J Williamson). Dordrecht, The Netherlands: Springer.
-
Geffner H, Dechter R, Halpern JY (eds). 2022 Probabilistic and causal inference: the works of Judea Pearl, vol. 36, 1st edn. New York, NY: Association for Computing Machinery.
-
Albert D. 2000 Time and chance. Cambridge, MA: Harvard University Press.
-
Wallace D. 2021 Probability and irreversibility in modern statistical mechanics: classical and quantum. arXiv, 2104.11223. (doi:10.48550/arXiv.2104.11223)
-
Horwich P. 1987 Asymmetries in time. Cambridge, MA: MIT Press.
-
Price H. 1996 Time’s arrow and Archimedes’ point. Oxford, UK: OUP.
-
Price H, Corry R (eds) 2007 Causation, physics, and the constitution of reality: Russell’s republic revisited. Oxford, UK: Oxford University Press.
-
Albert D. 2015 After physics. Cambridge, MA: Harvard University Press.
-
Hoerl C, McCormack T, Fernandes A. 2022 Temporal asymmetries in philosophy and psychology. Oxford, UK: Oxford University Press.
-
Rovelli C. 2019 The order of time. New York, NY: Riverhead Books.
-
Frisch M. 2010 Does a low-entropy constraint prevent us from influencing the past? In Time, chance and reduction (eds G Ernst, A Hüttemann), pp. 13–33. Cambridge, UK: Cambridge University Press.
-
Elga A. 2001 Statistical mechanics and the asymmetry of counterfactual dependence. Philos. Sci. 68, S313–S324.
-
Pearl J. 2009 Causality: models, reasoning, and inference. New York, NY: Cambridge University Press.
-
Ismael J. 2016 How do causes depend on us? The many faces of perspectivism. Synthese 193, 245–267.
-
Bennett CH. 1982 The thermodynamics of computation—a review. Int. J. Theor. Phys. 21, 905–940.
-
Maroney O. 2009 Information processing and thermodynamic entropy. In The Stanford encyclopedia of philosophy (fall 2009 edition) (ed.EN Zalta). Stanford, CA: Stanford University.
-
Godfrey-Smith P. 1996 Complexity and the function of mind in nature. Cambridge, UK: Cambridge University Press.
-
Shalizi C, Crutchfield J. 2001 Computational mechanics: pattern and prediction, structure and simplicity. J. Stat. Phys. 104, 816–879.
-
Rovelli C. Is time’s arrow perspectival? arXiv,1505.01125. (doi:10.48550/arXiv.1505.01125)
-
Dennett DC. 1991 Real patterns. J. Philos. 88,27–51.
本文完整翻译自 The Royal Society 最新特刊:生命与心智中的对称性和对称性破缺(Making and breaking symmetries in mind and life),特刊中同系列文章还包括:
……
跨尺度、跨层次的涌现是复杂系统研究的关键问题,生命起源和意识起源这两座仰之弥高的大山是其代表。而因果涌现理论、机器学习重整化技术、自指动力学等近年来新兴的理论与工具,有望破解复杂系统的涌现规律。同时,新兴的因果表示学习、量子因果等领域也将为因果涌现研究注入新鲜血液。
集智俱乐部特别组织「因果涌现」系列读书会,深入研读相关文献,激发科研灵感。目前已经进行了两季,聚集了500+成员,积累了大量论文解读资料,第三季即将开始,欢迎感兴趣的朋友报名,加入因果涌现社区,并解锁对应录播权限。
读书会详情与报名方式请参考:
因果涌现读书会启动:连接因果、涌现与自指——跨尺度动力学与因果规律的探索
因果、涌现与机器学习:因果涌现读书会第二季启动