如何统一测量世间万物的意识？

封面：Viltè Zumbakytè Haisch

导语

近期，Tim Bayne、Anil Seth 等人发表最新研究 Tests for consciousness in humans and beyond，试图基于意识测试的关键特征，给出一套意识测试框架，并提供意识测试有效性的证明策略，从而在意识测试与意识理论之间搭建桥梁，最终通向对意识本质的理解。

研究领域：意识理论，意识测试，全局工作空间理论，整合信息论

雷沐春 | 作者

王一木&存源 | 审校&编辑

追问nextquestion | 来源

在人类发展过程中意识何时出现？由神经疾病和脑损伤，意识将何时消失？非人类物种中意识如何分布？这些问题一直不确定。虽然近年来提出了许多意识测试，但大多数使用范围有限，而且目前我们还没有针对一些最关键的群体的意识测试。本文指出了开发意识测试所面临的挑战，提出了这些测试的多维分类，并确定了可能用于验证它们的策略。

让·多米尼克·博比（Jean-Dominique Bauby），曾任法国时尚杂志《世界时装之苑》主编，在他以亲身经历为原型的《潜水钟与蝴蝶》一书中，描述了闭锁综合征（locked-in syndrome）患者被囚禁在一具不能活动的身体中的体验。

在此之前，大仲马在《基督山伯爵》中就已经描述了完整的意识被埋藏在不能活动的身体中的情况——诺瓦蒂埃·维尔福先生不能说话也不能移动四肢，但通过眼睛的活动，他想要阻止一场谋杀和一桩不被看好的婚姻。

这些真实或虚构的案例，反映了人们对“意识分布”的普遍关注。

《潜水钟与蝴蝶》同名电影

实际上，“意识”（consciousness）是一个晚近才兴盛起来的概念，尽管与意识相关的研究可以追溯到古希腊，甚至在更原始的壁画也能发现意识与潜意识的端倪，但围绕意识本身进行的研究只有很短的一段历史。

在20世纪80年代初期，“意识”一词还是严肃的科学出版领域的禁忌，许多研究者认为，意识的界定是过时的、含混不清的，“意识”一词的使用不能为心理学增添任何价值。

直到20世纪80年代末期，意识研究才峰回路转*。民间心理学（folk psychology）关于“意识分布”的直觉性想法，也越来越受到重视[1]。我们通常认为，处于清醒状态的人是有意识的，而在醉酒、精神疾病、麻醉、昏迷、植物人以及脑死亡的情形中，意识程度呈递减趋势。

关于对待意识的态度转变的研究，可参考斯坦尼斯拉斯·迪昂《脑与意识》，这一观察部分基于迪昂的亲身经历，部分基于其学术研究。

除民间心理学之外，临床实践也十分关心意识分布问题。临床上，诊断一个病人是否已经脑死亡或处于植物状态，需要进行意识程度的测量。此外，从更广泛的范围来看，如何判定意识的有无？哪些动物可纳入“意识俱乐部”，它们以何种方式具有意识？例如，章鱼所具有的意识是分散的还是统一的？细胞器或人工智能系统（如具有极强的沟通能力的大语言模型）是否具有意识？这些不同视角与层面的研究，最终都指向对意识本质的研究——意识是统一的吗？意识是否多重可实现（如通过物理、计算或建模的方式）？

目前大致有22种意识理论，而裁定意识分布，需要以一个得到一致认可的意识理论为基础。然而，意识理论大多以人类意识为中心，用于说明动物的意识分布时很是困难。

为此，蒂姆·贝恩（Tim Bayne）、阿尼尔·塞斯（Anil Seth）等人另辟蹊径，在《于人类与其他事物中测试意识》一文中，他们试图基于意识测试（Tests for consciousness）的关键特征，给出一套意识测试的框架，并提供意识测试的有效性的证明策略，从而在意识测试与意识理论之间搭建桥梁，最终通向对意识本质的理解。这一意识测试框架，不仅可以用来评价并修正已有的意识测试，而且能够引导建构新的意识测试。

Bayne, Tim, et al. “Tests for consciousness in humans and beyond.” Trends in cognitive sciences (2024).

1. 从难问题到真正问题

斯坦尼斯拉斯·迪昂（Stanislas Dehaene）在《脑与意识》提到了三个推动意识研究重新焕发生机的关键要素：对意识更精确的定义；可以对意识进行实验操作的发现；学界重新重视对主观现象的研究。这些因素一同帮助意识研究走出了“寒冬”。脑电图、功能性磁共振成像以及脑磁图等新的研究工具的出现，加速了这一进程。

迪昂强调的这三个要素，直接关系到意识研究的核心特征。其中，“实验操作意识”主要关注的是意识通达和第一人称的报告。“主观现象”则是托马斯·内格尔（Thomas Nagel）在《作为一只蝙蝠是什么样》一文中强调的“像是什么”（what it is like）的主观特征，或布洛克（Ned Block）所说的现象意识。

同时，迪昂指出的特征也揭示了意识研究的挑战，即大卫·查尔莫斯（David Chalmers）所区分的意识的“难问题”与“易问题”。难问题，是指具有现象性的意识如何从其物理基础中产生出来，以及如何说明具有现象性的意识在宇宙中的实在性；易问题，则是问，物理系统如何产生具有特定功能或行为表现的反应。简单来说，难问题关乎物理的大脑如何具有现象性，易问题是问特定类型的意识经验是如何产生的。

尽管回答易问题也并非轻而易举，但易问题“原则上”是相对简单的，因为物理系统与功能或行为表现之间不存在概念鸿沟。但就算解答了所有的易问题，也不能顺理成章地回答难问题。正如乔治·马瑟所言，查尔莫斯所指的“难”是指这一问题的解决似乎是不可能的。

在此之后，意识哲学与意识科学，分别沿着不同的道路探索意识谜题。意识哲学产生了物理主义、功能主义等一系列理论，试图为难问题提供答案。意识科学则避开对现象性的直接讨论，而是通过第一人称报告、意识通达等方式来接近这一主题。

例如，全局工作空间理论（global workspace theory）与高阶思想理论（higher-order thought theory）的解释核心是意识的功能或行为表现；前者认为意识的核心在于信息在公共空间中的可通达性，后者则看重元表征对一阶表征的指涉，反映在脑中，则是前额叶对其他脑区的指涉。即使意识现象的主观报告与上述理论的解释在很大程度上一致，这种一致性也只能说明它们之间存在某种相关性，并不能直接解释现象本身。

全局神经工作空间理论，参见：意识的大一统理论要来了吗？

阿尼尔·塞斯指出，我们既不应当困守于难问题的争论，也不能抛开意识的现象性不谈，我们应将注意力转向意识的真正问题（real problem）。意识的真正问题，试图将意识的现象性、意识的测量与意识的解释结合起来，以解释、预测和控制具有现象特征的意识为目标。阿尼尔·塞斯认为，我们可以期待，对真正问题的回答，最终能够使得难问题“消逝于形而上学的迷雾之中”。问题视域的转变，为我们提供了研究意识的新路径。从难问题向真正问题的转变，意识测试与意识理论在其中发挥更加核心的作用，二者相互澄清、相互印证，为理解意识作出贡献。

2. 意识的测量

提到意识，我们会想到许多临近概念，如觉醒、注意、智能、自愿行为和自我调节等。一般来说，处于觉醒状态，总是有意识的；植物人仍然经历昼夜转换，却很难说他们具有意识。有意识的心智状态的产生，需要注意力的运作，但注意力的阈下运作，也对心智状态的出现作出贡献。因此，注意不是意识的代名词。贝恩等人指出，意识测试不应当将目光锁定在上述与意识相关联的能力上，而应当将目标直指现象意识，注意力、知觉组织等与意识共变的能力最多是按图索骥的工具。

意识研究的范围不能太大，但也不能太小。人类、短尾猴、老鼠和章鱼有着不同的意识表现，这些不同的意识表现不以人类意识为范本，也不从其中衍生出来。实际上，人类意识只占据意识王国的一隅。因此，划定意识研究的疆域，必须考虑不同的意识表现，不同的意识表现要求不同的意识测试。

意识测试示例。

3. 标准意识测试

“意识”通常指的是有意识的状态，但这并不预设一个普遍适用且具有判决性的意识测试存在。意识测试的方法多样，各有侧重。一些意识测试关注有意识的一般特征，不能传递关于意识内容的信息，例如扰动复杂性指示测试（Perturbational complexity index test）；这一类测试关注神经的整合与区分，而非个体的行为反应或对心理图像的反应。

另一类意识测试则聚焦于足以触发意识出现的特定意识内容或心理能力，包括身体感觉（疼痛、气味）、自主反应（产生心理图像并服从）、对阈下及阈上刺激的分辨能力，以及不同类型的学习能力。对这类测试的阐释，取决于其所选定的心理能力是否是意识的强有力的指示物（indicator）。

面对这样的多样性，我们如何判断某个意识测试对特定群体是否适用？为什么能够将意识测试的结果视作意识有无的可靠证据？如何理解不同类型的意识测试之间的相互关系？为解答这些问题，贝恩等人提出“意识测试的四维空间” ，旨在为意识测试提供一个更系统的理解框架。

4. 意识测试的四维空间

四维空间的第一个维度强调意识测试的有限性，亦即针对具有不同意识表现的目标群体，应当有不同的意识测试。某些意识测试或许仅适合人类及其他灵长类动物；其他一些可能适用于更广泛的哺乳动物群体，还有的测试则可应用于能够演化的生物系统和人工智能在内的更广泛实体。理想情况下，一个普遍适用的意识测试应当能够涵盖所有类型，但这在短期内难以实现。

更进一步，意识测试的目标是精确地识别出对象是否具备意识。这意味着测试既不应错误地判断无意识的对象为有意识（这种错误称为假阳性），也不应将实际拥有意识的对象错误判断为无意识（这种错误称为假阴性）。前者被称作意识测试的特异性（specificity），以较低的假阳率为衡量指标；后者是敏感性（sensitivity），以较低的假阴率为衡量指标。特异性和敏感性这两个概念，构成了我们讨论的四维空间中的另外两个维度。

示例，敏感性是指在无意识的人中，诊断正确的人有多少？特异性是指在有意识的所有人中，诊断正确的人有多少？更具体地说，假阳性是指被错误诊断为无意识的人；假阴性是指被错误诊断为有意识的人。

以人类意识的命令-服从测试（command-following test）为例。这一测试常用于那些表面上没有任何行为反应的患者。通过观察患者对心理指令进行神经活动的反应，我们可以评估他们是否具备意识。在许多临床案例中，这种测试被认为是判断意识存在的可靠指示物，也是判断最小意识状态的重要手段之一。

但这一测试也存在例外，一些癫痫病人有时能够通过这一测试，但他们的反应可能仅仅是无意识的习惯性动作，如自动行走，这并不能确切证明他们具有意识。此外，有意识的患者也可能因为没有听到或不理解指令而未能通过这项测试。

这意味着即使是意识测试也不总是完全准确。测试的特异性（即准确排除无意识的能力）与敏感性（即准确识别出有意识的能力）并不总是等同的。一个只具备高特异性而低敏感性的测试可能会漏判真正具有意识的病人；而一个敏感性高但特异性低的测试，则可能误判无意识的病人为有意识。

特异性与敏感性以意识测试的有限性为基础，依赖于特定的目标对象。我们不能期待针对特定对象群体展现出的高特异性，能够迁移到另一类目标对象上。低特异性的意识测试也并非完全无用，它可能提示当前针对特定群体的意识分布的研究走错了方向。

前面指出，假阳率、假阴率是特异性与敏感性的重要指标，但它们是统计学术语，只能给出归纳性说明。因此，意识测试的最后一个维度是理性信度（rational confidence）。这是一个评估特异性和敏感性是否合理的二阶标准，试图将科学测试与民间心理学中对意识的直观判断联系起来*。理性信度高的测试更符合我们对意识的日常理解，而理性信度低的测试结果可能与我们的直觉大相径庭，其结果更具建议性而非决定性。确立这一维度，实际上是在衡量一项意识测试的整体效力。

这一点短期内难以实现，尤其是那些用于测试其他动物的意识程度的意识测试，因为我们对其他动物的意识分布的民间心理学判断非常有限。

意识测试范围，不同意识测试（行）对不同群体（列）的适用性。加号 (+) 表明测试可能以有意义的方式对特定人群进行（尽管其特异性/敏感性可能较低），可能需要进行一些修改。破折号 (−) 表示该测试对特定人群不适用或不相关。问号 (?) 表示该测试可能适用，但需要更多开发来测试是否如此。最后，加号和问号 (+?) 的组合表示虽然可以应用该测试，但尚不清楚其结果意味着什么。

5. 如何证明意识测试的有效性

如何证明一个意识测试的有效性，并评定其理性信度呢？如何确定意识测试的特异性与敏感性呢？首先，我们不能单独通过证明某个特定群体具有意识来断定相应的意识测试是有效的。相反，我们需要首先证明意识测试是可用的，其结果是可靠的，才能进一步确定对象群体具有的意识程度。因此，证明意识测试的有效性至关重要。

在此背景下，塞斯、贝恩等人在文章中列举出三种证明意识测试有效的策略，这些策略彼此并不互斥，只是考量的核心因素不同。重新部署策略（The redeployment strategy）默认一些意识测试的合理性，以此为基础讨论其他相关测试的有效性，然而，作为基础测试的有效性仍然有待说明；基于理论的策略（the theory-based strategy）相较重新部署策略具有更加坚实的基础，但由于目前意识理论的领域尚未盖棺定论，而不同的意识理论支持不同的意识测试，因此，以哪种理论作为意识测试的凭证尚无统一的答案；相较于前两者，迭代自然种类策略（the iterative strategy）可能是更好的选择，这一策略将意识视作一个自然种类，为进一步推理和普遍化提供了基础，其迭代性质使得意识测试与意识理论处于良性循环中。

策略一：重新部署策略

重新部署策略认为，目前已经有一些具有广泛有效性的意识测试，其他有待考虑的测试是这些测试的变体，因此我们可以将已有测试的有效性扩展到变体测试中。在日常生活中，我们普遍承认外显行为（overt behavior）是有意识的，内隐的（covert）对心理图像的服从是外显行为的变体，命令-服从测试以此为指示物，为意识的出现与否提供证据。

这是一种比较保守的策略，只是对有效的意识测试稍加扩展，但同时这也是一种危险的跳跃。首先，这一策略是彻头彻尾地经验性的，似乎默认现有的意识测试已经充分验证其有效性，但其有效性仅仅是经验层面的有效，还构不成合理性。其次，扩展是有边界的，这一策略只容许原有测试内容的变体的扩展，原则上不能扩展到其他对象群体，因此，最终只是以不同的方式测试同一对象群体的意识状态。例如，我们以命令-服从测试的变体测试，测量人类患者的意识状态，却不可将这一测试用于人工智能系统。

重新部署策略要想获得稳健的基础，需要用其他方式证明基础测试的有效性，或接受意识的紧缩理论（deflationism of consciousness），认为任何能够可靠地服从命令的系统都是有意识的。然而，我们既不能以独立于意识测试的方式证明意识的有效性，也没有在先的意识定义，这两条路都是走不通的。

Katya Dorokhina

策略二：基于理论的策略

重新部署策略要么另寻根基，要么拥抱某种意识的紧缩论，无论如何，这一策略面临着根本性的挑战。既然重新部署策略缺乏理论基础，便有人提议援引意识理论来证明意识测试的有效性。这一策略的基本设想是：与有着稳固根基的、得到证明的意识理论相适切的（fit）意识测试，可作为意识的可靠指示物。例如，全局效应测试（Global effect test）以全局工作空间理论作为支撑，扰动复杂性指标测试的灵感来源于信息整合论（Information Integration Theory）。

基于理论的策略也面临一些挑战。前面提到，当前没有一种意识理论得到广泛赞同，至少有22种意识理论被郑重对待，其中一些理论还存在变体，而这些理论支持不同的意识测试*。如果这些不同的理论最终能够被整合在一起，那么现有的分歧就不会成为挑战。但事实并非如此，不同的意识理论并未呈现出收敛的趋势。

存在不同的理论支持同一个意识测试的情况，Farisco与Changeux在2023年的文章中论述了扰动复杂性指示测试与全局神经工作空间理论之间的基本兼容性。但总体来看，不同的意识理论支持不同的意识测试。

基于此，查尔莫斯等人认为，一个整合的意识理论框架或许能够解决这一问题，不同的意识理论在这一框架中占据不同权重，多种意识测试由此相结合。这一想法或许是可行的，但实际上意识理论的权重很难达成共识，这与意识理论的纷争一样难解。

这一策略可能还面临着人类中心主义的诘难。许多意识理论是以人类为参照建立的，这些理论如何应用到其他群体是存在疑问的。例如，全局工作空间理论解释人类意识的运作机制，但它并未说明哪些系统具有全局工作空间。有证据表明，鱼类有类似于全局工作空间的东西，鸟类的尾外侧神经元可能扮演着类似于人类前额叶的功能，但其相似性应如何裁定？除了这些动物，其他动物又该如何呢？

第三个挑战涉及意识科学与意识哲学之间的双向依赖。要证实一个意识理论，需要依赖意识测试；同时，意识测试又需要某种特定的意识理论作为支撑。这种情况导致了一个理论既依赖于测试来得到验证，同时又被用来验证测试，形成了一个难以打破的循环。

策略三：迭代自然种类策略

为摆脱意识测试与意识理论之间的非良性循环，贝恩等人又提出迭代自然种类策略。这一策略将意识视作一个自然种类，自然种类以基于本质的共性（而非表面相似性、特征的任意结合或纯粹的人类利益）来划分群体，在“关节处”（at its joints）切割世界，反映了自然世界的结构。

迭代自然种类（iterative natural kind）策略图示

如果意识是一种自然种类，这会为研究带来一些好处。首先，不同的意识表现归属于同一自然种类，会共享相同的本质，这一本质能够通过迭代步骤被发现，如同科学家发现热（heat）的本质那样。揭示热的本质的过程，始于一些前理论的假设，用理论的统一性、简单性、解释力，不断修剪最初的假设。

意识的本质揭示过程也可能是实验和理论迭代的结果，不仅有助于构建更准确的意识测试，反过来这些测试又能帮助我们更好地理解意识的分布。迭代同时意味着保留与超越，意识理论保留了部分民间心理学的想法，但又并非衍生于最初的前理论的假设，而是超越并修正这些假设。如此发展出的意识理论，不会与民间心理学的想法背道而驰，只是比民间心理学更加缜密、系统，且具有持续的经验基础。

自然种类策略还能有效解决泛化问题。由于意识是一个自然种类，拥有共同本质，从一些群体所具有的特征开始，首先扩展到具有相似特征的临近群体，进而扩展到其他群体的其他特征，这在理论上是可行的。只是在扩展的过程中，前理论假设的置信度会不断降低。因此，自然种类策略提供的有效性是层级性的。

然而，依据哪些特征进行扩展，最接近人类意识的群体是什么，当前尚无定论。不同的测量标准会得出不同的邻近性，可能是行为邻近、功能邻近或神经生理学邻近。例如，拥有神经系统的个体在全身性的无行动反应状态中表现出不同程度的反应，这一现象在人类的临床状态中尤为明显，人类婴儿和某些动物也表现出类似的特征。而人工智能系统和细胞结构则在这方面与人类存在较大的差异。因此，对人类意识的底层运作机制的了解越充分，就越能够为不同群体分层。

由于不同群体的意识相互关联，因此，任何意识测试的有效性都必须依赖于其他形式的验证。同时，研发独立而有效的意识测试也极为关键，这样一来，意识测试不仅能够相互印证，还能相互纠错。

迭代自然种类策略呈现出意识测试与意识理论的良性循环，给出理解意识的层级性、可扩展的结构，为加深对意识的理解提供了可靠的路径。

6. 结语

本文通过捕捉意识测试的关键特征，勾勒出发展稳健且通用的意识测试的四维空间，这一四维空间不仅使得我们能够衡量一个意识测试的优缺点，更好地理解不同意识测试如何相互关联，还为发展更为完善的意识测试提供了坚实基础。理想的意识测试具有普遍适用性、完美的特异性与敏感性、较高的理性信度，即被证明为是有效的意识测试。

文章进一步提出了三种验证意识测试有效性的策略：重新部署策略、基于理论的策略以及迭代自然种类策略。其中，迭代自然种类策略是较为理想的选择。这一策略认为意识是一个自然种类，我们应当从与我们相近的群体的意识测试开始，有的放矢地逐步扩展到其他群体。

意识测试的四维空间与证明意识测试有效性的策略，是沟通意识测试与意识理论的桥梁，也是沟通第三人称的实验结果与意识经验的主观特征的枢纽。所有这一切最终都有助于回答意识科学与意识哲学领域至关重要的问题：什么是意识？统一的意识理论是否可能？如何理解意识与民间心理学的关系？

参考文献

[1] 斯坦尼斯拉斯·迪昂，《脑与意识》，浙江教育出版社，2018年10月。

[2] Anil Seth, Being You：A New Science of Conscousness, Faber & Faber, 2021.

[3] Bayne, Tim ; Seth, Anil K. ; Massimini, Marcello ; Shepherd, Joshua ; Cleeremans, Axel ; Fleming, Stephen M. ; Malach, Rafael ; Mattingley, Jason ; Menon, David K. ; Owen, Adrian M. ; Peters, Megan A. K. ; Razi, Adeel & Mudrik, Liad (2024). Tests for consciousness in humans and beyond. Trends in Cognitive Sciences 29.

整合信息论读书会

为什么我们在清醒时有意识，而在无梦的睡眠中意识水平大大降低？为什么我们的意识由大脑的某些部分产生，而非其他部分？为什么大脑的特定部分与视觉和听觉等意识体验密切相关？这些具体的问题本质上涉及到，理解决定一个系统产生意识体验的条件，以及理解决定一个系统具有何种意识的条件。整合信息论（IIT）试图解释意识是什么，意识如何测量。根据该理论，意识对应于一个系统整合信息的能力。

为了深入探索意识奥秘，系统梳理整合信息论的理论体系，北京师范大学系统科学学院教授、集智俱乐部创始人张江领衔发起「整合信息论」读书会，组织对本话题感兴趣的朋友，深入研读相关文献，激发科研灵感。读书会分为以下几个部分：整合信息论综述，基础理论框架，近似计算方法，在神经科学中的应用，在复杂系统中的拓展应用，Φ与系统临界态，以及机器意识。2024年9月28日开始，每周六上午9:00-11:00进行，持续时间预计 10 周，欢迎感兴趣的朋友报名参与！

详情请见：

意识可以度量吗？整合信息论读书会启动啦！

推荐阅读

1. 吵翻了：意识是如何产生的？科学家能否达成一致？

2. 如果昆虫有意识，那意味着什么呢？

3. 万字长文：意识的大一统理论要来了吗？

4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 龙年大运起，学习正当时！解锁集智全站内容，开启新年学习计划

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会