PNAS：大脑如何整合多感官模态信息，进行因果推断？

导语

大脑作为复杂智能系统，因果推断能力是其智能的主要表现之一，但怎样在微观神经元层面解释大脑因果推断的内在机制，仍是尚未解决的难题。

例如，当我们在静止的车厢里看到旁边的列车开动，会产生自己在动的错觉。这是因为视觉系统“看到”了运动，但前庭信号却显示我们是静止的。面对不同来源的信号，大脑如何进行整合并作出合理推断？电生理记录显示，大脑神经元会编码前庭运动和视觉运动线索的组合。今年8月份发表在 PNAS上的一项最新研究通过训练神经网络模型证明，这两种类型神经元之间的权衡决定了视觉线索和前庭线索应该整合还是分离，从而帮助大脑进行因果推断。

研究领域：因果推断，多感官整合，人工神经网络

Stephanie Badde, Fangfang Hong, Michael S. Landy | 作者

十三维 | 译者

梁金 | 审校

邓一雪 | 编辑

论文题目：Causal inference and the evolution of opposite neurons

论文链接：https://www.pnas.org/content/118/36/e2112686118

1. 大脑如何进行因果推断？

一只讨厌的蚊子持续烦扰着你，你准备拍打它。你看到它在你的手臂上盘旋，感觉到痒的地方却在旁边（图1A）。这时应该打哪里？数学上的最优解决方案是，对视觉和触觉指示的位置取平均，并对更可靠、往往误差更小的信号给予更大加权。大量文献表明，对于大多数模态匹配和知觉任务，人类行为符合这种感官整合的最佳处理逻辑[1-4]。

然而，如果视觉和触觉所指示的位置非常不同，那么痒感可能是由于另一个原因引起的，如旧蚊虫的叮咬（图1B）。在这种情况下，对不同感觉信号做区隔，比如忽略触觉，在视觉指示的位置拍打就更有意义。实施这一决定需要进行「因果推断」（causal inference），即推断两个感觉信号是来自一个共同来源还是独立的来源。人类[5,6]和猴子[7,8]的行为就像在做因果推断一样，他们不会整合不太可能来自同一来源的信号。因此一个具有挑战性的问题是，感觉线索整合和因果推断是如何在大脑中实现的？

图1. 多感官整合和因果推断。(A)当推断出一个共同原因时，视觉和触觉的感觉信号被整合；(B)当推断出单独的来源时，使用分离的视觉信号。(C)在跨模态下指向方向一致的神经元具有相似的调谐；(D)异向神经元的首选方向在不同模态下有所不同。这两种类型的神经元对(E)自我运动和(F)世界运动的估计，以及(G)因果推断判断都有贡献，但程度不同。(H)在贝叶斯估计中，整合的和分离的估计被结合起来，其权重等于每种因果情况的概率。

2. 多感官信号怎么整合？

今年8月《美国国家科学院院刊》（PNAS）发表的一篇论文中，Rideaux 等人[9]展示了不同类型的神经元之间的相互作用是如何完成最佳整合和因果推断判断的。在多感官感知下，他们模拟了一个一直令人困惑但也经过了充分研究的案例：视觉和自我运动的前庭信号。这些信号在包括背侧内颞上脑区（MSTd）和顶内沟腹侧区（VIP）的大脑区域汇聚。这些区域的神经元通常根据方向进行调整，即当感官线索指示某个特定方向时，相应神经元激发次数最多，信号方向与其首选方向差异越大，激发则越少。

许多从两种模态接收输入*的神经元都是同调神经元（congruent neurons）：它们对这两种模态有相似的调谐（图1C）。因此，同调神经元似乎注定要进行多感官整合（multisensory integration）[10,11]。但奇怪的是，MSTd 和 VIP 中的许多其它神经元是异向神经元（图1D），它们对指示相反方向的视觉和前庭信息进行调谐，例如，视觉刺激发出的向右运动和前庭的向左运动信号[10,12]。当感觉信号来自不同来源时，异向神经元似乎同样有非常适合的方式进行检测。如此一来，同调和异向神经元的协作就可能使大脑进行因果推断[10,13]。

但直接检验这一假设需要同时记录 MSTd 和 VIP 中的同调和异向神经元，以及它们所投射的神经元，这是一项几乎不可能的任务。不过，人工神经网络的构建可以轻松检测神经元在不同脑域的互联行为。

*译注：大脑中某些神经细胞会对视觉、听觉和躯体感觉刺激同时起反应。一般有 50%的细胞是单通道的，但是有超过 20% 的细胞是双通道或三通道的，可以接受多感官模态信息输入。

3. 人工神经网络模拟

Rideaux等人[9]对这个问题采取了一个特别聪明的方法。他们没有构建一个由手工调谐的同调和异向神经元层构成的人工神经网络，而是训练了一个无约束（unconstrained）的人工神经网络，来执行因果推断判断及对自我和世界的运动估计，然后检查了多感官神经元的调谐和连接。这个多层前馈网络有两组输入：视觉和前庭。视觉输入是自然图像的短序列，以不同速度向四个方向变换（左-右、上-下、朝向-远离和视线旋转）。前庭输入来自沿着这四个轴调整的单位的速度，并略微受到噪声的干扰。

对于每个运动方向，神经网络输出的神经元分别确定运动速度（训练为匹配前庭和视觉输入速度的平均值；图1E）、世界运动速度（训练为匹配两个输入速度之差；图1F），并进行共同来源判断（训练为匹配两个输入速度之差是大是小的二元分类；图1G）。值得注意的是，对世界运动估计任务的多感官整合与其它领域不同，后者的整合通常与区隔形成对立，例如仅依赖一种模态（比较图1A和B）。因此后续会带来一个有趣的问题，即该网络将如何推广到对空间、时间或其它特征的多感官知觉的模拟中。

该论文的主要贡献是，经过成功训练后，该网络发展出了与猕猴 MSTd 和 VIP 中同调和异向相同特征的神经元。更具体而言，在网络的「MSTd」层中，神经元对指示方向有清晰的调谐（方向沿着左-右或前-后轴速度计算），大多数神经元要么具有一致的视觉和前庭调谐，要么对这两种模态表现出相反运动方向的调谐。这两种类型的神经元都为因果推断判断提供了重要的输入，证实了最初的假设，即同调和异向神经元之间的权衡对于推断两个信号是否来自同一来源至关重要。

至于该网络的运动速度感知，同调细胞为自我运动估计提供了更强的输入，异向细胞则为世界运动估计提供了更强的输入。这两种类型的神经元也都能对另一种知觉估计做出贡献，只不过程度较小。先前带有手工调谐的同调和异向神经元的计算模型已经证明，这种网络能够执行因果推断[13,14]，不过，没这些特性的人工神经网络亦如此[15]。与这些自上而下的方法相反，Rideaux等人[9]表明，同时进行知觉和因果推断判断的要求促使了同调和异向神经元的发展，表明这种神经基质（neural substrate）是计算的最佳方案。

图2. 人工神经网络中的视觉和前庭信号输入，在经MSTd层三种不同方式解码后，分别输出对自我、场景和因果推断的估计

该网络在感知任务中的表现实质上反映了人类和猴子在方向辨别任务中的行为[11]。成功训练后，该网络具有较小的视觉和前庭运动输入的跨模态差异。这些测试中的视觉刺激被更改为一组移动点集，其可靠性通过改变向同一方向移动的点的比例来操纵。网络则根据其可靠性整合视觉和前庭输入：如果视觉输入可靠性较低，自我运动估计与前庭输入更一致；如果视觉输入可靠性较高，自我运动估计则与视觉输入更一致。值得注意的是，在训练期间，自我运动估计得到了加强，以匹配50-50的平均视觉和前庭信号，这就提出了一个问题，即执行可靠性加权整合的能力是来自对几项任务的联合训练，还是由于网络架构。

当网络推断出单独的原因时，视觉输入对自我运动估计的影响要比推断出两个信号的共同来源时低。如果一种模态输入是有噪声的，即相同的刺激导致不同试验的内部测量略有不同，这种跨模态偏向的差异会自动出现[6]。然而以目前的形式，该网络还无法重现因果推断的以下行为特征：当信号更不一致，即不太可能从同一来源出现时，跨模态的偏差为何会减少。

鉴于该模型是严格的前馈，因果推断及自我和世界的运动估计有单独的输出，该模型根本不能让因果推断判断影响自我运动的估计。换句话说，模型无法忽视我们介绍性示例中旧蚊子叮咬的挠痒感。相比之下，贝叶斯因果推断模型[6]则复制了跨模态偏差对两个信号之间差异的非线性依赖性[6,16]。他们通过将整合和分离的估计值相加来实现这一目标，并分别以共同和单独来源的推断概率加权（图1H）。在这种观点下，Rideaux等人[9]的神经网络模型包含了知觉两阶段过程的第一阶段。

事实上，多感官背景下的人类大脑活动，对整合的、分离的、及最终合并的估计在独立表征上是一致的[17,18]。贝叶斯因果推断方法的另一个关键组成部分是假设的共同来源的先验概率。在 Rideaux 等人的模型[9]中，这种先验可能反映在多感官 MSTd 层和输出层之间的连接权重中。然而，这种先验共因随着实验环境的变化而变化[19,20]，表明还需要对因果推断过程进行额外的输入。因此，一个更完整的多感官整合和因果推断模型，还将需要为同源和分离源的知觉及灵活的先验共源估计提供表征空间。

总之，Rideaux等人[9]为因果推断中同调和异向神经元的作用这一难题提供了令人信服的解决方案。他们通过训练一个人工神经网络，借由促使同调和反向神经元同时发展，得出了对自我和世界的运动估计及相应的因果推断判断。不过大脑是否以这种简单的前馈方式实现这推断，以及因果推断是如何参与知觉判断的，依然是未来重要的问题。此外在个体发育过程中，是否需要感觉体验来发展异向神经元，或者这种人工神经网络训练所援引的过程是否在进化过程中发挥了作用，将同样是令人非常着迷的探索方向。

原文：

https://www.pnas.org/content/118/36/e2112686118

参考文献

1. M. O.Ernst,M. S.Banks, Humans integrate visual and haptic information in a statistically optimal fashion. Nature415, 429–433 (2002).

2. J.Trommershäuser,K.Körding,M. S.LandyM. S.Landy,M. S.Banks,D. C.Knill, “Ideal-observer models of cue integration” in Sensory Cue Integration, J. Trommershäuser, K. Körding, M. S. Landy, Eds. (Oxford University Press, New York, 2011), pp. 5–29.

3. M. S.Landy,L. T.Maloney,E. B.Johnston,M.Young, Measurement and modeling of depth cue combination: In defense of weak fusion. Vision Res.35, 389–412 (1995).

4. D.Alais,D.Burr, The ventriloquist effect results from near-optimal bimodal integration. Curr. Biol.14, 257–262 (2004).

5. S.Gepshtein,J.Burge,M. O.Ernst,M. S.Banks, The combination of vision and touch depends on spatial proximity. J. Vis.5, 1013–1023 (2005).

6. K. P.Kördinget al., Causal inference in multisensory perception. PLoS One2, e943 (2007).

7. K.Dokka,H.Park,M.Jansen,G. C.DeAngelis,D. E.Angelaki, Causal inference accounts for heading perception in the presence of object motion. Proc. Natl. Acad. Sci. U.S.A.116, 9060–9065 (2019).

8. W.Fanget al., Statistical inference of body representation in the macaque brain. Proc. Natl. Acad. Sci. U.S.A.116, 20151–20157 (2019).

9. R.Rideaux,K. R.Storrs,G.Maiello,A. E.Welchman, How multisensory neurons solve causal inference. Proc. Natl. Acad. Sci. U.S.A.118, doi:10.1073/pnas.2106235118 (2021).

10. Y.Gu,D. E.Angelaki,G. C.Deangelis, Neural correlates of multisensory cue integration in macaque MSTd. Nat. Neurosci.11, 1201–1210 (2008).

11. C. R.Fetsch,A.Pouget,G. C.DeAngelis,D. E.Angelaki, Neural correlates of reliability-based cue weighting during multisensory integration. Nat. Neurosci.15, 146–154 (2011).

12. A.Chen,G. C.Deangelis,D. E.Angelaki, Functional specializations of the ventral intraparietal area for multisensory heading discrimination. J. Neurosci.33, 3567–3581 (2013)

13. H. R.Kim,X.Pitkow,D. E.Angelaki,G. C.DeAngelis, A simple approach to ignoring irrelevant variables by population decoding based on multisensory neurons. J. Neurophysiol.116, 1449–1467 (2016).

14. W. H.Zhanget al., Complementary congruent and opposite neurons achieve concurrent multisensory integration and segregation. eLife8, e43753 (2019).

15. I.Yamashita,K.Katahira,Y.Igarashi,K.Okanoya,M.Okada, Recurrent network for multisensory integration-identification of common sources of audiovisual stimuli. Front. Comput. Neurosci.7, 101 (2013).

16. M. T.Wallaceet al., Unifying multisensory signals across time and space. Exp. Brain Res.158, 252–258 (2004).

17. T.Rohe,U.Noppeney, Cortical hierarchies perform Bayesian causal inference in multisensory perception. PLoS Biol.13, e1002073 (2015).

18. Y.Cao,C.Summerfield,H.Park,B. L.Giordano,C.Kayser, Causal inference in the multisensory brain. Neuron102, 1076–1087.e8 (2019).

19. S.Badde,K. T.Navarro,M. S.Landy, Modality-specific attention attenuates visual-tactile integration and recalibration effects by reducing prior expectations of a common source for vision and touch. Cognition197, 104170 (2020).

20. R.Gau,U.Noppeney, How prior expectations shape multisensory perception. Neuroimage124 (Pt A), 876–886 (2016).

（参考文献可上下滑动查看）

因果科学读书会第三季启动

“因果”并不是一个新概念，而是一个已经在多个学科中使用了数十年的分析技术。通过前两季的分享，我们主要梳理了因果科学在计算机领域的前沿进展。如要融会贯通，我们需要回顾数十年来在社会学、经济学、医学、生物学等多个领域中，都是使用了什么样的因果模型、以什么样的范式、解决了什么样的问题。我们还要尝试进行对比和创新，看能否以现在的眼光，用其他的模型，为这些研究提供新的解决思路。

由智源社区、集智俱乐部联合举办的因果科学与Causal AI读书会第三季，将主要面向两类人群：如果你从事计算机相关方向研究，希望为不同领域引入新的计算方法，通过大数据、新算法得到新成果，可以通过读书会各个领域的核心因果问题介绍和论文推荐快速入手；如果你从事其他理工科或人文社科领域研究，也可以通过所属领域的因果研究综述介绍和研讨已有工作的示例代码，在自己的研究中快速开始尝试部署结合因果的算法。

第三季因果科学与Causal AI读书会从2021年10月24日开始，每周日上午 10:00-12:00举办。共11-12期，每周一期。持续时间预计 2-3 个月。

报名：（长期有效）

扫码报名

第一步：扫码填写报名信息。

第二步：信息填写之后，进入付款流程，提交保证金299元。（符合退费条件后可退费。）

第三步：添加负责人微信，拉入对应的读书会讨论群。

我们也会对每次分享的内容进行录制，剪辑后发布在集智学园的官网上，供读书会成员回看。

详情请见：

因果+X：解决多学科领域的因果问题 | 因果科学读书会第三季启动

推荐阅读

点击“阅读原文”，报名读书会