DeepMind新工作：组合计算——关于大脑回放机制的新假说

导语

DeepMind近日在Neuron杂志发表的观点论文，针对大脑中的回放（replay），提出了不同于之前假设的解释，即回放是一种组合计算的形式，通过回放，实体被以全新的方式相互方式关联，从而获得新的定性知识。论文还指出有哪些实验可以验证这一假说，及该假说对人工智能的影响。

北京师范大学认知神经科学与学习国家重点实验室 & 北京脑科学与类脑研究中心研究员柳昀哲，是该论文作者之一。本文也引述了2019年柳昀哲作为第一作者的Cell论文中关于回放的研究。同时柳老师还联合其他学者在集智俱乐部发起了NeuroAI读书会，聚焦讨论视觉、语言和学习领域中的神经科学与人工智能交叉研究，欢迎感兴趣的朋友参与交流，详情见文末。

关键词：神经科学，大脑回放

郭瑞东 | 作者

刘培源 | 审校

邓一雪 | 编辑

论文标题：

Replay and compositional computation

论文地址：

https://doi.org/10.1016/j.neuron.2022.12.028

1. 传统对回放的认识

在啮齿动物的空间实验中，研究人员发现某些神经元编码它当前在空间中的位置，而当动物休息或停顿时，到相同的神经元会自发地呈现与动物最近走过的路径相同的激活模式，这种现象被称为回放。传统的观点，回放是对发生过事情的重演或从转换模型（transition model）中采样。考虑到海马体迅速储存新的经历，回放只是为了将这些经历转移到长期记忆而进行的排练。

然而，今年来新证据说明回放的意义远不止于此，例如在在T形迷宫跑步的大鼠，大鼠要么向左，要么向右，但其大脑的回放时，会将左右两边对应的神经元汇合起来，甚至合成完全新的序列[1]。在另一个实验中，9只大鼠在开放的二维环境轮流寻找随机放置奖励和返回“家”（一个固定的位置）。家的位置每天都在变化，创造了许多随机位置和家庭位置的可能组合。自发回放序列会提前形成可能的运动轨迹，预测小鼠未来的路径[2]，类似地，当障碍物在2D 中动态移动时，回放时序列也能适应障碍物的存在[3]。这些实验都说明，回放不仅仅是对曾经经历的简单重复。

2. 回放如何带来新知

假设你知道电脑包含CPU和风扇，两者都耗电，cpu的能耗是30w，那电脑的能耗至少大于30w，这被称为组合计算。新观点认为回放正是大脑中一种自发的组合计算。回放序列由一组串联在一起的实体组成，每个实体暂时对应特定表征（图1a和b），而回放序列作为一个整体描述了一个结构，其意义是各部分及其关系的相互作用。以这种方式组合实体允许经由回放机制衍生出新的知识。

图1 a 对皮层中两个信息加工途径的图示，b，在内侧内鼻皮质的物体载体细胞相对于环境中的每个物体在特定位置表现出类似的激活模式，且对特定的物体呈现选择性激活。c，35只小鼠在获得奖励之前在跑道上跑了四圈。一些海马细胞不仅调整到在特定位置，而且调整到指定圈数时，有选择地在特定的圈上激活。d，每只小鼠在两个不同的环境中完成四圈的任务。与先前的许多实验一致，海马位置细胞重新映射到新的环境之间的空间位置。e，当处在不同环境时，表征圈的细胞没有重新映射到不同的圈上，而是保持稳定

上述描述，基于两个假设，其一是实体和角色（或者语义和语法）之间的分离: 新实体可以绑定到现有角色和反之亦然（图1c），将角色绑定实体排列成复合物（序列）的方法，创建一个潜在的无限的复合物空间（图1d），其二是这样的表征，不会随着环境改变而变化（图1e），这意味着相应神经元的作用是对空间位置和圈数进行预测。

如何理解上述两个假设，可以类比厨师做菜，当厨师知道了食材和成品菜不是绑定的，且食材的营养不会由于加了不同调料就改变时，厨师就可以假设不同食材的组合，从而在真正做菜前，产生无尽的新菜谱。关于回放机制的新假说，正是大脑会自发地如同上述厨师，对过往经历进行重新组合。回放机制原本是进化为运动相关的问题产生的，但其带来的独立实体以不同方式重组，与人脑的学习机制结合，促成了人脑非凡的泛化能力和创造力。

3. 语义空间的回放

前文叙述的回放，发生在空间上。而人脑可对语义空间内的实体进行回放，例如图2a中，每个物体和其它物体之间存在联系，而图2b中，按先后出现顺序，不同物体对应的神经元在回放时按照相反的顺序激活，图c中的八个物体被按顺序排列，人类被试的脑活动被记录并训练神经网络进行解码，共训练两种解码器，第一种被训练来识别每个单独的对象（例如房子）。第二个被训练，能够识别任一位置的抽象表征或序列[4]。

之后在回放时，大脑自发地按所学的序列激活神经元，且在这些事件回播期间，表征位置变量和序列变量的神经元，在相应对象的神经元回放之前被激活（图2d）。这意味着回放序列中的每个物体都被标记了其作用。这种让人想起动态绑定（dynamic binding），其中瞬时同步神经活动将物体与其作用联系起来。图2e描述回放序列中物体功能，彩色线显示静止的自发表征，y 轴表示对其解码道结果。红线对应的是具体的物体，它们以快速的顺序被重新激活。每个物体都附有它所发挥作用的表征，代表它属于哪个序列，在它的序列中占据哪个位置。

图2. 非空间中的回放及物体对应功能的示意图

前文论述的，是回放时将物体和其对应的功能绑定，而组合计算的假设意味着，回放还可以将物体按顺序组合成新序列。上述实验中，当被试者知道正确的顺序，但被展示的是按错误顺序出现的物体时，回放时并没有按照经验顺序，相反，而是按照正确的顺序进行回放。这说明了回放中可以对抽象的物体表征进行重新组合。

图3. 回放合成了一个隐含在抽象规则中的新的序列。人类受试学习某个规则，该规则定义了一组物体应该如何排序。当他们遇到一组无序出现新的对象时，回放立即开始按照规则定义的顺序播放项目

进一步验证回放机制的实验，可以考察经由回放学到的知识能不能被用于之后的计算过程，例如小孩学中国象棋的时候，学习马走日的规则，先让孩子看到马在棋盘时的合法走法，即有横着跳又有竖着跳。之后训练解码器，对应特定的神经表征。之后让受试者回想马的步骤，就会出现马按照与学习时不同的顺序，去激活横着或竖着跳的对应表征。之后教会孩子在横着走的时候，会有别马腿的规则（不合法的走法），并训练对应的神经活动解码器。如果回放机制确实是一种模式组合的话，那么预期回放时，在学习时，即使没有出现竖着走时别马腿的案例，当受试者被要求想象竖着别马腿的走法，也会激活别马腿相关的神经通路。如果发现这样的实验结果，则可以说明回放如何促进了抽象概念以全新的方式组合，从而促成了人脑非凡的泛化能力。未来的实验，还可以验证回放机制能否支持复杂的逻辑允许，例如if-else这样的程序判断，从而根据上下文来绑定实体及其角色。

4. 回放新机制能如何启发AI研究

神经科学启发的AI研究，其中一个热点就聚焦回放机制。回放不仅有助于巩固记忆，让大脑可以从少量的数据集中学到，实现AI研究追求的少尝试学习（few shot learning），相关研究，可参考综述[5]。从组合计算这个更一般的角度看回放，可以按照下面五条原则，设计深度学习和组合计算混合的AI模型：

1. 采用神经网络对大规模组合空间进行剪枝;

2. 通过搜索发现新知识；

3. 用来自网络的正反馈环改进搜索网络;

4. 从硬编码到涌现的频谱上，设计多种概念组合的操作方式;

5. 以神经网络作为表征的基础。

具体来看，可以对比AlphaGo和MuZero这两种AI架构，AlphaGo是对可能的下棋空间进行搜索，通过神经网络选出最合适的走法，从而进行剪枝，之后利用自我对弈的正反馈改进搜索网络，最终发现了人类不曾想到的走法。上述这些操作，可看成让神经网络进行回放，从而将搜索过程中发现的新知识逐渐融入网络。

与AlphaGo有类似架构的MuZero，能够在不具备任何围棋规则知识的前提下学习，相比于手动编写搜索空间的AlphaGo，MuZero是根据有用的表示和预测环境的动态进行学习的，因此其概念组合方式，更靠近涌现的光谱。

此外，回放机制还可以与注意力机制结合，在回放过程中，通过新产生的组合调整注意力分配网络的权重，从而实现结构化的推理。例如之前撰文时，输入法没有根据上下文，将“quanzhong”对应的汉字改为AI语境下最可能的权重而非全中。而结合回放（每个输入词的表征被分为多维度重新组合）与注意力后，输入法背后的预测算法，应该可以通过上下文（注意力机制），自适应地改变用户所输入语境下的对应词排序。

5. 总结

聪明头脑往往能容得下相互矛盾的观念，且能并行不悖（美国作家F·S·菲茨杰拉德），智慧也意味着能够以多种方式和隐喻来理解事物，且关于一个问题的各种隐喻或观点彼此分离的同时，又能在新环境下相互联系与组合，从而产生新的洞见。大脑中回放机制，恰恰发挥这这样的作用，保持独立的知识片段的同时，让新皮层提取语义抽象。由此，回放促进了大脑作为信息处理系统的开放性，对人类的创造力有所助力。而在神经网络中整合作为组合计算的回放机制，有可能构建新一代认知科学启发的混合智能架构的一部分。

参考文献：

[1] Gupta, A.S., van der Meer, M.A., Touretzky, D.S., and Redish, A.D. (2010). Hippocampal replay is not a simple function of experience. Neuron 65, 695–705.

[2] Pfeiffer, B.E., and Foster, D.J. (2013). Hippocampal place-cell sequences depict future paths to remembered goals. Nature 497, 74–79.

[3] Widloski, J., and Foster, D.J. (2022). Flexible rerouting of hippocampal replay sequences around changing barriers in the absence of global place fifield remapping. Neuron 110, 1547–1558.e8.

[4] Liu, Y., Dolan, R.J., Kurth-Nelson, Z., and Behrens, T.E.J. (2019). Human replay spontaneously reorganizes experience. Cell 178, 640–652.e14.

[5] Learning offline: memory replay in biological and artificial reinforcement learning

NeuroAI读书会招募中

神经科学和人工智能领域的多位著名学者近日发表 NeuroAI 白皮书认为，神经科学长期以来一直是推动人工智能（AI）发展的重要驱动力，NeuroAI 领域的基础研究将推动下一代人工智能的进程。文章发表后引发热议：神经科学是否推动了人工智能？未来的人工智能是否需要神经科学？

本着促进神经科学、计算机科学、认知科学和脑科学等不同领域的学术工作者的交流与合作，集智俱乐部联合北京师范大学柳昀哲、北京大学鲍平磊和昌平实验室吕柄江三位研究员共同发起了「NeuroAI」读书会，聚焦在视觉、语言和学习领域中神经科学与人工智能的相关研究，期待能够架起神经科学与人工智能领域的合作桥梁，激发跨学科的学术火花。