梅拉妮·米歇尔Science刊文:AI能否自主学习世界模型?
导语
论文题目:
AI’s challenge of understanding the world
论文地址:
https://www.science.org/doi/10.1126/science.adm8175
在思考“如何让人工智能理解这个复杂世界”的科学挑战时,我想起了一条来自特斯拉自动驾驶系统用户在Twitter上的帖子。这位用户发推说,他的车在某个特定位置无缘无故地突然停下。后来,他注意到路边有一块广告牌,画着一位警长手持停车标志。车辆的视觉系统误将其当作真实的停车标志,于是紧急刹车。
这种理解上的失误——能识别出停车标志,却无法理解其关键背景信息——在AI应用中并不少见。当物体出现在非常规环境下时,计算机视觉网络可能会失效;语言翻译软件在高风险情景下可能会误解含义;医学诊断系统可能会误读它们应从训练数据中学习的信息。如果那些正迅速渗透到我们生活各个角落的人工智能系统想要变得更有用、更值得信赖、更透明、更安全,那么它们必须对我们的世界有更深层次的常识性理解。
一些人工智能领军人物宣称,大型语言模型(LLMs)以及其他“生成式”AI系统的显著能力已经突破了常识性理解的壁垒,我们正在见证“类人智能”的诞生。毕竟,这些系统展现出了非凡技艺:能与我们进行自然语言交谈,根据指示生成逼真图像,编写可执行的计算机代码,甚至在以考察人类推理能力为目标的标准化考试中表现优异。
然而,大语言模型究竟对世界有多深的理解,这个问题引发了热烈且两极化的争论。坚持“无理解”立场的学者预言,只接受语言训练的机器,“即便从现在开始一直训练到宇宙热寂”,也永远无法媲美人类智能。而其他研究者则认为,大语言模型的行为并非源于对语言含义的领悟,而是来自于学习训练数据中词汇和短语之间复杂的统计关联模式,并通过在后期“近似检索”(approximate retrieval)这些学习过的模式,将其应用于新任务查询。
的确,近期几项研究对大型语言模型泛化和抽象能力的稳定性提出了质疑,证明这些系统在解决问题或应对与其训练数据有显著差异的情境时并不可靠。大型语言模型倾向于对查询产生“幻觉”式的答案,同时对攻击性挑战也较为敏感。这暗示它们在真实世界中缺乏扎实的基础,包括理解用户请求背后的意图。
现有的人工智能系统似乎缺乏人类智能中的一个关键要素:关于外部世界的丰富的内在模型。现代认知科学的一条原则是,人类并不仅仅是条件反射机器;相反,我们在脑海中构建了针对物理世界和社会世界的抽象模型,这些模型反映了事件发生的原因,而非仅仅是事件间的相关性。我们依赖这些心智模型来模拟并预测可能行动的潜在结果,在陌生场景下进行推理和规划,想象反事实的情况(例如,“如果我没能及时刹车会怎样?”),并根据经验更新我们的知识和信念。更进一步说,我们不仅拥有关于外部世界和他人的心智模型,还有对自我本身的心智模型,使得我们可以评估并解读自己的推理和决策过程。虽然关于这些模型如何在大脑中实现存在许多争议,但无可置疑,它们是构成人类智能的基础。
数十年来,获取“世界模型”(world model)的问题一直是人工智能研究的焦点。研究者们已尝试过许多方法,或手动编程这些模型,或试图让机器从数据或经验中学习它们。在一些简化“世界”的人工智能领域——如玩电子游戏和机器人控制任务中,上述努力已取得了一些成效。
然而,大语言模型和其他生成式AI系统完全不同。大语言模型并没有被人为编写世界模型,也没有明确被训练去习得世界模型。相反,这类全新的生成式AI系统通常通过“标记”(token)序列进行训练——这些标记可以是词语或图像的一部分,并被要求预测序列中的下一个标记。尽管如此,这些庞大的模型,在接受从数字化文本和图像中提取数万亿个标记的训练后,似乎已经掌握了世界及人类社会的某些基本面貌。即使没有明确编程或学习,这些系统中是否涌现出了类似人类的世界模型?这正是人工智能界人士所宣称的事情。
例如,在最近的一次采访中,OpenAI的联合创始人兼首席科学家Ilya Sutskever表示:
“当我们训练一个大型神经网络来准确预测各种不同文本中的下一个词时……它实际上正在构建一个世界模型……这些文本其实是对世界的一种映射。神经网络正在越来越深入学习世界的各个方面,包括人类,和人类的环境、期待、梦想和动机等等……神经网络学到了对人类世界的压缩、抽象、可用的表征。”
NVIDIA的黄仁勋对 Ilya Sutskever 的访谈视频: https://www.youtube.com/watch?v=ZZ0atq2yYJw&t=1262s
这对于大语言模型无疑是个大胆的假设,但有什么证据来支持它呢?
近期的一项研究探讨了在黑白棋游戏(Othello棋)中,语言模型是否能隐性地学习到一个“世界模型”。黑白棋是一种在8×8方格棋盘上进行的游戏。可以通过列出一系列棋步来描述一局游戏,棋盘上的位置则用行(字母)和列(数字)标记。例如,玩家1可能先在F5格放置一枚黑子,接着玩家2在F6格放置一枚白子,以此类推。
论文题目:Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task 论文地址:https://openreview.net/forum?id=DeG07_TcZvT
Othello黑白棋
研究者们运用黑白棋游戏模拟器,生成了2000万个序列样本,每个样本包含了一局游戏的某个片段。这其中不涉及专业知识或策略;序列中每一步,都是基于先前棋步所随机选择的、同时符合游戏规则的棋步。随后,这些序列被用来训练一个名为OthelloGPT的神经网络(一个8层的“Transformer”模型)。神经网络对游戏规则甚至输入序列所代表的游戏概念一无所知。它所接触到的仅是文本标记的序列(例如,F5标记后跟着F6标记等)。与大语言模型针对自然语言进行训练类似,OthelloGPT的训练目标,是预测在序列中接下来可能出现64个标记(棋盘方格)中的哪一个。
在完成训练后,OthelloGPT能够精确预测未来的合规的棋步,即便是对于其训练数据中从未见过的序列。它是怎么做到的?是依赖于训练序列中标记模式之间的统计相关性,还是像Ilya Sutskever所言,它学习了一个压缩、抽象且可用的“世界”模型——涵盖了棋盘、棋子、玩家以及游戏规则?
为了解答这个问题,研究者运用了“探针”(probes)来确定OthelloGPT学到了什么。探针是一个更简化的神经网络,经过训练可以解码原始神经网络内部的激活状态——即网络内层中模拟神经元对输入的“触发”响应。研究者们训练探针仅使用OthelloGPT各层的激活,来预测在特定棋步序列后,给定方格中是否有黑色或白色棋子,还是没有棋子。尽管OthelloGPT只接受了文本标记序列的训练,但其内部激活状态可以被解码出来,预测游戏中在特定时间,哪些位置有哪种棋子。
此外,研究者通过巧妙操纵OthelloGPT的内部激活,证实了它编码棋盘状态并不仅仅是副作用,而是在利用这种内部表征——即世界模型——来预测合规的棋步。
这个结果是一项引人深思的原理证明:通过语言模型训练,可以涌现出对简单“世界”非平凡且有用的内部表征。其他研究团队也发现了类似的结果,即语言模型隐性地编码了颜色空间、空间方向以及简单文本冒险游戏的世界状态等概念。
然而,这些关于极简“世界”的研究成果与Ilya Sutskever的观点相去甚远。他认为ChatGPT通过处理数万亿个文本标记序列,已经学到了对真实世界及其人类居民的极其复杂且可操作的模型。即使是简单如黑白棋的例子,一个类似人类心智的世界模型也不仅仅是编码棋盘状态;它会对游戏规则进行编码,对游戏策略进行推理,并让系统能够针对与训练经验截然不同的棋步做出反应,甚至灵活适应游戏新变化。此外,这样的世界模型还会帮助系统向其他人阐释知识和决策过程。这种通用能力是人类理解力的特征,尽管我们在AI领域已有显著进展,但目前的AI系统尚未达到这一水平。
当前的机器学习范式是否能产生现实世界中值得信赖的AI所需的理解力,或者是否需要采取新的范式,例如将语言模型与符号方法相结合、引入强化学习新观点、创造综合认知架构,或者包含具身体验,仍然是悬而未决的问题。为了信任那些终将遍布人类世界的AI系统,我们面临着双重挑战:
首先,使这些系统能够有效地理解这个世界;
其次,用科学工具武装自己,来来理解它们是如何做到的。
“后ChatGPT”读书会
AI+Science 读书会
推荐阅读