因果推理与大语言模型：开辟因果关系的新前沿

导语

大语言模型（LLMs）的因果推理能力一直是一个争议性的问题，要在医学、科学、法律和政策等对社会产生重大影响的领域使用大语言模型，研究其因果推理能力具有重要意义。近日发表于 arXiv 的最新论文“因果推理与大型语言模型：开辟因果关系的新前沿”，深入探讨大语言模型及其因果推理能力。

在这项研究中，基于大语言模型的方法在因果发现、反事实推理和实际因果关系等多个基准测试任务中表现出最高的准确性。通过捕捉关于因果机制的常识和领域知识，并支持自然语言与形式方法之间的转换，大语言模型为推进因果推理开辟了新前沿。

关键词：大语言模型，因果推理

梁金 | 编译

论文题目：Causal Reasoning and Large Language Models: Opening a New Frontier for Causality

论文链接：https://arxiv.org/abs/2305.00050

作者：E Kıcıman, R Ness, A Sharma, C Tan [Microsoft Research & University of Chicago]

诺贝尔物理学奖得主尤金·维格纳在1960年曾撰文“数学在自然科学中不合理的有效性”（The Unreasonable Effectiveness of Mathematics in the Natural Sciences），表达他惊奇于数学对物理世界的深刻描述能力，数学常常指引物理理论的发展，甚至指引实验预测。这项新研究的论文作者之一 Amit Sharma 则发表博客文章“大语言模型对于因果推理不合理的有效性”，探讨大语言模型进行因果推理的惊人准确性。

文章题目：On the unreasonable effectiveness of LLMs for causal inference

文章链接：https://threadreaderapp.com/thread/1653457971844874240.html

在这项研究中，基于大语言模型的方法在多个因果基准测试任务上表现出最高的准确性。基于GPT-3.5/4的算法在多项因果推理任务中胜过现有算法，包括成对因果发现任务（97%，提高13个百分点），反事实推理任务（92%，提高20个百分点），和实际因果关系（在确定事件的必要和充分原因方面具有86%的准确性）。

图灵奖得主、计算机科学家 Judea Pearl 在推特转发论文并评论道，大语言模型应用于因果推理任务具有巨大的潜力，可能为“因果之梯”添加新的层级。

图1. Judea Pearl 的因果之梯包括三个层级：关联（association）、干预（intervention）和反事实（counterfactual），分别对应逐级复杂的因果问题。

这到底是如何实现的呢？关键之处在于，大语言模型引入一种基于文本和元数据的新推理方式来实现这一目标，称之为基于知识的因果推理（knowledge-based causal reasoning），这与现有的基于数据的方法有所不同。具体而言，大语言模型拥有迄今为止被认为只有人类才具有的能力，如使用知识生成因果图，或从自然语言中识别背景因果关系。

大语言模型可以作为人类领域知识的代理，这对通常依赖于人类输入的因果任务来说是一个巨大的胜利。通过捕捉关于因果机制的常识和领域知识，并支持自然语言与形式方法之间的转换，大语言模型为推进因果关系的研究、实践和采用开辟了新前沿。

1. 大语言模型与因果发现

成对因果发现

在成对因果发现任务中，GPT3.5/4 之类的大语言模型在涵盖物理学、工程学、医学和土壤科学的图宾根基准测试中，以超过 90% 的的准确率正确预测成对变量的因果方向（A是否导致B？），此前最高的准确率是83%。提示语使用变量名，并询问更可能的因果方向。

图2. 成对因果关系测试任务试图确定，变量A是否导致变量B，或者反之。

在关于神经性疼痛的专门医学数据集上，大语言模型也获得了类似的高准确率。在这种情况下，因果关系并不明显，然而 GPT-4 以96%的准确率检测到正确的因果方向。提示语的选择对结果有很大影响。

图3. 神经性疼痛诊断基准中的成对因果关系。

发现完整因果图

对于更困难的任务，发现完整的因果图，此前在医学数据集上的工作预测大语言模型无效，然而事实并非如此。通过简单的提示调整，测试分数迅速从0.1上升至0.7。在一个北极科学数据集上，GPT-4 超越了最近的深度学习方法。当然，大语言模型也会犯一些愚蠢的错误（例如回答鲍鱼的长度决定了其年龄），所以在关键应用上仍然难以信任。但结果令人惊讶的地方在于，在涵盖广泛人类知识的数据集上，这类错误是如此之少。

这对因果推理具有重要意义。构建因果图可能是因果分析中最具挑战性的部分。这些结果表明，我们可以不再依赖人类提供完整的因果图，而可以使用大语言模型来生成候选因果图或帮助评估。

图4. 大语言模型检测因果方向的推理过程。左侧的因果推理过程给出了正确答案：鲍鱼的年龄导致了其长度；右侧的例子需要同样的因果知识，但大语言模型的论证不连贯，给出了错误答案。

2. 大语言模型用于现实因果推理

反事实推理

论文的第二部分关注反事实推理。大语言模型能否从自然语言中推断因果关系？

例如：一个女人看到了火。如果女人触摸了火，会发生什么？

对于实际因果关系，由于人类需要判断相关变量及其因果贡献，这是一个非常具有挑战性的任务。GPT3.5/4 在这方面优于现有算法。在预测日常反事实情况结果的 CRASS 基准测试中，GPT-4 获得 92% 的准确率，比之前的最好结果高出 20%。

推断必要和充分原因

接下来，大语言模型能否推断必要和充分原因？研究中考虑了15个具有挑战性的实际因果事件。GPT3.5 在这种情况下失效了，但 GPT4 仍然达到了86%的准确率。

推断是否符合社会规范

这些发现意味着大语言模型可以作为工具，直接从混乱的人类文本中进行因果归因。虽然大语言模型可以从文本中推断相关变量，但评估人类因素（例如，一个行动是否被认为合乎社会规范的？）对大语言模型来说仍然是艰难的任务。在需要算法匹配人类直觉的 Big Bench 因果判断任务上，GPT-3.5/4获得了较低的准确率。

3. 大语言模型推动因果推理的新前沿

总体而言，大语言模型为因果推理带来了新的能力，与现有方法相辅相成。我们看到了因果推理充满前景的未来，大语言模型可以协助和自动化因果推理的各个步骤，在基于知识的因果推理和基于数据的因果推理之间无缝转变。

图5. 在处理现实世界因果任务时，人类会在基于逻辑的因果推理和基于协变的因果推理之间转换。现在，大语言模型能够协助和自动化因果推理的每一个步骤，帮助实现协变与逻辑因果推理的统一。

大语言模型并不完美，具有不可预测的失效模式。鲁棒性检测表明存在记忆的因果关系，这部分解释了大语言模型的表现。因此，我们仍然需要原理性的因果算法，不过大语言模型可以用来扩展其范围和能力。

展望未来，这项工作提出了更多问题而非给出答案。大语言模型如何帮助重新发明或增强现有的因果任务，如何让大语言模型的推理更加鲁棒，是许多研究关注的问题。

AI+Science 读书会

AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science，机器学习和其他 AI 技术可以用来解决科学研究中的问题，从预测天气和蛋白质结构，到模拟星系碰撞、设计优化核聚变反应堆，甚至像科学家一样进行科学发现，被称为科学发现的“第五范式”。另一方面是 Science for AI，科学尤其是物理学中的规律和思想启发机器学习理论，为人工智能的发展提供全新的视角和方法。

集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣，共同发起以“AI+Science”为主题的读书会，探讨该领域的重要问题，共学共研相关文献。读书会从2023年3月26日开始，每周日早上 9:00-11:00 线上举行，持续时间预计10周。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。

详情请见：

人工智能和科学发现相互赋能的新范式：AI+Science 读书会启动

因果表征学习读书会

随着“因果革命”在人工智能与大数据领域徐徐展开，作为连接因果科学与深度学习桥梁的因果表征学习，成为备受关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音，新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合，因果表征学习有望催生更强大的新一代AI。集智俱乐部组织以“因果表征学习”为主题、为期十周的读书会，聚焦因果科学相关问题，共学共研相关文献。欢迎从事因果科学、人工智能与复杂系统等相关研究领域，或对因果表征学习的理论与应用感兴趣的各界朋友报名参与。

详情请见：

连接因果科学与深度学习的桥梁：因果表征学习读书会启动

“后ChatGPT”读书会

2022年11月30日，一个现象级应用程序诞生于互联网，这就是OpenAI开发的ChatGPT。从问答到写程序，从提取摘要到论文写作，ChatGPT展现出了多样化的通用智能。集智俱乐部特别组织“后 ChatGPT”读书会，由北师大教授、集智俱乐部创始人张江老师联合肖达、李嫣然、崔鹏、侯月源、钟翰廷、卢燚等多位老师共同发起，旨在系统性地梳理ChatGPT技术，并发现其弱点与短板。

详情请见：

“后 ChatGPT”读书会启动：从通用人工智能到意识机器

推荐阅读

1. 如何发现 AI+Science 中的下一个 AlphaFold 和 ChatGPT？

2. Science前沿：大语言模型涌现演化信息，加速蛋白质结构预测

3. 大语言模型做科研的N种可能性：从自主进行科学实验到写综述文章

4. 《张江·复杂科学前沿27讲》完整上线！

5. 成为集智VIP，解锁全站课程／读书会

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会