多模态大语言模型 vs 人类：视觉认知能力的较量

关键词：多模态语言模型，直觉物理学，因果推理，直觉心理学，视觉认知

论文题目：Visual cognition in multimodal large language models

论文地址：https://www.nature.com/articles/s42256-024-00963-y

期刊名称：Nature Machine Intelligence

随着大语言模型（Large Language Models, LLMs）的崛起，研究者比较人工智能模型和人类认知能力的兴趣再次高涨。人们普遍认为深度神经网络架构无法做到像人一样思考，在因果推理、直觉物理学和直觉心理学等领域的表现一直受到质疑，但最新的多模态大语言模型（Multimodal Large Language Models, MLLMs）展示了在视觉处理上的潜力，本文通过一系列实验探讨MLLMs在上述领域的表现。

实验方法与发现

研究采用一系列经典认知科学任务来评估多模态语言模型的认知能力。

在直觉物理感方面，使用了来自Lerer等人的木块塔实验，要求模型判断塔的稳定性，从而评判模型是否掌握了复杂的物理相互作用。结果显示，GPT-4V和Claude-3在稳定性判断上表现略高于随机水平，但与人类的65.6%准确率相比仍有差距。

在因果推理方面，研究采用了Jenga积木实验和Michotte发射范式，要求模型判断积木的因果关系，以考验大模型对因果关系的理解。结果表明，尽管模型在某些任务中表现略优于随机水平，但和人类的因果判断一致性上仍显不足。

在直觉心理方面，研究设计了宇航员任务和帮助或阻碍任务，要求模型推断场景中角色的意图和行为结果，评估其对他人偏好的直觉理解能力。结果显示，所有模型在任务复杂性递增时的表现均不及人类。此外，GPT-4V在个别任务中表现出与人类判断的微弱相关性，但整体上仍未达到人类水平。

讨论与结论

尽管多模态语言模型在视觉数据处理上展现出一定的能力，但在和人类直觉认知对比下仍有显著不足。研究指出，模型在基础视觉处理上的局限可能是导致其认知表现不佳的原因之一，以及实验中使用的静态图像可能限制了任务的复杂性，未来可以考虑使用更具动态性和复杂性的刺激材料。研究强调了需要更为健全的因果关系、物理动态和社会认知机制，以提升多模态语言模型的表现。未来的研究可以探索通过调整模型规模或微调训练过程来改善模型的认知能力。

大模型2.0读书会启动

详情请见：大模型2.0读书会：融合学习与推理的大模型新范式！

推荐阅读

1. 类脑计算模型登Nature子刊：受大脑启发的人工树突网络，实现高能效AI

2. AI学习600万人生活事件序列，预测人类生活轨迹

3. 北大发表 AI Alignment 综述：确保AI与人类价值观一致的四个关键设计原则

4. 张江：第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程

5. 解锁集智全站内容，开启新年学习计划

6. 加入集智，一起复杂！

点击“阅读原文”，报名读书会

多模态大语言模型 vs 人类：视觉认知能力的较量

实验方法与发现

讨论与结论

集智贺岁，递归新生｜2025新春快乐！

PRX速递：复杂时间序列的共享因果驱动力识别

发表评论点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

Nature封面文章: DeepSeek-R1 通过强化学习激励的LLM推理

AI模拟细胞：让活细胞在大数据中自发涌现！

系统科学：超越相对论与量子力学的科学革命

Nature子刊：非线性动力学最新论文合集

清华大学崔鹏教授首创基于因果推理的大模型——极数（LimiX）大模型丨集智百科

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

多模态大语言模型 vs 人类：视觉认知能力的较量

实验方法与发现

讨论与结论

微信扫一扫,分享到朋友圈

集智贺岁，递归新生｜2025新春快乐！

PRX速递：复杂时间序列的共享因果驱动力识别

猜你喜欢

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

清华大学崔鹏教授首创基于因果推理的大模型——极数（LimiX）大模型丨集智百科

发表评论 点击这里取消回复。

统计物理基础

重整化群分析在非线性物理中的应用

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

复杂系统入门与实战（Python）

热门浏览

Nature封面文章: DeepSeek-R1 通过强化学习激励的LLM推理

AI模拟细胞：让活细胞在大数据中自发涌现！

系统科学：超越相对论与量子力学的科学革命

Nature子刊：非线性动力学最新论文合集

清华大学崔鹏教授首创基于因果推理的大模型——极数（LimiX）大模型丨集智百科

最新文章

一盏灯，为你而亮丨集智招全职or兼职运营助理

系统科学：超越相对论与量子力学的科学革命

推荐｜苇草智酷·智盟酷创计划

Nature子刊：非线性动力学最新论文合集

【会议通知】第二十一届中国科技政策与管理学术年会暨研究会理事会会议（第四轮）

关注我们的公众号

发表评论点击这里取消回复。