大语言模型的组合关系推理基准测试与解析
摘要
组合关系推理(CRR)是人类智能的标志性能力,人类能够理解多个实体之间的复杂关系,并基于这些关系进行推理,但我们尚不清楚现有的大语言模型是否能够胜任CRR任务。近期,一篇美国人工智能协会年会AAAI发布的高分论文,提出了一种新的合成基准——广义关联回忆(GAR),用于系统评估LLMs的CRR能力。通过该基准的测试,首次明确指出了大语言模型在组合关系推理任务中的核心缺陷,并通过实验揭示了模型内部的关键推理机制。
...
- 2025-02-07
大模型真的会推理吗?Transformer脑回路窥探丨周日直播·大模型2.0读书会
导语
“组合关系推理”是人类拥有的一种强大能力。人类能够理解多个实体之间的复杂关系,并基于这些关系进行推理。比如说,当我们看到 “迈克想去马德里,约翰想去曼谷”,就能推理出约翰想去泰国。
...
- 2025-02-07
复杂网络中的动力学:从理论突破到地球生态的跨学科对话
导语
复杂网络作为建模复杂系统的重要工具,广泛应用于多个领域,包括流行病的传播、社交网络中的舆论传播、大脑意识的形成,以及地球气候系统的多重交互。2021年9月,《European Physical Journal》发表了特刊“复杂网络中的动力学现象”,汇聚了33篇关于复杂网络及其应用的研究论文。该特刊分为三个部分:第一部分理论与方法,涵盖了网络社团检测、时间序列模式识别、同步及扩散传播现象等内容;其余两部分则重点关注复杂网络在神经科学和地球科学中的应用,尤其是气候网络的相关研究,对应对日益严峻的气候挑战具有重要意义。
...
- 2025-02-06
PRL速递:复杂网络中目标节点的高效隔离策略
摘要
网络传播的研究是一个极具吸引力的课题,具有广泛的实际应用。针对网络的攻击或免疫策略已经提出了多种方法。然而,在现实世界的系统中,通常考虑整个网络既不可行也不必要。在这篇研究中,我们关注特定的目标节点群体,目的是将它们从全局网络结构中断开。例如,在流行病爆发期间,通过隔离一些特定的节点(如照顾者),可以有效地防止疾病传播到易受影响的群体,如婴儿和老年人。从这种针对性规避的角度出发,我们引入了一系列目标中心性指标,并应用它们将靶向节点从网络整体其他部分隔离开来。
...
- 2025-02-06
复杂网络上的自组织与集体行为:从扩散、相变到博弈 | 读书会启动
导语
集智俱乐部联合合肥工业大学物理系教授李明、同济大学副教授张毅超、北京师范大学特聘副研究员史贵元与在读博士生邱仲普、张章共同发起「复杂网络动力学」读书会。本次读书会将探讨:同步相变的临界性、如何普适地刻画多稳态与临界点、如何识别并预测临界转变、如何通过局部干预来调控系统保持或回到期望稳态、爆炸逾渗临界行为的关键特征、不同类型的级联过程对逾渗相变的影响有何异同、高阶相互作用的影响能否等效为若干简单机制的叠加、如何有效地促进人类个体间的合作等问题。
读书会计划从3月7日开始,每周五晚19:30-21:30进行,持续8-10周。
...
- 2025-02-05
PRX速递:复杂时间序列的共享因果驱动力识别
关键词:时间序列分析,递归事件,动力系统,无监督学习,因果推断,渗流转变,拓扑数据分析
论文题目:Recurrences Reveal Shared Causal Drivers of Complex Time Series
论文地址:https://journals.aps.org/prx/abstract/10.1103/PhysRevX.15.011005
期刊名称:Physical Review X
在生物学和工程学中,未被发现的因果关系常常影响着实验时间序列的数据表现,例如影响基因调控的转录因子。
...
- 2025-02-05
大语言模型在分子科学中的知识学习偏好:一项定量研究
关键词:多模态基准,知识学习偏好,模态转换概率矩阵,大语言模型,分子科学
论文题目:A quantitative analysis of knowledge-learning preferences in large language models in molecular science
论文地址:https://www.nature.com/articles/s42256-024-00977-6
期刊名称:Nature Machine Intelligence
深度学习在分子建模和设计领域取得了显著进展,尤其是大语言模型的引入,
...
- 2025-02-04
多模态大语言模型 vs 人类:视觉认知能力的较量
关键词:多模态语言模型,直觉物理学,因果推理,直觉心理学,视觉认知
论文题目:Visual cognition in multimodal large language models
论文地址:https://www.nature.com/articles/s42256-024-00963-y
期刊名称:Nature Machine Intelligence
随着大语言模型(Large Language Models, LLMs)的崛起,研究者比较人工智能模型和人类认知能力的兴趣再次高涨。
...
- 2025-02-04
DeepSeek-R1|集智百科
导语
DeepSeek-R1是DeepSeek团队推出的第一代推理模型,通过强化学习(RL)和蒸馏技术显著提升了语言模型的推理能力。DeepSeek-R1-Zero模型在没有监督微调(SFT)的情况下,通过大规模强化学习训练展现出强大的推理能力,但存在可读性和语言混合问题。为了解决这些问题,DeepSeek-R1引入了冷启动数据和多阶段训练,推理性能与OpenAI的GPT o1-1217相当。此外,团队还开源了六个基于Qwen和Llama的蒸馏模型,帮助小型模型提升推理能力。
...
- 2025-02-04