导语


o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。


从2024年11月30日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!




背景介绍




2024年7月,Google DeepMind发布的AlphaProof展示AI在数学推理领域的重要突破,该模型能够在国际奥林匹克数学竞赛(IMO)中达到银牌水平;不久,在2024年9月,OpenAI发布了具有里程碑意义的o1模型,它们标志着大语言模型正式进入“深度思考”时代。不同于传统的快速响应模式,o1通过强化学习内化了思维链推理能力,能够在回答问题时进行深入的推理和验证。在数学、编程等需要复杂推理的任务中,o1表现出了惊人的能力提升——在国际奥林匹克信息学竞赛(IOI)中达到金牌水平,在美国数学邀请赛(AIME)中取得83%的得分率。这一突破性进展不仅代表了AI向着更高智能形态的演进,更为我们理解机器推理、人工智能的本质提供了全新视角。

从技术层面,o1的成功揭示了一个重要趋势:大模型的能力提升不再局限于简单地扩大参数规模,而是转向了对推理过程的深度优化。这种范式转变涉及多个前沿技术领域的创新,包括思维链的内化机制、基于搜索的推理优化、强化学习在推理能力培养中的应用等。这些技术进展不仅推动了AI领域的发展,也为认知科学、计算机科学等多个学科带来了深刻启示。




框架介绍



 

本系列读书会旨在深入探讨大模型推理新范式背后的核心技术和基本原理。我们将重点关注以下关键问题:

  1. 推理范式的演进:大模型如何从简单的模式匹配走向深度推理?System 1(快思考)和System 2(慢思考)的整合机制是什么?

  2. 基于搜索与蒙特卡洛树的推理优化:蒙特卡洛树搜索(MCTS)等方法如何提升模型的推理能力?推理过程的可靠性如何保证?

  3. 基于强化学习的大模型优化:强化学习如何培养模型的推理能力?自我对弈(self-play)等机制的作用是什么?

  4. 思维链方法与内化机制:如何将外部提示的思维链转化为模型的内在能力?这一过程与人类认知学习有何异同?

  5. 自我改进与推理验证:模型如何通过自我验证和迭代优化提升推理能力?这种能力的边界在哪里?

这些问题不仅关系到AI技术的发展方向,也涉及到对智能本质的深入理解。我们期望通过这个读书会,汇聚来自机器学习、认知科学、数学等不同领域的观点,共同探索大模型推理能力提升的内在机制,为人工智能的下一个发展阶段贡献洞见。




发起人介绍




张江北京师范大学系统科学学院教授,集智俱乐部、集智学园创始人,集智科学研究中心理事长,曾任腾讯研究院、华为战略研究院等特聘顾问。主要研究领域包括因果涌现、复杂系统分析与建模、规模理论等。

冯熙栋,伦敦大学学院计算机系博士,本科毕业于清华大学自动化系。即将加入 Google DeepMind 担任研究科学家。其主要研究方向涵盖语言模型、单智能体,多智能体,以及元强化学习。致力于通过强化学习推动下一代语言模型的发展。
https://waterhorse1.github.io/

王维埙,关注强化学习前沿技术的探索与应用,研究领域为多智能体系统、深度强化学习、基于人类反馈的强化学习。当前从事RL for LLM相关的工作。
个人主页:http://wwxfromtju.github.io/

张杰,中科院信工所四年级博士生,安远AI伙伴,上海人工智能实验室实习生。具有人工智能和网络安全交叉背景,关注大模型安全与对齐。研究方向为可信AI、可解释性。





报名参与读书会




运行模式

从2024年11月30日开始,每周六20:00-22:00,持续时间预计 6-8 周左右,按读书会框架设计,每周进行线上会议,与主讲人等社区成员当面交流,会后可以获得视频回放持续学习。


报名方式

第一步:扫码填写报名信息。

扫码报名(可开发票)
第二步:填写信息后,付费报名。
如需用支付宝支付,请在PC端进入读书会页面报名支付:
第三步:添加运营负责人微信,获取所有推荐论文资源包,拉入对应主题的读书会社区(微信群)。
PS:为确保专业性和讨论的聚焦,本读书会谢绝脱离读书会主题和复杂科学问题本身的空泛的哲学和思辨式讨论;如果出现讨论内容不符合要求、经提醒无效者,会被移除群聊并对未参与部分退费。

加入社区后可以获得的资源:

完整权限,包括线上问答、录播回看、资料共享、社群交流、信息同步、共创任务获取积分等


参与共创任务获取积分,共建学术社区:

读书会采用共学共研机制,成员通过内容共创获积分(字幕修改、读书会笔记、论文速递、公众号文章、集智百科、论文解读等共创任务),积分符合条件即可退费。发起人和主讲人同样遵循此机制,无额外金钱激励。

PS:具体参与方式可以加入读书会后查看对应的共创任务列表,领取任务,与运营负责人沟通详情,上述规则的最终解释权归集智俱乐部所有。





参考文献列表




Wang, J. (2024). “A Tutorial on LLM Reasoning: Relevant methods behind ChatGPT o1”.

概览性论文,深入剖析了ChatGPT o1背后的核心技术原理,特别是其推理验证机制,通过马尔可夫决策过程的形式化描述使复杂的技术更易理解。


1. 涌现能力与Scaling Law研究


[1] Wei J, Wang X, Schuurmans D, et al. Emergent Abilities of Large Language Models[C]//Advances in Neural Information Processing Systems, 2022: 28.

https://arxiv.org/abs/2206.07682

首篇系统性探讨大模型涌现能力的开创性工作。通过实证研究揭示了模型规模与能力涌现的关系,并提出了评估涌现能力的理论框架,为后续研究奠定基础。

[2] Cohen S, Rosenfeld E, Kaplan P, et al. Are Emergent Abilities of Large Language Models a Mirage?[C]//International Conference on Machine Learning, 2024.

https://arxiv.org/abs/2304.15004

以严谨的实验设计质疑涌现能力的真实性,提出涌现现象可能只是评估方法的偏差。该工作促使学界重新思考评估方法的合理性,推动了更严格的实验范式。

[3] Liu Y, Zheng S, Zhou Z, et al. A percolation model of emergence: Analyzing transformers trained on a formal language[J]. arXiv preprint, 2024.

https://arxiv.org/pdf/2408.12578v2

首次借鉴统计物理中的渗透理论解释模型能力涌现机制。通过建立数学模型阐明了表征学习中的相变现象,为理解涌现机制提供了全新视角。

[4] Du Z, Zeng A, Dong Y, Tang J. Understanding emergent abilities of language models from the loss perspective[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2403.15796

从优化目标和损失函数视角分析涌现能力。揭示了预训练损失与下游任务性能之间的内在联系,为模型设计和训练提供了理论指导。

[5] Chen H, Yang X, Zhu J, Wang W. Quantifying emergence in large language models[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2405.12617

提出了一套量化评估涌现能力的方法体系。通过引入信息论和统计学方法,实现了对涌现现象的定量刻画,使涌现研究更加科学化。

[6] Kaplan J, McCandlish S, Henighan T, et al. Scaling laws for neural language models[J]. arXiv preprint, 2020.

https://arxiv.org/abs/2001.08361

首次揭示了模型性能与计算资源之间的幂律关系。通过大量实验建立的scaling law理论,成为指导大模型训练的重要理论基础。

[7] Wu Y, Sun S, Li S, et al. Inference scaling laws: An empirical analysis of compute-optimal inference for LLM problem-solving[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2408.00724

首次系统研究了推理阶段的scaling law。发现推理计算与模型性能之间存在独特的scaling规律,为推理阶段的计算资源分配提供了理论依据。

[8] Chen M, Liu Y, Zhang W. Towards a universal scaling law of LLM training and inference[J]. arXiv preprint, 2024.

https://openreview.net/pdf?id=0O69Ng9LFT

提出统一的训练和推理scaling理论框架。通过建立统一的数学模型,揭示了训练和推理阶段scaling law的内在联系,具有重要的理论价值。

[9] Michaud E J, Liu Z, Girit U, Tegmark M. The quantization model of neural scaling[J]. arXiv preprint, 2024.

https://www.researchgate.net/publication/369476862_The_Quantization_Model_of_Neural_Scaling

从量子化角度解释scaling law现象。创新性地引入量子计算概念,为理解神经网络的scaling特性提供了新的理论工具。

[10] Bordelon B, Atanasov A, Pehlevan C. A dynamical model of neural scaling laws[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2402.01092

建立了动力学视角下的scaling law模型。通过引入非线性动力学理论,深入揭示了模型训练过程中的动态特性,丰富了scaling law的理论内涵。


2. 基于搜索与蒙特卡洛树的推理优化

[11] Liu H, Fan C, Wu Y, et al. RAIN: Your language models can align themselves without finetuning[J]. arXiv preprint, 2023.

https://arxiv.org/pdf/2309.07124

提出基于搜索的自对齐方法,无需微调即可提升模型性能。通过智能搜索策略优化输出,在保持模型参数不变的情况下实现对齐。

[12] Feng X, Wan Z, Wen M, et al. AlphaZero-like tree-search can guide large language model decoding and training[J]. arXiv preprint, 2024. 代码链接:https://github.com/waterhorse1/LLM_Tree_Search

https://arxiv.org/abs/2309.17179

首次将AlphaZero的MCTS方法成功迁移到语言模型领域。通过树搜索引导解码和训练过程,显著提升了模型的推理能力和决策质量。

[13] Li X, Zhou Y, Liang P, et al. Tree of thoughts: Deliberate problem solving with large language models[C]//International Conference on Machine Learning, 2023.

https://arxiv.org/abs/2305.10601

提出思维树框架,将推理过程建模为树结构。通过系统性探索和评估不同推理路径,为复杂问题求解提供了新范式。

[14] Silver D, Hubert T, Schrittwieser J, et al. Mastering chess and shogi by self-play with a general reinforcement learning algorithm[J]. arXiv preprint, 2017.

https://arxiv.org/abs/1712.01815

AlphaZero的经典论文,奠定了MCTS与深度学习结合的基础。其核心思想对大语言模型的推理优化具有重要的启发意义。

[15] Hao S, Gu Y, Ma H, et al. Reasoning with Language Model is Planning with World Model[J]. arXiv preprint, 2023.
https://arxiv.org/abs/2305.14992

提出RAP框架,结合蒙特卡洛树搜索算法进行策略性探索,实现在推理空间中的高效搜索和规划,显著提升了模型在数学推理和逻辑推理等任务上的表现。

[16] Zhu X, Wang J, Zhang L, et al. Solving Math Word Problems via Cooperative Reasoning induced Language Models[C]//Annual Meeting of the Association for Computational Linguistics, 2022.

https://arxiv.org/abs/2210.16257

受人类双系统推理框架的启发,提出了CoRe框架,通过模拟人类的即时反应系统(生成器)和深度思考系统(验证器)的协作推理方式,显著提升了预训练语言模型在数学应用题解决中的性能。

[17] Zhang D, Zhoubian S, Yue Y, et al. ReST-MCTS*: LLM Self-Training via Process Reward Guided Tree Search[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2406.03816

提出了ReST-MCTS*方法,通过将过程奖励指导与蒙特卡洛树搜索相结合,利用最终正确答案来推断每一步的过程奖励,从而收集高质量的推理轨迹来训练策略和奖励模型,不再需要传统方法中对每一步进行人工标注。

[18] Hu Z, Liu C, Feng X, et al. Uncertainty of Thoughts: Uncertainty-Aware Planning Enhances Information Seeking in Large Language Models[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2402.03271

提出了UoT算法,通过结合不确定性感知模拟、基于信息增益的奖励机制和奖励传播方案,使大语言模型能够主动提出有效问题来获取信息,显著提升了在医疗诊断、故障排查等任务中的表现。

[19] Tian Y, Peng B, Song L, et al. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2404.12253

提出了AlphaLLM框架,通过结合蒙特卡洛树搜索与三重评判模型,建立了一个无需额外标注的自我提升循环系统,为如何解决搜索空间过大和模型反馈主观性提出新的见解。


3. 基于强化学习的优化

[20] Liu Y, Feng Y, Zhou W, et al. A survey on self-play methods in reinforcement learning[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2408.01072

全面综述了自对弈强化学习方法的发展历程。系统总结了核心技术和应用成果,为大模型优化提供了重要的方法论参考。

[21] Song X, Wang Y, Zhang T, et al. A survey of reinforcement learning from human feedback[J]. arXiv preprint, 2023.

https://arxiv.org/pdf/2312.14925

系统总结RLHF方法的技术发展。深入分析了人类反馈在模型优化中的作用机制,为提升模型性能指明了方向。

[22] Huang J, Gu S, Hou L, et al. Self-boosting large language models with synthetic preference data[J]. arXiv preprint, 2024.

https://arxiv.org/pdf/2410.06961

创新性地提出使用合成数据进行模型自我提升。通过自动生成高质量的偏好数据,实现了模型能力的持续增强。

[23] Ouyang L, Wu J, Jiang X, et al. Training language models to follow instructions with human feedback[C]//Advances in Neural Information Processing Systems, 2022.

https://arxiv.org/abs/2203.02155

InstructGPT开创性工作,建立了RLHF范式。通过人类反馈优化模型行为,显著提升了模型的指令遵从能力。

[24] Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[J]. arXiv preprint, 2017.

https://arxiv.org/abs/1707.06347

PPO算法的奠基性工作,是RLHF中的核心组件。通过约束策略更新步长,实现了稳定高效的模型优化。

[25] Rafailov R, Sharma A, Mitchell E, et al. Direct preference optimization: Your language model is secretly a reward model[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2305.18290

提出DPO方法,将语言模型视为隐式奖励模型。这一洞见简化了模型优化流程,为RLHF提供了新的理论视角。

[26] Brown B, Juravsky J, Ehrlich R, et al. Large Language Monkeys: Scaling Inference Compute with Repeated Sampling[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2407.21787

创新地探索了推理阶段的多次采样策略,发现问题解决率与采样次数呈对数线性关系,并证明使用便宜模型多次采样比使用昂贵模型单次采样更具成本效益。

[27] Wu Y, Sun Z, Li S, et al. Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2408.00724

首次系统研究了大语言模型在推理阶段的最优配置策略,探索了如何在有限计算资源下平衡推理计算量和性能提升。研究发现,将小型模型配合新型树搜索算法使用,往往能达到最佳的计算效率平衡点。

[28] Bansal H, Hosseini A, Agarwal R, et al. Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2408.16737

挑战了使用强大模型生成高质量训练数据的传统观点,通过实验证明使用较弱但计算成本更低的模型生成训练数据,能在固定推理预算下获得更好的性能提升,这种方法在多个基准测试中都优于使用强大模型生成数据的传统方法。

[29] Snell C, Lee J, Xu K, et al. Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2408.03314

提出了一种基于任务难度的自适应计算分配策略,通过对推理时计算资源的智能分配,在固定计算量下将测试时性能提升效率提高了4倍以上,甚至使小模型在某些任务上超越了14倍大的模型性能。

[30] Kumar A, Zhuang V, Agarwal R, et al. Training Language Models to Self-Correct via Reinforcement Learning[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2409.12917

提出了一种名为SCoRe的多轮在线强化学习方法,通过完全自生成的数据和特殊的正则化策略来训练模型的自纠错能力,避免了传统方法中的分布不匹配和行为崩溃问题,在MATH和HumanEval基准测试上显著提升了模型的自纠错性能。


4. 思维链方法与内化机制

[31] Wei J, Wang X, Schuurmans D, et al. Chain of thought prompting elicits reasoning in large language models[C]//Advances in Neural Information Processing Systems, 2022: 35.

https://arxiv.org/abs/2201.11903

首次系统性提出思维链提示方法,开创了显式推理的新范式。通过提供中间推理步骤的示例,使模型能够生成可解释的推理过程,对后续研究产生深远影响。

[32] Zhou A, Li S, Zhou Y, et al. Least-to-most prompting enables complex reasoning in LLM[C]//Annual Meeting of the Association for Computational Linguistics, 2023.

https://arxiv.org/abs/2205.10625

提出了渐进式思维链方法,将复杂问题分解为简单子问题逐步求解。这种自下而上的推理策略显著提升了模型处理复杂任务的能力。

[33] Wang X, Wei J, Schuurmans D, et al. Self-consistency improves chain of thought reasoning in language models[J]. arXiv preprint, 2022.

https://arxiv.org/abs/2203.11171

创新性地引入自一致性机制提升推理可靠性。通过多路径推理和一致性投票,显著改善了模型推理结果的稳定性和准确性。

[34] Chen Q, Qin L, Wang J,et al. Unlocking the boundaries of thought: A reasoning granularity framework[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2410.05695

提出了思维链粒度框架,系统研究了推理步骤的粒度对模型性能的影响。该工作为思维链方法的优化提供了理论指导。

[35] Zhang Y, Liu Y, Sun S, et al. Dualformer: Controllable fast and slow thinking by learning with randomized reasoning traces[J]. arXiv preprint, 2024.

https://arxiv.org/pdf/2410.09918

将心理学中的快慢思维理论引入模型架构设计。通过随机推理轨迹学习,实现了快速直觉反应和深度推理能力的统一。

[36] Nye M, Andreassen A J, Gur-Ari G, et al. Show your work: Scratchpads for intermediate computation with language models[J]. arXiv preprint, 2023.

https://arxiv.org/abs/2112.00114

创新性地提出中间计算草稿的概念,使模型具备类似人类的演算能力。这种方法显著提升了数学和编程等需要步骤分解的任务表现。

[37] Li M, Zhao Y, Yu B, et al. API-Bank: A Comprehensive benchmark for tool-augmented LLMs[J]. arXiv preprint, 2023.

https://arxiv.org/abs/2304.08244

首次系统研究思维链在工具使用场景的应用。通过构建全面的评测基准,为增强模型的工具使用能力提供了重要参考。

[38] Chu Z, Chen J, Chen Q, et al. A survey of chain of thought reasoning: Advances, frontiers and future[J]. arXiv preprint, 2024.

https://ar5iv.labs.arxiv.org/html/2309.15402

全面综述思维链技术的发展历程和前沿进展。系统梳理了关键技术、应用场景和未来方向,为研究者提供了宝贵的参考资料。

[39] Zhang X, Ding D. Supervised Chain of Thought[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2410.14198

从表达能力的理论角度证明了思维链(CoT)可以使常数深度的Transformer模型具备处理串行计算的能力,并通过理论分析和实验验证表明使用CoT的常数深度Transformer可以解决任何由大小为T的布尔电路可解的问题。

[40] Li Z, Liu H, Zhou D, et al. Chain of Thought Empowers Transformers to Solve Inherently Serial Problems[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2402.12875

同样证明了思维链(CoT)可以使常数深度的Transformer模型具备处理串行计算的能力,突破了其在不使用CoT时只能解决AC^0类问题的表达能力上限。

[41] Deng Y, Choi Y, Shieber S. From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2405.14838

提出一种将显式思维链(CoT)内化为隐式推理的训练方法,通过逐步移除中间步骤并微调模型,使模型在不输出中间推理步骤的情况下保持高性能表现。

[42] Yang L, Yu Z, Zhang T, et al. Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2406.04271

提出思维缓冲区(BoT)框架,通过存储和动态更新高层次思维模板,并根据具体问题进行自适应实例化,显著提升了大语言模型在推理任务中的准确性、效率和鲁棒性。

[43] Li J, Cao P, Chen Y, et al. Towards Faithful Chain-of-Thought: Large Language Models are Bridging Reasoners[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2405.18915

通过深入分析思维链步骤的粒度和推理组件间的因果关系,提出了基于推理桥接的方法,通过归因技术和语义一致性筛选来缓解大语言模型在思维链推理中的不忠诚问题。

[44] Lyu Q, Havaldar S, Stein A, et al. Faithful Chain-of-Thought Reasoning[J]. arXiv preprint, 2023.

https://arxiv.org/abs/2301.13379

提出Faithful CoT框架,通过将推理过程分为自然语言转符号推理链和确定性求解器两个阶段,确保了思维链的忠诚性,同时在多个基准测试中显著提升了模型性能。


5. 自我改进与推理验证

传统大语言模型受限于训练数据的质量上限,难以像人类一样通过试错和反思持续进化。自我改进与推理验证旨在突破这一限制,通过构建验证机制和改进策略,让模型具备自主学习和能力提升的能力。

[45]Tao Z, Lin T E, Chen X, et al. A survey on self-evolution of large language models[J]. arXiv preprint arXiv:2404.14387, 2024.

https://arxiv.org/abs/2404.14387

首篇系统性总结大模型自我进化方法的综述文章,提出了经验获取、经验提炼、更新和评估的完整概念框架,为该领域研究提供了重要指导。

[46]Zelikman E, Wu Y H, Mu J, et al. STaR: Self-taught reasoner bootstrapping reasoning with reasoning[C]//Proc. the 36th International Conference on Neural Information Processing Systems. 2024, 1126.

https://arxiv.org/abs/2203.14465

开创性地提出让模型从自身推理过程中学习的方法,为大模型自我改进领域奠定了重要基础。

[47]Lightman H, Kosaraju V, Burda Y, et al. Let’s verify step by step[J]. arXiv preprint arXiv:2305.20050, 2023.

https://arxiv.org/abs/2305.20050

OpenAI提出的过程奖励模型(PRM)框架,通过细粒度的步骤验证显著提升了模型推理能力,对ChatGPT o1的发展产生直接影响。

[48] Huang J, Gu S S, Hou L, et al. Large language models can self-improve[J]. arXiv preprint, 2022.

https://arxiv.org/abs/2210.11610

系统探讨了大模型自我改进的可能性与方法。通过实验证明了模型能够通过自我学习持续提升性能,为未来研究指明了方向。

[49]Peng K, Ding L, Zhong Q, et al. Token-level self-evolution training for sequence-to-sequence learning[C]//Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2023: 841-850.

首次将自我进化扩展到token级别,通过新的正则化方法显著提升了序列生成任务的性能。

[50] Zhao J, Tong J, Mou Y, et al. Exploring the compositional deficiency of large language models in mathematical reasoning through trap problems[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2405.06680

通过设计陷阱问题深入分析模型推理的局限性。揭示了大模型在数学推理中的组合性缺陷,为改进模型推理能力提供了重要洞见。

[51] Sun Z, Shen Y, Zhou Q, et al. Principle-driven self-alignment of language models from scratch with minimal human supervision[J]. Advances in Neural Information Processing Systems, 2024, 36.

提出了一种基于原则驱动的自对齐方法,以最小的人工监督实现了模型的有效自对齐。

[52] Jiang X, Li F, Zhao H, et al. Long Term Memory: The Foundation of AI Self-Evolution[J]. arXiv preprint arXiv:2410.15665, 2024.

https://arxiv.org/pdf/2410.15665

详细阐述了长期记忆对 AI 自我进化的重要性。

https://mp.weixin.qq.com/s/BwIazafPjpQFtivIXTs5XA

[53] Zelikman E, Wu Y, Mu J, et al. STaR: Bootstrapping reasoning with reasoning[C]//Advances in Neural Information Processing Systems, 2022.

https://arxiv.org/abs/2203.14465

开创性地提出基于推理的自我改进方法。通过bootstrapping机制实现模型能力的迭代提升,为自我改进研究开辟了新方向。

[54] Wang P, Li L, Shao Z, et al. Math-shepherd: Verify and reinforce LLMs step-by-step without human annotations[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2312.08935

提出无监督的数学推理验证方法。通过自动化步骤验证和强化学习,显著降低了对人工标注的依赖,提高了模型的数学推理能力。

[55] Lightman H, Kosaraju V, Burda Y, et al. Let’s verify step by step[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2305.20050

OpenAI提出的系统性验证框架。通过细粒度的步骤验证和反馈机制,大幅提升了模型推理的可靠性和准确性。

[56] Li Y, Lin Z, Zhang S, et al. Making large language models better reasoners with step-aware verifier[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2206.02336

创新性地提出步骤感知验证器。通过深入理解推理步骤间的依赖关系,实现了更精准的推理验证和优化。

[57] Cobbe K, Kosaraju V, Bavarian M, et al. Training verifiers to solve math word problems[J]. arXiv preprint, 2021.

https://arxiv.org/abs/2110.14168

验证器研究的开创性工作。首次系统探讨了验证器在数学问题求解中的应用,为后续研究奠定了基础。

[58] Li X, Yu P, Zhou C, et al. Self-alignment with instruction backtranslation[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2308.06259

提出基于指令反向翻译的自对齐方法。通过双向转换学习模型意图,实现了更有效的自我改进。

[59] Kumar A, Zhuang V, Agarwal R, et al. Training Language Models to Self-Correct via Reinforcement Learning[J]. arXiv preprint, 2024.

https://arxiv.org/abs/2409.12917

提出SCoRe方法,通过多轮在线强化学习和适当的正则化策略,使用完全自生成的数据来训练语言模型的自我纠错能力,有效解决了监督微调中的分布不匹配和行为崩塌问题,显著提升了模型的自我纠错表现。

[60] Uesato J, Kushman N, Kumar R, et al. Solving math word problems with process- and outcome-based feedback[J]. arXiv preprint, 2022.

https://arxiv.org/abs/2211.14275

通过对比基于过程和基于结果的监督方法在GSM8K数据集上的表现,发现纯粹的结果监督能以更少的标注实现相似的最终答案准确率,但要获得正确的推理步骤,则需要过程监督或模拟过程反馈的学习型奖励模型的监督。



双十一限时优惠参见:

11.11一年一次限时特惠!加入集智学园VIP,一次性解锁集智平台所有内容资源


点击“阅读原文”,报名读书会