导语

在通往强大推理能力的探索中,DeepSeek-R1通过创新的强化学习方法展现了语言模型如何实现自我进化,而社区的复现工作则进一步揭示了这一推理能力涌现的关键机制,为我们理解大型语言模型的思考过程提供了宝贵洞见。
大模型2.0系列读书会旨在深入探讨大模型推理新范式背后的核心技术和基本原理,而大模型2.0读书会的第九期分享将在3月1日周六晚19:30由Deepseek的Student Researcher刘博和新加坡国立大学计算机科学系博士生胡志元带领大家深度解析DeepSeek-R1的突破性成果及其复现工作的核心技术。随后与受邀圆桌嘉宾一起展开R1对于Scaling RL的启示、R1后的下一个Scaling范式等议题的圆桌讨论。

分享内容简介

  

本次分享将深度解析DeepSeek-R1的突破性成果及其复现工作的核心技术:从DeepSeek-R1智能体的双阶段进化路径(包括基于格式/准确度双奖励的GRPO强化学习算法、”顿悟时刻”的自然涌现过程),到成熟阶段的技术升级(冷启动数据驱动的初始化策略、迭代式RL微调机制),以及社区对这些创新的复现与解密(如TinyZero、SimpleRL等项目对最小数据需求与计算资源的探索)。通过系统化的解读与复现案例分析,揭示长链思考能力与自我验证机制是如何在纯强化学习环境中自然涌现的,为我们理解大型语言模型的推理能力提供了全新视角。随后展开R1对于Scaling RL的启示、R1后的下一个Scaling范式等议题的圆桌讨论。


分享大纲

 

刘博(30min-45min)

  • DeepSeek-R1智能体进化论
  • 零基础训练(DeepSeek-R1-Zero)
  • GRPO强化学习双奖励机制
  • 自进化能力与”顿悟时刻”实证
  • 成熟阶段升级(DeepSeek-R1)
  • 冷启动数据驱动
  • 迭代式RL微调策略
  • DeepSeek-R1深度解读
  • 推理能力的关键机制
  • 长链思考(Long CoT)的自然涌现过程
  • 无需人工设计的自我验证与反思能力
  • 纯强化学习驱动的复杂推理技能习得
胡志元(30min-45min)
  • 复现尝试与新发现
  • TinyZero等小规模复现 
  • 使用较小模型(3B参数)成功复现”顿悟时刻”
  • 最小数据需求与计算资源探索
  • SimpleRL的复线与结论 
  • 8K数学例题即可实现有效推理能力提升
  • 奖励塑形与长度调整的关键作用
  • LogicRL与其他复现工作 
  • RL算法的选择与课程学习作用
  • RL训练的泛化性及推理长度和模型效果的关联

圆桌讨论(15min-30min)

  • R1对于Scaling RL的启示
  • R1后的下一个Scaling范式
  • o1与R1优秀表现的关键因素
  • …..



主讲人介绍


刘博

新加坡国立大学计算机科学系博士生,指导老师是Wee Sun Lee 教授和David Hsu 教授。最近在DeepSeek担任基础模型的Student Researcher。

研究兴趣为强化学习、推理和机器学习系统的交叉领域及其在复杂的现实环境中的应用。


胡志元
新加坡国立大学计算机科学系博士生,指导老师是Bryan Hooi教授和See Kiong Ng 教授, 目前在MIT交换访问中。

研究兴趣为自然语言处理、大语言模型的推理与规划。

圆桌嘉宾

李忠志

中国科学院大学人工智能学院计算机应用技术博士生,导师为刘成林研究员。

研究兴趣为大语言模型、大模型评测、多模态学习、AIGC、神经符号学习。



主持人

杨梦月

布里斯托大学工程数学学院讲师,伦敦大学学院计算机博士,导师为伦敦大学学院汪军教授。

研究兴趣为因果表示学习,多智能体,强化学习等,尤其是世界模型中的因果关系。

涉及到的参考文献

 

  • Guo D, Yang D, Zhang H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning[J]. arXiv preprint arXiv:2501.12948, 2025.
  • Zeng W, Huang Y, Liu W, et al. 7B Model and 8K Examples: Emerging Reasoning with Reinforcement Learning is Both Effective and Efficient[J]. Notion Blog, 2025.
  • Pan J, Zhang J, Wang X, et al. TinyZero[OL]. https://github.com/Jiayi-Pan/TinyZero, 2025.
  • Llms I. Demystifying Long Chain-of-Thought Reason[J].
  • Muennighoff N, Yang Z, Shi W, et al. s1: Simple test-time scaling[J]. arXiv preprint arXiv:2501.19393, 2025.
  • Feng X, Wan Z, Fu H, et al. Natural language reinforcement learning[J]. arXiv preprint arXiv:2411.14251, 2024.
  • Xie T, Gao Z, Ren Q, et al. Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning[J]. arXiv preprint arXiv:2502.14768, 2025.


直播信息


直播时间:

2025年3月1日(本周六)晚上19:30-21:30。

参与方式:

扫码报名


扫码参与大模型2.0读书会,加入群聊,获取系列读书会回看权限,成为人工智能社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动人工智能社区的发展。
报名成为主讲人
读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!


大模型2.0读书会启动

o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。


从2024年12月7日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!



详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!

点击“阅读原文”,报名读书会