揭秘AGI新突破!深度解读DeepSeek-R1丨周六直播·大模型2.0读书会

导语

分享内容简介
分享内容简介
分享大纲
分享大纲
刘博(30min-45min)
-
DeepSeek-R1智能体进化论
-
零基础训练(DeepSeek-R1-Zero)
-
GRPO强化学习双奖励机制 -
自进化能力与”顿悟时刻”实证
-
成熟阶段升级(DeepSeek-R1)
-
冷启动数据驱动 -
迭代式RL微调策略
-
DeepSeek-R1深度解读
-
推理能力的关键机制
-
长链思考(Long CoT)的自然涌现过程 -
无需人工设计的自我验证与反思能力 -
纯强化学习驱动的复杂推理技能习得
-
复现尝试与新发现
-
TinyZero等小规模复现
-
使用较小模型(3B参数)成功复现”顿悟时刻” -
最小数据需求与计算资源探索
-
SimpleRL的复线与结论
-
8K数学例题即可实现有效推理能力提升 -
奖励塑形与长度调整的关键作用
-
LogicRL与其他复现工作
-
RL算法的选择与课程学习作用 -
RL训练的泛化性及推理长度和模型效果的关联
圆桌讨论(15min-30min)
-
R1对于Scaling RL的启示 -
R1后的下一个Scaling范式 -
o1与R1优秀表现的关键因素 -
…..
主讲人介绍
主讲人介绍
刘博

研究兴趣为强化学习、推理和机器学习系统的交叉领域及其在复杂的现实环境中的应用。

研究兴趣为自然语言处理、大语言模型的推理与规划。
圆桌嘉宾
圆桌嘉宾
李忠志

中国科学院大学人工智能学院计算机应用技术博士生,导师为刘成林研究员。
研究兴趣为大语言模型、大模型评测、多模态学习、AIGC、神经符号学习。
主持人
主持人
杨梦月

布里斯托大学工程数学学院讲师,伦敦大学学院计算机博士,导师为伦敦大学学院汪军教授。
研究兴趣为因果表示学习,多智能体,强化学习等,尤其是世界模型中的因果关系。
涉及到的参考文献
涉及到的参考文献
-
Guo D, Yang D, Zhang H, et al. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning[J]. arXiv preprint arXiv:2501.12948, 2025. -
Zeng W, Huang Y, Liu W, et al. 7B Model and 8K Examples: Emerging Reasoning with Reinforcement Learning is Both Effective and Efficient[J]. Notion Blog, 2025. -
Pan J, Zhang J, Wang X, et al. TinyZero[OL]. https://github.com/Jiayi-Pan/TinyZero, 2025. -
Llms I. Demystifying Long Chain-of-Thought Reason[J]. -
Muennighoff N, Yang Z, Shi W, et al. s1: Simple test-time scaling[J]. arXiv preprint arXiv:2501.19393, 2025. -
Feng X, Wan Z, Fu H, et al. Natural language reinforcement learning[J]. arXiv preprint arXiv:2411.14251, 2024. -
Xie T, Gao Z, Ren Q, et al. Logic-RL: Unleashing LLM Reasoning with Rule-Based Reinforcement Learning[J]. arXiv preprint arXiv:2502.14768, 2025.
直播信息
直播信息
直播时间:
2025年3月1日(本周六)晚上19:30-21:30。
参与方式:

扫码报名
大模型2.0读书会启动
o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。
从2024年12月7日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!
详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!





