导语

DeepSeek R1-Zero 和 R1 的出现再次证明了强化学习的潜力所在。R1-Zero 从基础模型开始构建,完全依赖强化学习(RL),而不使用人类专家标注的监督微调(SFT)。在训练过程中,随着步骤增加,模型逐渐展现出长文本推理以及长链推理的能力。随着推理路径的逐步增长,模型还表现出自我修复的能力,能够发现并修复之前的错误。
大模型2.0系列读书会旨在深入探讨大模型推理新范式背后的核心技术和基本原理,而大模型2.0读书会的夜谈将在3月2日周日晚19:30由北大对齐小组的陈博远给大家分享多模态强推理下的拓展,介绍 Align-DS-V: 基于 DeepSeek-R1 扩展得到的多模态模型;同时也会介绍强推理下的安全:形式化验证 Formal Verification 审计对齐 Deliberative Alignment 等内容。

分享内容简介

  

DeepSeek R1-Zero 和 R1 在纯文本模态上取得的优异表现十分惊艳,这也不经让人期待:多模态场景加持下 DeepSeek R1 深度推理模型将会是怎样的表现?满血671B微调是否有框架支持?能否将DeepSeek微调用于交叉领域以及本土化价值对齐和部署?

  • 模态穿透和模态联动将有望进一步提升强推理能力。人类在日常生活中接收到的信息往往是全模态的,不同的感官渠道能够互相补充,帮助我们更全面地理解和表达复杂的概念。

  • 全模态扩展将成为DeepSeek R1的下一个重大突破。首先,在复杂决策场景中构建起”感知-理解-推演”的闭环认知体系,在多个场景下扩展智能边界。

本次夜谈关注多模态场景中强推理下的拓展。从DeepSeek-R1开创RL加持下的强推理慢思考范式新边界出发,介绍Align-DS-V(基于DeepSeek-R1扩展得到的多模态模型),并讨论模型过度思考 (Over-Thinking)现象以及强推理下的安全:形式化验证(Formal Verification),审计对齐(Deliberative Alignment)等内容。


分享大纲

  

  • DeepSeek-R1 开创RL加持下强推理慢思考范式新边界 
  • DeepSeek-R1 Zero 及 R1 技术剖析 
  • Pipeline 总览 DeepSeek-V3 Base DeepSeek-R1 Zero 及 R1 细节分析 
  • 强推理路径对比 (DS-R1 Kimi-1.5 o-series)  
  • 从文本模态到多模态 
  • 其他讨论:Over-Thinking 过度思考等 
  • 未来方向分析探讨 
  • 模态穿透赋能推理边界拓展:Align-DS-V
  • 强推理下的安全:形式化验证 Formal Verification 审计对齐 Deliberative Alignment  

主讲人介绍

陈博远北大对齐小组(PKU-Alignment Team)成员,师从北京大学杨耀东老师。他关注的问题包括如何利用弱模型实现对强模型的可扩展监督(这对解决超对齐问题至关重要),以及如何以理论和实验相结合的方法帮助实现AI系统的道德价值对齐和解决相应的社会技术问题。



涉及到的参考文献

  • 强推理 & DS-R1
  • DeepSeek-R1 技术报告 https://github.com/deepseek-ai/DeepSeek-R1
  • DeepSeek-V3 技术报告 : Liu, A., Feng, B., Xue, B., Wang, B., Wu, B., Lu, C., … & Piao, Y. (2024). Deepseek-v3 technical report. arXiv preprint arXiv:2412.19437
  • 多模态 & 全模态
  • Align-Anything Github Repo: https://github.com/PKU-Alignment/align-anything
  • 多模态 Align-DeepSeek-V: https://huggingface.co/PKU-Alignment/Align-DS-V
  • Align-Anything:   Ji, J., Zhou, J., Lou, H., Chen, B., Hong, D., Wang, X., … & Yang, Y. (2024). Align anything: Training all-modality models to follow instructions with language feedback. arXiv preprint arXiv:2412.15838.
  • 可扩展监督 & 形式化验证 & 拒绝对齐
  • Language Models Resist Alignment: Ji, J., Wang, K., Qiu, T., Chen, B., Zhou, J., Li, C., … & Yang, Y. (2024). Language models resist alignment. arXiv preprint arXiv:2406.06144.
  • s1: Simple test-time scaling:Muennighoff, N., Yang, Z., Shi, W., Li, X. L., Fei-Fei, L., Hajishirzi, H., … & Hashimoto, T. (2025). s1: Simple test-time scaling. arXiv preprint arXiv:2501.19393.
  • RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?: Xu, H., Wu, X., Wang, W., Li, Z., Zheng, D., Chen, B., … & Zhang, D. (2025). RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?. arXiv preprint arXiv:2501.11284.

参与信息


时间:

2025年3月2日(本周日)晚上19:30-21:30。

参与方式:

扫码报名


扫码参与大模型2.0读书会,加入群聊,获取系列读书会回看权限,成为人工智能社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动人工智能社区的发展。
报名成为主讲人
读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!


大模型2.0读书会启动

o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。


从2024年12月7日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!



详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!

点击“阅读原文”,报名读书会