张俊林：OpenAI o1技术原理探析丨周六直播·大模型2.0读书会

导语

三个月前OpenAI 推出了其最新力作——OpenAI o1，迅速成为了AI界的热点话题。OpenAI o1 最大的亮点在于其具备了类似人类的推理能力，这意味着它能够在处理复杂问题时，不仅仅是简单地匹配已知的数据模式，而是能够在模型内部执行一个类似于“慢思考”的过程。这种能力让 o1 在物理、数学、生物和化学等多个学科领域的表现力都不错。由于OpenAI的技术封闭性，我们并不清楚o1的实现机制，目前很多研究都在探索关于 OpenAI o1 是如何实现这一突破的，本次分享将集中在这一主题，由新浪微博首席科学家张俊林带大家一起探究o1的技术原理和可能的实现机制。

大模型2.0系列读书会旨在深入探讨大模型推理新范式背后的核心技术和基本原理，而大模型2.0读书会的第三期分享将集中在这一主题，由新浪微博首席科学家张俊林带大家一起探究o1的技术原理和可能的实现机制。

分享内容简介

本次分享将深入地对 o1 的技术原理和可能实现机制进行剖析。首先会阐述o1的重大价值及意义，包括从预训练到Post-Training及Inference阶段的Scaling Law的迁移及对小模型研发的影响等方面；其次会逐步推导o1的可能训练过程及模型构成；另外，会重点探讨如何结合LLM以及AlphaZero的强化学习来构造类o1的系统，以此让大模型具备复杂逻辑思考能力。最后展开圆桌讨论。

分享内容大纲

大模型2.0:OpenAI o1技术原理探析（张俊林，45min）

o1模型的价值和意义

inference time Scaling Law
对小模型的意义
新型的安全模式

o1的可能训练过程推导

o1的可能训练过程
o1可能的模型结构

如何结合LLM和强化学习构造o1

强化学习基础介绍
LLM与RL融合构造类o1系统

圆桌论坛（张俊林、张江、岳玉涛、王维埙，30min）

llya在NIPS2024中提出“预训练即将结束，接下来是超级智能”，如何看待这个观点？
Post-Training和Inference Time Scaling Law是否具有发展的可持续性？
COT是否引导大模型进行“慢思考”的最佳方式？是否有其它更好的方法？
LLM真的能做Reasoning吗？LLM的reasoning会不会和人不一样？
强行约束llm按照人的方式进行reasoning，可解释提升，但会不会约束性能？
…….

主讲人介绍

张俊林，中国中文信息学会理事，中科院软件所博士，目前担任新浪微博首席科学家及新技术研发负责人，此前在阿里巴巴担任资深技术专家，负责新技术团队。技术书籍《这就是搜索引擎：核心技术详解》、《大数据日知录：架构与算法》的作者。在ACL、KDD、CIKM、RecSys、COLING等国际会议发表多篇相关学术论文。

研究兴趣为大模型及推荐系统

圆桌嘉宾

张江，北京师范大学系统科学学院教授，集智俱乐部、集智学园、集智科学研究中心创始人，曾任腾讯研究院、华为战略研究院等特聘顾问。

研究兴趣为因果涌现、复杂系统分析与建模、规模理论等

岳玉涛，香港科技大学（广州）副教授，江苏省产业技术研究院深度感知技术研究所创始人，广东省引进创新科研团队带头人。获已授权中国发明专利300余项，发表论文60余篇。

研究兴趣为多模态感知融合、大模型机理与可解释AI、通用人工智能、机器意识、大模型应用等

主持人介绍

王维埙，阿里巴巴强化学习研究员，关注强化学习前沿技术的探索与应用。当前从事RL for LLM相关的工作。研究兴趣为多智能体系统、深度强化学习、基于人类反馈的强化学习。

个人主页：http://wwxfromtju.github.io/

主要涉及到的参考文献

1.o1官网信息：https://openai.com/o1/

2.openai o1 system card:https://cdn.openai.com/o1-system-card-20241205.pdf

3.Alphazero paper:Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

4.对o1的Inference-time Scaling的探索（From Hugh Zhang on X:https://x.com/hughbzhang/status/1838288923656941860）

直播信息

时间：

2024年12月21日（本周六）晚上19:00-21:00

参与方式：

扫码参与大模型2.0读书会，加入群聊，获取系列读书会回看权限，成为人工智能社区的种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动人工智能社区的发展。

报名成为主讲人

读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员，均遵循内容共创共享机制，可以获得报名费退款，并共享本读书会产生的所有内容资源。详情请见：大模型2.0读书会：融合学习与推理的大模型新范式！

大模型2.0读书会启动

o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II：融合学习与推理的大模型新范式」读书会，本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径，帮助我们更好的理解机器推理和人工智能的本质。

从2024年12月7日开始，预计每周六进行一次，持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加，激发更多的思维火花！

详情请见：大模型2.0读书会：融合学习与推理的大模型新范式！

点击“阅读原文”，报名读书会

张俊林：OpenAI o1技术原理探析丨周六直播·大模型2.0读书会

分享内容简介

分享内容大纲

主讲人介绍

圆桌嘉宾

主持人介绍

主要涉及到的参考文献

直播信息

谷歌量子芯片发布：量子纠错取得重要突破

Koopman 算符理论简介｜入门路径

发表评论点击这里取消回复。

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

复杂系统入门与实战（Python）

热门浏览

DeepSeek-R1｜集智百科

复杂网络上的自组织与集体行为：从扩散、相变到博弈 | 读书会启动

因果涌现与“时间倒流”：基于可逆性的因果涌现新理论｜集智科学研究中心最新成果

新书推荐：《复杂网络分析》

谈谈统计物理学的对象和方法

最新文章

气象大模型概览与业界实践｜周二直播 · 地球系统科学读书会

复杂系统涌现的理论基础 | 涌现动力学第一课

Science最新：大模型是文化社会技术

随机微分方程分解与因果涌现量化｜周日直播·因果涌现第六季读书会

AI原生时代的学习——如何学？学什么？为何学？丨周三直播·「AI时代的学习：共探学习的复杂性」主题读书会

张俊林：OpenAI o1技术原理探析丨周六直播·大模型2.0读书会

分享内容简介

分享内容大纲

主讲人介绍

圆桌嘉宾

主持人介绍

主要涉及到的参考文献

直播信息

微信扫一扫,分享到朋友圈

谷歌量子芯片发布：量子纠错取得重要突破

Koopman 算符理论简介｜入门路径

猜你喜欢

气象大模型概览与业界实践｜周二直播 · 地球系统科学读书会

复杂系统涌现的理论基础 | 涌现动力学第一课

Science最新：大模型是文化社会技术

随机微分方程分解与因果涌现量化｜周日直播·因果涌现第六季读书会

AI原生时代的学习——如何学？学什么？为何学？丨周三直播·「AI时代的学习：共探学习的复杂性」主题读书会

稀疏有向网络上复杂系统的动力学平均场理论

发表评论 点击这里取消回复。

复杂系统的涌现动力学

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

复杂系统入门与实战（Python）

热门浏览

DeepSeek-R1｜集智百科

复杂网络上的自组织与集体行为：从扩散、相变到博弈 | 读书会启动

因果涌现与“时间倒流”：基于可逆性的因果涌现新理论｜集智科学研究中心最新成果

新书推荐：《复杂网络分析》

谈谈统计物理学的对象和方法

最新文章

气象大模型概览与业界实践｜周二直播 · 地球系统科学读书会

复杂系统涌现的理论基础 | 涌现动力学第一课

Science最新：大模型是文化社会技术

随机微分方程分解与因果涌现量化｜周日直播·因果涌现第六季读书会

AI原生时代的学习——如何学？学什么？为何学？丨周三直播·「AI时代的学习：共探学习的复杂性」主题读书会

关注我们的公众号

发表评论点击这里取消回复。