DeepSeek-R1|集智百科
导语
DeepSeek-R1是DeepSeek团队推出的第一代推理模型,通过强化学习(RL)和蒸馏技术显著提升了语言模型的推理能力。DeepSeek-R1-Zero模型在没有监督微调(SFT)的情况下,通过大规模强化学习训练展现出强大的推理能力,但存在可读性和语言混合问题。为了解决这些问题,DeepSeek-R1引入了冷启动数据和多阶段训练,推理性能与OpenAI的GPT o1-1217相当。此外,团队还开源了六个基于Qwen和Llama的蒸馏模型,帮助小型模型提升推理能力。
“集智百科精选”是一个长期专栏,持续为大家推送复杂性科学相关的基本概念和资源信息。作为集智俱乐部的开源科学项目,集智百科希望打造复杂性科学领域最全面的百科全书,欢迎对复杂性科学感兴趣、热爱知识整理和分享的朋友加入,文末可以扫码报名加入百科志愿者!
冉天枢、范卓仪、宁定扬、王志鹏、Ricky、潘琳莉、袁冰、张江 | 作者
目录
1.1 DeepSeek系列模型
3. DeepSeek-R1发布带来的社会影响
1. 背景
1. 背景
1.1 DeepSeek系列模型
2023年7月,国内大型私募基金幻方量化成立了子公司深度求索,他们储备了过万张A100和H800计算显卡,开启了半年迭代一版大模型的探索历程:
-
2024年1月,深度求索发布了第一代模型,DeepSeekMoE系列,最大的版本有67B参数,确立了混合专家模型 (MoE) 架构路线,能大幅减少训练和生成期间的成本。另外,DeepSeekMoE发现了细粒度多数量Expert模块以及设立独立的共享Expert模块能获得更加稳定且更好的效果。
-
2024年5月,深度求索发布了第二代模型,DeepSeek-v2,最大的版本有273B参数。其中最重要的创新是多头潜在注意力机制 (Multi-head Latent Attention,MLA)。MLA能大幅降低模型在生成(推理)阶段的显卡缓存占用,据报告可降到原先的5%-13%,因而可以大大提高其在生成阶段的效率。这一创新,配合其他创新使得DeepSeek-v2的生成文字的成本降到只有每百万token一块钱。
-
2024年12月,深度求索发布了第三代模型,DeepSeek-v3,最大的版本有671B参数。v3采用了多token预测训练(Multi-Token Prediction, MTP)技术以及无损负载均衡技术,在训练过程大幅提高模型能力,最终使得其模型能力比肩GPT-4o的最新版本。此外,DeepSeek-v3还第一次证明了大规模fp8混合精度训练的可行性,提出了DualPipe算法来重叠集群间计算和通信的开销,以及针对MoE架构的PD分离策略等各种技术。
2. 技术特点
2. 技术特点
2.1 DeepSeek-R1-Zero与强化学习

推理过程中DeepSeek-R1-Zero在训练集上的平均响应时间。DeepSeek-R1-Zero⾃然⽽然地学会了⽤更多的思考时间来解决推理任务
2.2 DeepSeek-R1-Zero 的顿悟时刻

2.3 冷启动数据与多阶段训练
2.3.1 冷启动数据
2.3.2 多阶段训练
总的来说,Deepseek-R1的训练分为四阶段,两个监督式微调阶段,两个RL阶段:
-
第一阶段:冷启动监督微调,培养正确(符合人类偏好)的语言习惯、激发模型的推理潜能。
-
第二阶段:大规模强化学习,本阶段专注于提升模型的推理密集任务的能力,并训练模型在回答问题时应保持语言一致。
-
第三阶段:大规模监督微调,结合更广阔领域的数据,提高模型其他方面的通用能力。本阶段还对推理任务和非推理任务进行分开训练。
-
第四阶段:进一步强化学习,从而进一步提高推理能力和响应的有效性,并减少其输出的有害内容。
2.4 蒸馏技术
2.5 性能表现

2.5.1 教育领域任务
在MMLU、MMLU-Pro和GPQA Diamond等知识基准测试表明,DeepSeek-R1 在STEM(科学、技术、工程和数学)相关问题上相比 DeepSeek-V3 具有显著的改进。研究者将其归因于大规模强化学习(reinforcement learning, RL)的使用。
-
MMLU (Massive Multitask Language Understanding) 是一项涵盖多学科、多领域的大规模基准测试,旨在评估语言模型在不同任务和学科中的表现。这些任务包括人文、科学、社会科学和数学等多个领域的高中至专业水平的问题。DeepSeek-R1在MMLU基准测试中取得了 90.8% 的Pass@1准确率,显著优于 DeepSeek-V3,展示了其强大的知识处理和推理能力。
-
MMLU-Pro是一个更加复杂和鲁棒的多任务语言理解基准,设计用于挑战模型在更高难度任务中的表现。与MMLU相比,MMLU-Pro更强调推理能力和跨领域的综合性。DeepSeek-R1 在这一基准中取得了 84.0% 的准确率,超越了 DeepSeek-V3,并在挑战性更高的任务中展现了卓越的推理能力。
-
GPQA Diamond (Graduate-Level Google-Proof Q&A Benchmark) 是一个针对研究级问答任务设计的基准,问题往往需要复杂的推理和深度分析才能回答。DeepSeek-R1 在这一基准中的表现达到 71.5% 的 Pass@1 准确率,显著高于 DeepSeek-V3,进一步证明了其在处理复杂问题上的潜力。
2.5.2 长上下文任务
DeepSeek-R1 在FRAMES(依赖长上下文的问答任务)基准测试中展现了强大的文档分析能力。
-
FRAMES 是一项评估模型在长上下文环境中问答能力的基准测试,旨在检测其文档分析和信息提取能力。DeepSeek-R1 在该测试中取得了 82.5% 的准确率,远超 DeepSeek-V3,展现了其在复杂文档分析任务中的显著优势。
2.5.3 事实性问答
2.5.4 指令执行与规范化输出
DeepSeek-R1 在IF-Eval基准测试中表现优异。这个测试专注于评估模型遵循格式指令(format instructions)的能力。这些改进主要归因于监督微调(supervised fine-tuning, SFT)和强化学习(RL)后期阶段中指令遵循数据的引入:
-
IF-Eval (Instruction Following Evaluation) 旨在评估模型遵循格式化指令的能力,是衡量其在严格指令执行中的表现的重要基准。DeepSeek-R1 在 IF-Eval 中表现卓越,得益于训练过程中加入了指令遵循数据。这种改进显示出 DeepSeek-R1 在格式化和结构化任务中的显著优势。
2.5.5 写作和开放问答任务
在AlpacaEval2.0和ArenaHard基准测试中,DeepSeek-R1 表现出色,进一步表明其在写作任务和开放问答(open-domain question answering)中的优势,强调了大规模强化学习的泛化优势,不仅增强了推理能力,还提升了跨领域的表现能力。此外,DeepSeek-R1 生成的摘要长度简洁,表明 DeepSeek-R1 在基于 GPT 的评估中避免了引入长度偏差(length bias),进一步巩固了其在多任务中的稳健性。
-
AlpacaEval 2.0 是一个评估模型在开放式问答任务中能力的基准,测试模型在非考试导向任务(如写作和回答复杂问题)中的表现。DeepSeek-R1 在这一基准中实现了 87.6% 的胜率(win-rate),显著优于 DeepSeek-V3,证明了其强大的写作能力和开放域问答能力。
-
ArenaHard 是一个以对话评估为主的高难度基准测试,使用 GPT-4 作为裁判来比较模型在复杂对话中的表现。DeepSeek-R1 在该基准中实现了 92.3% 的胜率,展现了其在复杂对话任务中的优越性能,同时避免了由于输出长度导致的偏差。
2.5.6 数学和编程任务
在数学(如AIME 2024 和MATH-500)和编程任务(如LiveCodeBench和Codeforces)中,DeepSeek-R1 的表现显著优于其他模型,并与OpenAI-o1-1217 相当。
-
AIME,全称 American Invitational Mathematics Examination,是一项面向中学生的高水平数学竞赛,其难度介于 AMC(美国数学竞赛)和 IMO(国际数学奥林匹克竞赛)之间,享有极高的声誉与含金量。与 AMC 相比,AIME 的试题更具挑战性,需要参赛者具备更强的数学推理能力和问题解决技巧。同时,AIME 也是选拔美国数学奥林匹克竞赛(USAMO)和国际数学奥林匹克竞赛(IMO)国家队的重要环节之一。在这一测试中,DeepSeek-R1 达到了 79.8% 的 Pass@1 准确率,略高于 OpenAI o1-1217 模型的 79.2%。这一结果表明,DeepSeek-R1 具备以较高准确率解决高中生水平复杂数学问题的能力。
-
MATH-500 数据集收录了 500 道难度极高的数学竞赛题,涵盖代数、几何、数论、组合数学等多个领域。这些题目要求深厚的数学知识储备以及复杂的推理步骤才能解答。在这一测试中,DeepSeek-R1 以 97.3% 的惊人成绩表现出色,与 OpenAI 的 o1-1217 模型持平,并显著超越了其他对比模型。这一表现表明,DeepSeek-R1 已经能够胜任大学水平的数学竞赛题解答,展现了其卓越的数学推理能力。
-
Codeforces 是全球知名的编程竞赛平台,以高难度和强竞争性闻名,吸引了来自世界各地的顶尖程序员参赛。其竞赛题目通常需要选手具备扎实的算法和数据结构知识,以及优秀的编程能力。在 Codeforces 平台上,DeepSeek-R1 获得了 2029 的 Elo 评分,超过了 96.3% 的人类程序员。这一结果表明,DeepSeek-R1 的编程能力已经超越了绝大多数人类程序员,成为算法和编程领域的强大竞争者。
2.5.7 蒸馏模型的性能评价
2.6 开源贡献
DeepSeek团队开源了以下模型,可以在 GitHub 主页下载:
-
DeepSeek-R1-Zero
-
DeepSeek-R1
-
六个基于Qwen和Llama的蒸馏模型
2.7 应用场景
-
推理密集型任务:例如编程任务中的代码生成、算法设计,以及数学问题求解、科学推理和逻辑分析等需要复杂推理的场景。
-
教育与知识应用:可用于解决教育领域的问题,支持知识理解与解答。
-
文档分析与长上下文理解:适合处理需要深入文档分析和理解长上下文的任务,例如复杂信息提取与整合。
-
开放领域问答与写作:在内容生成、问题回答以及创造性写作中具有广泛应用,例如生成高质量文本或进行内容编辑。
-
数据分析与搜索:在数据处理与智能搜索中展现出应用潜力,能够高效解析复杂信息。
2.8 未来展望
3. DeepSeek-R1发布带来的社会影响
3. DeepSeek-R1发布带来的社会影响
3.1 社会影响
以下是该模型发布所产生的主要社会影响:
-
中国科技创新的标志性事件
-
技术突破的象征:DeepSeek-R1 的发布被视为中国在人工智能领域取得重大突破的标志,尤其是在推理能力方面,展示了中国在高端技术研发上的实力。 -
国际影响力的提升:该模型的成功发布进一步巩固了中国在全球人工智能领域的地位,被视为中国科技创新崛起的重要里程碑。
-
对美国科技行业的影响
-
科技股票波动:DeepSeek-R1 的发布引发了美国科技股票市场的震荡,尤其是英伟达等公司的股价出现下跌。市场担忧中国在人工智能领域的快速进步可能削弱美国企业的竞争优势。 -
企业调查与竞争压力:OpenAI 等美国科技公司对 DeepSeek-R1 的技术细节展开调查,试图了解其技术优势并制定应对策略。这加剧了中美科技企业之间的竞争。
-
美国政府与政策反应
-
技术封禁的讨论:有报道称,美国政府正在考虑对 DeepSeek-R1 模型实施封禁或限制,以防止其技术在美国的广泛应用。这一举措反映了美国对中国技术崛起的警惕。 -
出口管制与制裁:美国政府可能进一步加强对人工智能相关技术的出口管制,限制中国获取高端芯片和关键技术,以遏制中国在人工智能领域的发展。
-
对全球科技格局的影响
-
技术竞争加剧:DeepSeek-R1 的发布加剧了中美两国在人工智能领域的技术竞争,促使其他国家加快相关技术的研发和投资。
3.2 相关事件
-
2025年1月27日,DeepSeek超越ChatGPT,登顶苹果App Store美国区免费APP下载排行榜。[4]
-
2025年1月27日起,DeepSeek的服务器受到大规模网络攻击,许多用户无法登录或注册,或者进行对话。[5]
-
2025年1月28日,DeepSeek表示,为持续提供服务,暂时限制中国以外号码的注册。[5][6]
-
OpenAI表示,其有证据表明DeepSeek使用OpenAI的专有模型来训练自己的开源模型,这违反了OpenAI的服务条款。[7]
参考文献
本词条由集智俱乐部众包生产,难免存在纰漏和问题,欢迎大家留言反馈或者前往对应的百科词条页面进行修改,一经修改,可以获得对应的积分奖励噢!
加入我们
我们需要的帮助
编写新的集智百科词条,涵盖复杂系统、人工智能等多个领域
更新和完善现有词条,确保信息的准确性和时效性
我们希望你具备
良好的写作能力,能够清晰、简洁地表达复杂的概念
对某一领域有深入了解或浓厚兴趣
具备基本的网络搜索和信息整理能力
有责任心和团队合作精神,愿意为知识共享贡献力量

大模型2.0读书会启动
o1模型代表大语言模型融合学习与推理的新范式。集智俱乐部联合北京师范大学系统科学学院教授张江、Google DeepMind研究科学家冯熙栋、阿里巴巴强化学习研究员王维埙和中科院信工所张杰共同发起「大模型II:融合学习与推理的大模型新范式 」读书会,本次读书会将关注大模型推理范式的演进、基于搜索与蒙特卡洛树的推理优化、基于强化学习的大模型优化、思维链方法与内化机制、自我改进与推理验证。希望通过读书会探索o1具体实现的技术路径,帮助我们更好的理解机器推理和人工智能的本质。
从2024年11月30日开始,预计每周六进行一次,持续时间预计 6-8 周左右。欢迎感兴趣的朋友报名参加,激发更多的思维火花!
详情请见:大模型2.0读书会:融合学习与推理的大模型新范式!
推荐阅读
6. 加入集智,一起复杂!
点击“阅读原文”,报名读书会