首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
DeepSeek-R1突破登顶《Nature》:200万预算实现模型革新,无OpenAI蒸馏

DeepSeek-R1突破登顶《Nature》:200万预算实现模型革新,无OpenAI蒸馏

热心网友
64
转载
2025-12-14

(公众号:)讯 DeepSeek-R1 又开先例,成为首个登上《Nature》封面的中国大模型。

2025 年春节,DeepSeek-R1 横空出世,因其极低的训练成本引发病毒式传播。八个月过去,这一成果带着 Nature 的金字招牌再次回到公众视野中央,只为一件事:技术透明。

这篇名为 DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning 的《Nature》 封面论文由创始人梁文锋担任通讯作者。文中首次确认了此前流传的DeepSeek R1 训练成本,约 29.4 万美元,折合人民币约 208 万,并进一步披露了模型训练中采用的数据类型、强化学习方案等技术细节。

在揭开这一里程碑式大模型的面纱之外,这篇论文更大的意义,是 DeepSeek-R1 作为全球首个经历了同行评审的大语言模型,将大模型研究推向了更透明、可重复的方向。

此前业内通行的做法,是科技公司在自家正式、论文预印本 arXiv或知名技术论坛上发布突破性成果及基准测试分数,大部分模型 API 随后即向公众开放。这一过程绕开了传统学术评价体系中的同行评审环节,而 DeepSeek 团队则主动接受了这一来自学术界的审视。

根据 《Nature》公布的补充信息显示,评审意见主要集中在实验评估、模型安全性和伦理风险等方面,要求补充 OOD(分布外)测试、中间阶段性能分析、误用讨论等工作。正是针对上述同行评审意见,DeepSeek 团队才增加了对数据类型等训练细节的披露,并进一步证明了成果的安全性。

“这是一个非常值得欢迎的先例,“论文评审之一,Hugging Face 机器学习工程师 Lewis Tunstall 表示,”如果我们没有公开分享这一过程大部分内容的规范,那么将很难评估这些系统是否构成风险。“


公开训练细节,回应“蒸馏”质疑

那么在最新版本的论文中, DeepSeek 团队都补充了 R1 的哪些训练细节呢?

首先是训练成本,此前曾震动华尔街的 29.4 万美元数据终于得到证实。

DeepSeek-R1 登上《Nature》封面:只花了 200 万,没蒸馏 OpenAI

据补充材料介绍, DeepSeek-R1 的研究工作分为三个阶段。

第一阶段使用 A100 GPU 对 30B 参数的小模型进行实验预研,因结果表现良好,使团队有信心将规模扩大至 660B 参数的 R1-Zero 和 R1。

第二阶段的成果是 DeepSeek-R1-Zero,研究团队动用了 512 块 H800 GPU,耗时约 198 小时。

最后是 DeepSeek-R1,仍然采用 512 块 H800 GPU 的配置,但仅用时 80 小时便宣告完成。

在训练数据构成方面, DeepSeek-R1 采用了数学、编程、STEM、逻辑四大类题目。

其中数学数据集由 2.6 万道定量推理题构成,涵盖数学考试和竞赛题目,模型需逐步推理并给出最终正确答案。

编程数据集由 1.7 万道算法竞赛题与 8 千道 Bug修复题构成,其中后者全部来自真实的GitHub issue,数据集提供问题描述、含缺陷源码与部分失败的单元测试,要求模型定位并修复缺陷,使代码通过全部测试。

STEM 数据集由 2.2 万道选择题构成,覆盖物理、化学、生物等学科,模型需选出最科学准确的答案。

逻辑数据集由真实问题和合成问题共 1.5 万题构成。

此外 DeepSeek 团队还引入了通用 RL 数据以提升 DeepSeek-R1 的有用性与无害性。在训练过程中,研究人员采用了两个独立训练的奖励模型,一个针对“有用”排序数据训练,涵盖创意写作、编辑、事实问答等领域的 6.6万题,一个针对“无害”排序数据训练,由1.2 万题构成。

特别值得一提的是,在最新版论文中,DeepSeek 团队正面回应了此前关于 R1 蒸馏 OpenAI 模型的质疑。

研究团队专门为此设计了一项试验,使用 Qwen2-7B 作为基础模型时,通过大规模强化学习进行训练,该模型同样可以自主发展出各种先进推理策略。而 Qwen2-7B 的发布时间为 2024 年 6 月,显然早于所有公开的推理模型。蒸无可蒸,推理能力的优化自然源于 DeepSeek-R1 开创的强化学习方法。

DeepSeek-R1 的另一大特征是在推理过程中更频繁地使用“我”和“我们”等第一人称代词。值得一提的是,这种效果是通过精心设计的冷启动数据所实现。

论文中介绍,研究团队发现当推理过程符合第一人称视角的思维模式时,用户会认为其回应更直观且具有吸引力。为此,研究团队要求标注人员将推理轨迹转换为更自然、更贴近人类对话风格的表达,并以此作为示例提示大语言模型以类似风格重写更多。

在如此收集到的数千条 CoT 数据中进一步筛选出最终答案正确且格式清晰的,就得到了简洁、可读性强,既包含推理步骤,也涵盖最终结果的高质量冷启动数据。


双重里程碑

时隔八个月再次回顾,DeepSeek-R1 因何成为大模型史上里程碑式的论文?

有一部分答案藏在训练成本里。DeepSeek-R1 29.4 万美元的训练成本不仅只有当时同等规模模型的十分之一,而且其中仅有 1 万美元被用于构建 SFT 数据集。这意味和同行相比,它背后砍掉了大规模的监督微调。

属于人类的能力,也向人类学习,监督微调曾经是提升模型推理能力的共识。但它的局限性也很明显,对人类标注推理轨迹的依赖显著增加了模型训练成本,限制了可扩展性,人类的认知偏见也在向模型渗透。

更引人深思的问题是,复制人类思维过程真的是硅基推理的最优解吗?是否存在一种更优越的、非人类思维的推理方式?如果答案是肯定的,那一定在人类示例之外。

正是在这样的背景下,DeepSeek-R1 提出了一种通过纯粹强化学习实现推理能力自我进化发展的路径,以摆脱对人工标注推理轨迹的依赖。

具体而言,研究团队基于 DeepSeek-V3 Base,并使用组相对策略优化(GRPO)作为强化学习框架。在全新的训练范式下,仅对最终答案的正确性进行奖励,而不对推理过程本身施加约束。简单来说,就是推理方式不限,能抓到耗子就是好猫。

这种训练方案设计和研究团队的假设一脉相承:人类定义的推理模式可能会限制模型探索,而不受限制的强化学习训练能更好地激励 LLMs 中新型推理能力的出现。

实验结果表明,DeepSeek-R1-Zero 的确自然地发展出了多样化和复杂的推理行为。为解决推理问题,它表现出了生成更长响应的倾向,并且存在在每个响应中包含验证、反思和探索替代方法的趋势。

“尽管我们没有明确地教模型如何推理,但它通过强化学习成功学习了改进的推理策略。”论文指出。

展现出强大推理能力的同时,DeepSeek-R1-Zero 在可读性差和语言混杂等方面仍存在挑战。这一问题的根源在于 DeepSeek-V3 Base 是在多种语言上完成训练,为此 DeepSeek-R1 的开发被提上日程。

这一次,研究团队不仅通过多阶段强化学习训练改进模型在对话式推理过程、语言一致性以及人类偏好对齐方面的表现,而且在拒绝采样和监督微调环节将推理和非推理数据集都纳入 SFT 过程,这一设计使 DeepSeek-R1 不仅能在推理任务中表现出色,还展示出了高级的写作能力。

基准测试结果显示,脱胎于全新训练范式下的 DeepSeek-R1 在 MMLU、C-Eval、GPQA Diamond、Arena-Hard、SWE-bench Verified、AIME 2024 上均表现出色。而更直接的例子,则是在 2025 年春节之后的一段时间里,DeepSeek-R1 几乎成为了国产大模型的代名词。

LLMs 的推理能力可以通过纯 RL 进行激励,无需人工标注推理轨迹的参与。这一今天已成为共识的创想,最初就是经由 DeepSeek-R1 所实现。DeepSeek 团队在此基础上构建的 RL 框架,也促进了自我反思、验证和动态策略适应等高级推理模式的涌现。

而今天,这一突破性成果经受住了学术出版审查。主动接受专家评审的拷问,补充材料说明技术细节,并最终作为顶刊封面论文刊发……如果说 DeepSeek-R1 的初次发布是一个关于前沿技术突破的故事,那么时隔八个月之后,这个故事的关键词变成了学术透明和技术开放。

补充各种技术细节之后,《Nature》最新这篇封面论文堪称“手把手教你训 R1”。它让我们看到头部科技企业的核心成果不是只能封装成语焉不详的黑盒提供给用户,而是也可以拿到同行评审面前接受审视,以及更重要的,给出符合学术规范的解释和回应。

商业化考量让 OpenAI、Google 等科技巨头纷纷和传统的学术审查保持距离,这本无可非议,但是当 DeepSeek-R1 真的成为了可复现、可验证的学术成果,这种对技术开放性的追求无疑也让研究团队的选择更加可敬。

在双重意义上,DeepSeek-R1 都堪称里程碑。

参考资料:

https://www.nature.com/articles/s41586-025-09422-z#ethics

https://www.nature.com/articles/d41586-025-03015-6

文章

原创文章,未经授权禁止转载。详情见转载须知。

来源:https://www.leiphone.com/category/industrynews/8BobDeLeroTfVk8M.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

优化DeepSeek回答准确性的实用技巧与策略
AI
优化DeepSeek回答准确性的实用技巧与策略

提升DeepSeek回答准确性的关键在于优化提问方式。应使用STAR法则结构化描述问题,明确情境、任务、动作和结果。需主动限定回答边界,如指定角色、信息源和时效,以抑制模型幻觉。遇到错误时可进行精准反向纠错。处理复杂问题时应分步拆解,每一步给出具体约束,以获得扎实可用的答案。

热心网友
05.15
DeepSeek搭建企业文档智能检索系统教程
AI
DeepSeek搭建企业文档智能检索系统教程

DeepSeek网页版因缺乏文档索引能力,不适合直接构建企业文档检索系统。搭建此类系统需自建核心RAG链路,包括文档加载器、嵌入模型和向量数据库。具体实现可选用LangChain框架整合各模块,并针对扫描件单独进行OCR处理。系统需注意配置细节,如持久化存储和元数据管理,以确保检索结果的可追溯性。

热心网友
05.15
DeepSeek中文处理优势解析与适用场景指南
AI
DeepSeek中文处理优势解析与适用场景指南

DeepSeek在中文任务上表现出色,这得益于其针对中文的深度适配。模型训练数据主要来自中文互联网,内置中文分词与语义理解模块,能精准把握成语、政策术语及中文表达习惯。其在长文本解析、公文写作、技术文档本地化及口语转书面语等需要高语义精度和强上下文保持的任务上优势突出。使用。

热心网友
05.15
DeepSeek视频脚本分镜生成指南与实用技巧
AI
DeepSeek视频脚本分镜生成指南与实用技巧

要让DeepSeek生成可直接剪辑的视频脚本,需通过精确提示词强制规定输出结构。必须明确指定分镜编号、画面描述、口播文案和时长等字段的格式,以表格化呈现,时长需精确。口播文案应限定句长并标注停顿,分镜描述需拆解为具体动作指令。批量生成时可使用变量模板和脚本自动化处理,以确保

热心网友
05.15
DeepSeek系统提示词编写指南与高效优化技巧
AI
DeepSeek系统提示词编写指南与高效优化技巧

编写DeepSeek系统提示时,并非越详细越好。模型更倾向于简短、动词开头的指令,长篇提示易被截断或稀释注意力。用户指令的优先级通常高于系统提示。有效的系统提示主要用于锁定输出格式、定义角色行为或过滤干扰,且不应与用户指令矛盾。

热心网友
05.15

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

银河麒麟系统SSH公钥登录配置与安全远程连接指南
系统平台
银河麒麟系统SSH公钥登录配置与安全远程连接指南

在麒麟操作系统上配置SSH公钥登录,不仅能免去每次输入密码的繁琐,更能显著增强远程连接的安全性。整个过程并不复杂,核心步骤围绕密钥生成、公钥部署和服务端配置展开。本文将详细介绍几种主流方法,涵盖从自动化部署到手动配置,助你轻松完成麒麟系统SSH密钥登录设置。 一、使用ssh-keygen与ssh-c

热心网友
05.15
银河麒麟系统登录循环故障解决方法与桌面修复指南
系统平台
银河麒麟系统登录循环故障解决方法与桌面修复指南

登录循环闪退应先删 Xauthority和 ICEauthority文件、修复 tmp权限为1777、重置ukui mate dconf配置、清理磁盘空间、重装lightdm并重新配置。 在银河麒麟操作系统中输入密码后,屏幕一闪又回到登录界面,这种“登录循环”问题确实令人困扰。这通常并非硬件故障,而

热心网友
05.15
GUSD稳定币详解:项目背景、核心用途与投资风险全解析
web3.0
GUSD稳定币详解:项目背景、核心用途与投资风险全解析

GUSD是一种与美元1:1锚定的合规稳定币,由Gemini交易所发行并受纽约州金融服务部监管。其核心价值在于为加密世界提供透明、受监管的美元等价物,主要应用于交易、支付和价值存储。投资者需关注其中心化托管风险、监管政策变化及智能合约潜在漏洞,理解其作为传统金融与加密市场桥梁的定位与局限。

热心网友
05.15
Win11如何设置默认音频输出设备与调整音量
系统平台
Win11如何设置默认音频输出设备与调整音量

在Windows 11系统中,确保系统音频稳定输出到指定设备(如已连接的耳机或已配对的蓝牙音箱),核心在于正确配置默认音频输出设备。您可以通过任务栏快速设置、系统设置应用、控制面板声音对话框、音量混合器下拉菜单或Win+Ctrl+V快捷键这五种主流方案,实现即时切换或永久性配置,彻底解决声音输出错乱

热心网友
05.15
宏胜集团高管变动与业务外包调整深度解析
AI
宏胜集团高管变动与业务外包调整深度解析

宏胜集团近期发生重要人事与业务调整。总裁办主任叶雅琼、销售总经理吴汀燕、法务部部长周卓盈及生产管理科科长吴潘潘等多位高管已离职,该消息已获接近集团人士证实。与此同时,集团启动了部分非生产业务的外包运作,显示出其正在优化内部结构与运营模式。这一系列变动可能意味着公司正处于战略调整期,旨在聚焦核心业务并

热心网友
05.15