DeepSeek登《自然》封面:R1模型训练成本仅200万,实现高效突破
9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的研究论文《DeepSeek-R1推理模型》登上了《自然》(Nature)杂志封面。

研究人员在论文中表示,DeepSeek强大的AI模型R1之所以能够取得成功,并不依赖于使用竞争对手的输出内容进行训练。今年初,R1的发布曾引发美国股市震荡。这一声明出自今天发表于《自然》杂志的一篇经过同行评议的R1模型论文的附件文件中。
R1专注于出色完成数学和编程等推理任务,是美国科技公司所开发工具中更具性价比的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载使用,它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型,下载量已达1090万次。
这篇论文是对今年一月发布的一份预印本的更新,该预印本描述了DeepSeek如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型而花费的约600万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2024年起已被禁止向中国销售。
严格的同行评审
R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”
为回应同行评议的意见,DeepSeek团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”
DeepSeek的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类比推理策略,例如如何在未遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估计值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。
孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。”
关于训练方式的争议
今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。
DeepSeek并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。
孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。
孙欢说,对于研究人员而言,R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。
坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类比推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)
相关攻略
中国科学院付巧妹团队从约40万年前直立人牙齿化石中提取古蛋白,首次获得该谱系遗传证据。研究证实东亚直立人独立演化,其部分基因可能经丹尼索瓦人融入现代智人。该成果将古蛋白研究时间线大幅推进,并建立微损取样与验证新方法,为破解更古老人类演化谜题提供新范式。
贺思慕一开始就对段胥充满怀疑,看他哪哪都很奇怪有问题。但又敢凑在他跟前,也敢信任他,帮助他。一个原因是她自己就很厉害,根本不怕他会对她不利。另一个原因也是她懂得洞察人,识人这一块,她一个活了几百年的
新华社北京3月29日电 专访|中国“十五五”有科技雄心,更有实现途径——访英国《自然》杂志总编辑斯基珀 新华社记者黄堃 吕岩昊 “这为中国科技发展树立了很好的雄心,并且重要的是,还提供了实现
李相如摄。罕见病是生命科学和医学研究的天花板,在这一领域中存在太多未知。2月28日,恰逢世界罕见病日,医学循证推理智能体前沿技术论坛暨DeepRare成果发布会在上海交通大学徐汇校区人工智能学院举
马年新春,两项重磅科研成果在同一天(2月19日)登上国际顶级期刊nature(《自然》)。2月27日,上海交通大学医学院举行近期服务国家重大战略科研成果新闻通气会,发布这两项成果。它们分别聚焦人工
热门专题
热门推荐
MiniCPM-o 4 5是什么 在探索更自然、更智能的人机交互道路上,我们始终在期待一个“全能型选手”的到来。如今,这个角色或许已经登场。面壁智能最新开源的MiniCPM-o 4 5,一个仅拥有90亿参数的全模态大模型,正致力于重新划定“智能对话”的边界。 它彻底颠覆了传统一问一答的“对讲机”式交
Binance币安 欧易OKX ️ Huobi火币️ 想在2025年安全获取欧易OKX的正版APP?其实秘诀就一个:认准官方网站,避开所有仿冒和可疑的下载渠道。要知道,欧易现已统一更名为欧易OKX,其核心业务始终围绕数字资产交易及相关服务展开。 确认官方网站地址 第一步,打开浏览器,手动输入欧易OK
SecondMe Book是什么 在AI社交这一前沿赛道,一款国产平台正带来独特的解决方案。SecondMe Book,本质上是一个能够让你构建个人AI数字分身的创新平台。它允许用户创建一个能够代表真实自我风格与思维的AI数字身份,并让这个“第二自我”在一个专属的AI社交网络中自主运行——包括主动发
在AI大模型技术快速发展的今天,如何在卓越性能与高效推理成本之间取得最佳平衡,已成为行业关注的核心焦点。近期,由阶跃星辰推出的开源模型Step 3 5 Flash引发了广泛热议。该模型专为智能体(AI Agent)应用场景深度优化,旨在顶尖能力与亲民部署成本之间,构建一个极具竞争力的技术支点。 简而
LongCat-Flash-Lite是什么 在探索大语言模型性能与效率的最佳平衡点时,美团近期推出的LongCat-Flash-Lite提供了一个极具创新性的解决方案。作为新一代高效大语言模型,它凭借其突破性的架构设计,在人工智能领域获得了广泛关注。 简而言之,该模型创新性地融合了“混合专家系统(M





