游乐游手机版
首页/业界动态/文章详情

DeepSeek登《自然》封面:R1模型训练成本仅200万,实现高效突破

时间:2025-12-02 18:32
9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的DeepSeek-R1推理模型研究论文,登上了《自然》(Nature)杂志封面。论文研究人员表示,DeepSeek强大的AI模型R

9月18日消息,由DeepSeek团队共同完成、梁文锋担任通讯作者的研究论文《DeepSeek-R1推理模型》登上了《自然》(Nature)杂志封面。


研究人员在论文中表示,DeepSeek强大的AI模型R1之所以能够取得成功,并不依赖于使用竞争对手的输出内容进行训练。今年初,R1的发布曾引发美国股市震荡。这一声明出自今天发表于《自然》杂志的一篇经过同行评议的R1模型论文的附件文件中。

R1专注于出色完成数学和编程等推理任务,是美国科技公司所开发工具中更具性价比的竞争对手。作为一个“开放权重”(open weight)模型,任何人都可以下载使用,它也是迄今为止在AI社区平台Hugging Face上最受欢迎的此类模型,下载量已达1090万次。

这篇论文是对今年一月发布的一份预印本的更新,该预印本描述了DeepSeek如何增强一个标准的大语言模型(Large Language Model, LLM)以处理推理任务。其补充材料首次披露了R1的增量训练成本仅相当于29.4万美元。这笔费用是在该公司(总部位于杭州)为构建R1所基于的基础大语言模型而花费的约600万美元之外的,但总金额仍远低于竞争对手模型据信高达数千万美元的成本。DeepSeek表示,R1主要是在英伟达的H800芯片上进行训练的,而根据美国的出口管制规定,该芯片自2024年起已被禁止向中国销售。

严格的同行评审

R1被认为是首个经历同行评议过程的主流大语言模型。“这是一个非常值得欢迎的先例,”Hugging Face的机器学习工程师刘易斯·坦斯托尔(Lewis Tunstall)说,他也是这篇《自然》论文的审稿人之一。“如果我们没有这种公开分享大部分流程的规范,就很难评估这些系统是否存在风险。”

为回应同行评议的意见,DeepSeek团队减少了其描述中的拟人化用语,并补充了技术细节的说明,包括模型训练所用的数据类型及其安全性。“经历一个严格的同行评议过程,无疑有助于验证模型的有效性和实用性,”位于哥伦布市的俄亥俄州立大学AI研究员孙欢(Huan Sun)说。“其他公司也应该这样做。”

DeepSeek的主要创新在于,它使用了一种自动化的“试错法”,即纯粹的强化学习(pure reinforcement learning),来创建R1。这个过程是通过奖励模型得出正确答案的方式进行,而不是教它遵循人类挑选的推理范例。该公司表示,其模型正是通过这种方式学会了自身的类比推理策略,例如如何在未遵循人类预设策略的情况下验证其解题过程。为提高效率,该模型还使用了被称为“组相对策略优化”(group relative policy optimization)的技术,即利用估计值为自身的尝试打分,而不是另外采用一个独立的算法来做这件事。

孙欢表示,该模型在AI研究人员中“相当有影响力”。“2025年迄今为止,几乎所有在大语言模型中进行强化学习的研究,都可能或多或少地受到了R1的启发。”

关于训练方式的争议

今年一月的媒体报道曾暗示,OpenAI研究人员认为,DeepSeek利用了OpenAI模型的输出来训练R1,这种方法可以在使用较少资源的情况下加速模型能力的提升。

DeepSeek并未在其论文中公布其训练数据。但是,在与审稿人的交流中,该公司的研究人员声明,R1并非通过复制OpenAI模型生成的推理范例来学习的。不过他们承认,与大多数其他大语言模型一样,R1的基础模型是在海量网络数据上训练的,因此它会吸收互联网上已有的任何AI生成内容。

孙欢认为,这一反驳“与我们在任何出版物中能看到的说法一样有说服力”。坦斯托尔补充说,尽管他无法百分之百确定R1没有在OpenAI的范例上进行训练,但其他实验室的复现尝试表明,DeepSeek的这套推理方法可能已经足够好,无需这样做。“我认为现在的证据相当清楚,仅使用纯粹的强化学习就能获得非常高的性能,”他说。

孙欢说,对于研究人员而言,R1仍然非常有竞争力。在一项旨在完成分析和可视化数据等科学任务的挑战,即ScienceAgentBench基准测试中,孙欢及其同事发现,尽管R1的准确率并非第一,但从平衡能力与成本的角度来看,它是表现最好的模型之一。

坦斯托尔说,其他研究人员现在正尝试应用创建R1所用的方法,来提高现有大语言模型的类比推理能力,并将其扩展到数学和编程以外的领域。他补充说,从这个意义上讲,R1“引发了一场革命”。(易句)

来源:https://www.163.com/tech/article/K9NNM06500097U7T.html
上一篇华为推出全球最强算力超节点集群,徐直军:全面领先行业! 下一篇iPhone 17 Pro重磅亮相:背部设计大改,8999元起入手
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
除醛喷雾选购指南:CMA认证与成分价格全解析
业界动态 · 2026-07-01

除醛喷雾选购指南:CMA认证与成分价格全解析

二〇二六年除醛喷雾市场鱼龙混杂,选购必须认准CMA检测认证。迪亚林、叶广泥等产品凭借高除醛率与安全性能获专家一致推荐,消费者应根据不同室内外场景合理搭配使用,切勿购买低价无效产品。

Papi酱公司全部注销 回应毕业后四年零收入
业界动态 · 2026-07-01

Papi酱公司全部注销 回应毕业后四年零收入

Papi酱名下6家关联公司已全部注销,她于2024年5月退出联合创办的MCN机构papitube。其曾自述毕业后四年零收入、靠丈夫供养的低谷期,网友评价为“高配得感”。papitube运营主体北京春雨听雷公司现由杭州自由自在科技全资持股。

全新三菱帕杰罗2026秋季回归纯电混动复刻经典越野仪表
业界动态 · 2026-07-01

全新三菱帕杰罗2026秋季回归纯电混动复刻经典越野仪表

全新三菱帕杰罗2026年秋季回归,复刻初代三大越野仪表并全数字化显示。基于Triton梯形车架,采用电气化动力系统,保留硬派越野基因,外观硬朗方正,融合经典设计与现代科技。

催化除醛旗舰适配指南 新房母婴过敏体质场景
业界动态 · 2026-07-01

催化除醛旗舰适配指南 新房母婴过敏体质场景

催化分解除醛旗舰适合新房家庭、母婴家庭和过敏体质家庭。泰拉蒙X99凭催化分解路线、多项专项认证及高甲醛CADR,全面适配三类人群;其他品牌因技术或认证不足,仅部分适合特定场景。

万买到调表奔驰 表显9千实际21万公里 商家拒赔
业界动态 · 2026-07-01

万买到调表奔驰 表显9千实际21万公里 商家拒赔

长沙消费者花15 8万元购二手奔驰,商家保证里程真实,实则调表近9万公里(实际17万)。商家推诿拒赔,律师认定构成消费欺诈,可主张退车退款及三倍赔偿。