DeepSeek R1-Zero与R1的结果与分析

摘要 | R1-Zero is more important than R1(R1-Zero 比 R1 更重要)
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
上周,DeepSeek 发布了他们的新 R1-Zero 和 R1「推理」系统,该系统在 ARC-AGI-1 上的表现与 OpenAI 的 o1 系统相当。R1-Zero、R1 和 o1(低计算量)的得分都在 15%-20% 左右——与经过数年纯 LLM 扩大规模的 GPT-4o 的 5% 相比,这是一个巨大的进步。根据本周美国市场的反应,公众开始理解纯 LLM 扩大规模的局限性。然而,公众对于即将到来的推理需求仍然知之甚少。
2024 年 12 月,OpenAI 宣布了一个新的突破性 o3 系统,我们已经对其进行了验证。该系统在低计算模式下得分为 76%,在高计算模式下得分为 88%。o3 系统展示了计算机首次实际、普遍地适应全新未见问题的能力。
尽管这是一个巨大的技术新闻,但 o3 在 ARC-AGI-1 上的胜利几乎未被主流媒体报道。
这是 AI 领域和计算机科学的一个极其重要的时刻,这些系统值得研究。但由于 o1/o3 的封闭性,我们不得不依靠猜测。多亏了 ARC-AGI-1 和现在(几乎)开源的DeepSeek R1-Zero 和 R1,我们可以增加我们的理解。特别是,R1-Zero 比 R1 更重要。
R1-Zero 消除了人类瓶颈在我们的 o1 和 o3 分析中,我们推测了这些推理系统的工作原理。关键思想如下:
为问题领域生成思维链(CoT)。
使用人类专家(“监督微调”或 SFT)和自动化机器(“强化学习”或 RL)的组合来标记中间 CoT 步骤。
使用(2)来训练基础模型。
在测试时,从过程模型中迭代推理。
以下列出了用于迭代采样的技术以及 ARC-AGI-1 的得分:
注:显示的是 ARC-AGI-1 半私有得分。
随着 DeepSeek 发布新的研究成果,我们可以更好地支持我们的推测。关键的见解是,LLM 推理系统在适应新颖性(以及可靠性)方面的能力是沿着三个维度实现的:
在 CoT 过程模型训练中添加人类标签,即 SFT。
使用 CoT 搜索而不是线性推理(每步并行 CoT 推理)。
整个 CoT 采样(并行轨迹推理)。
项目(1)受到人类数据生成的限制,并限制了这些推理系统受益最多的领域。例如,MMLU 专业法律类别的得分远低于数学和逻辑类别的得分。
项目(2)和(3)受到效率的限制。o1 和 o3 在 ARC-AGI-1 上的基准测试准确率随着在测试时花费更多的推理计算量而呈对数增长,而不同的计算量分配方式则调整了曲线的 x 轴。
在我看来,DeepSeek 最有趣的事情是单独发布了 R1-Zero。R1-Zero 是一个不使用 SFT(项目 1)的模型。相反,它完全依赖于强化学习。
R1-Zero 和 R1 在 ARC-AGI-1 上的得分高度一致,分别为 14% 和 15%。DeepSeek 自己报告的基准测试得分也显示 R1-Zero 和 R1 之间存在强烈的一致性,例如在 2024 年数学 AIME 上的得分分别为 71% 和 76%(从基础 DeepSeek V3 的约 40% 上升)。
在论文中,R1-Zero 的作者表示,“DeepSeek-R1-Zero 面临的挑战包括可读性差和语言混合”,这一观点也得到了在线上的证实。然而,在我们的测试中,我们几乎没有发现任何证据表明 R1-Zero 在 ARC-AGI-1 上表现不连贯,这与该系统进行强化学习的数学和编码领域相似。
综合这些发现,可以得出以下结论:
在具有强大验证的领域中,SFT(例如人类专家标记)对于准确且清晰的 CoT 推理并非必要。
R1-Zero 的训练过程能够通过强化学习优化在 Token 空间中创建自己的内部领域特定语言(“DSL”)。
SFT 对于增加 CoT 推理领域的通用性是必要的。
这在直觉上是有意义的,因为语言本身实际上是一种推理 DSL。相同的“词汇”可以在一个领域中学习,并在另一个领域中应用,就像一个程序一样。纯粹的强化学习方法目前还无法发现一个广泛的共享词汇表,我预计这将成为未来研究的重点。
最终,R1-Zero 展示了一种潜在的无人类瓶颈的扩展模式的原型——甚至在训练数据获取本身也是如此。
DeepSeek 几乎肯定已经将目标对准了 OpenAI 的 o3 系统。重要的是要观察 SFT 是否会成为添加 CoT 搜索和采样的必要条件,或者是否可以存在一个假设的“R2-Zero”,沿着相同的对数准确率与推理规模曲线发展。根据 R1-Zero 的结果,我相信在假设的扩展版本中,SFT 不会是超越 ARC-AGI-1 的必要条件。
为可靠性付费从经济角度来看,AI 正在发生两个重大转变:
现在你可以花费更多钱来获得更高的准确率和可靠性。
训练成本正在转向推理成本。
这两个转变都将推动对推理的巨大需求,而且都不会减少对计算的需求。事实上,它们会增加对计算的需求。
AI 推理系统所承诺的回报远不止在基准测试上获得更高的准确率。阻碍更多 AI 自动化使用(例如推理需求)的首要问题是可靠性。我与 Zapier 的数百名客户交谈过,他们试图在业务中部署 AI 代理,反馈意见非常一致:“我还不信任它们,因为它们不可靠地工作。”
我之前曾论证过,朝着 ARC-AGI(人工通用智能)的进步将带来更高的可靠性。LLM(大型语言模型)代理面临的挑战是,它们需要强大的本地领域引导才能可靠地工作。更强的泛化能力需要能够适应未见过的情况。我们现在开始看到证据表明这种观点是正确的。因此,许多公司现在开始推出代理(例如 Anthropic、OpenAI、Apple 等)也就不足为奇了。
由于可靠性需求,代理将推动近期对推理的巨大需求。更广泛地说,开发者可以选择投入更多的计算资源来增加用户对系统的信任。更高的可靠性并不意味着 100% 的准确率——但你会期望系统更一致地表现出不准确。这是可以接受的,因为用户和开发者现在可以通过提示更自信地引导系统行为,即使在准确率较低的情况下。
以前对计算机来说不可能解决的问题,现在有了“价格标签”。随着效率的提升,这些价格将会下降。
推理即训练另一个重大转变发生在 LLM 系统预训练数据的来源上。以前,大多数数据要么是购买的,要么是从网络抓取的,要么是从现有的 LLM 中合成生成的(例如通过蒸馏或增强)。
这些推理系统提供了一种新的选择,即生成“真实”数据,而不是“合成”数据。AI 行业用“合成”一词来标识低质量的数据,这些数据通常通过 LLM 循环使用,以增加训练数据的总量,但收益递减。
但现在有了推理系统和验证器,我们可以创建全新的合法数据用于训练。这可以在离线状态下完成,开发者为此付费创建数据,也可以在推理时完成,最终用户为此付费!
这是一个令人着迷的经济转变,它表明,对于拥有最多付费客户的 AI 系统开发者来说,可能会出现一种权力集中失控的局面。这些客户正在为创建新的高质量数据买单……而这些数据又会改善模型……使模型变得更好,更受用户青睐……你明白我的意思了。
如果我们能够突破人类专家 CoT(思维链)的限制,并创建一个极其高效的系统,通过搜索/合成和验证来创建新数据,那么我们应该会看到大量的计算资源涌入这些推理系统,因为它们通过投入资金和原始数据就能变得更好。最终,这种类型的 AI 训练将完全取代基于人类生成数据的预训练。
结论随着对推理需求的增加变得清晰,我们将继续看到市场的调整。AI 系统的效率只会推动更多的使用,这不仅是因为杰文斯悖论(效率提高导致使用增加),还因为随着效率的提高,新的训练模式得以解锁。
由于 R1 是开放且可复现的,更多的人和团队将把 CoT(思维链)和搜索推向极限。这将更快地告诉我们真正的前沿在哪里,并将推动一波创新浪潮,增加快速实现 AGI 的可能性。
R1 的开放对世界来说是一件好事。DeepSeek 极大地推动了科学的前沿发展。
相关攻略
Lightchain AI 的加轮投资:是否值得为它错过? 加密圈的朋友们注意了!围绕 Lightchain AI 的热度正在持续上升。在成功完成15轮预售、筹集资金超过2100万美元后,他们现已启动“加轮投资(Bonus Round)”。这或许是最后的机会,让你以固定价格 0 007 美元购入 L
wefun ai是什么 想象一下,你只需要在对话框里描述一个游戏点子,几分钟后就能得到一个真正能玩的2D小游戏。这不是科幻电影里的场景,而是 wefun ai 正在做的事情。简单来说,这是一个彻底“无代码”的AI游戏生成平台,门槛低到任何人都能上手。 无论你是完全没有编程基础的游戏爱好者,还是想快速
CopyLime AI Writing Assistant是什么 如果有一款工具,能把你从面对空白文档的焦虑中解救出来,那它可能就是CopyLime AI Writing Assistant。简单来说,这是由CopyLime公司开发的一款智能写作助手,它的核心任务很明确:帮用户绕开写作障碍,快速、高
TextCortex AI Copilot是什么 说到AI写作助手,你可能听过不少,但TextCortex AI Copilot这款工具确实有些不同。它由TextCortex团队精心打造,核心目标很明确:帮你把写作这件事变得更轻松、更高效,同时产出更优质的内容。简单来说,它就像一个始终在线的智能副驾
Conker AI产品介绍 在教育科技领域,想要找到一款能真正为教师减负、为学生增效的工具,并非易事。Conker的出现,恰好瞄准了这个痛点。它是一款由AI深度驱动的测验生成工具,核心目标很明确:将教师从繁琐的题目编撰中解放出来,同时让课堂评估变得更智能、更互动。下面,我们就来拆解一下它的核心能耐。
热门专题
热门推荐
红色沙漠星之塔怎么进入 好消息是,星之塔的进入方式非常直接,它会在主线流程中自动解锁,你完全不需要提前满世界探索或者寻找隐藏入口。 当你跟随主线指引,到达星之塔所在的那片区域后,抬头就能看到它矗立在山顶。接下来要做的很简单:沿着图中这条醒目的红色路线所示的楼梯,一路向上攀登,就能直达山顶的星之塔正门
《王者荣耀世界》即将正式与玩家见面 备受期待的开放世界RPG手游《王者荣耀世界》,已经进入了上线前的最后阶段。官方释放的大量前瞻信息中,地图设计与剧情体验无疑是两大核心亮点。而作为游戏首赛季(S1)的重头戏,全新区域“姑射山”的登场,显然不仅仅是添一张新地图那么简单。它被深度植入了原创剧情,旨在为玩
红色沙漠动力核心怎么获得 想拿到动力核心,目标很明确:找到那些固定刷新的阿比斯守卫。它们常在一些特定地点徘徊,比如坍塌城门区域的悬崖边上,就是不错的狩猎场。 找到目标后先别急着动手,这里有个关键步骤能省下大量时间:在开打前,务必手动保存一下游戏。这相当于给自己买了一份“保险”,万一守卫没掉你想要的东
《王者荣耀世界》已正式官宣将于2026年4月上线 千呼万唤始出来,腾讯天美工作室的开放世界MMOARPG《王者荣耀世界》,终于敲定了2026年4月的上线日期。消息一出,玩家社区的讨论热度再次被点燃。在众多引人注目的首发角色里,“元流之子”以其鲜明的定位和独特的技能设计,成为焦点中的焦点。最近,不少玩
《王者荣耀世界》英雄获取全指南:三种核心方式,快速组建强力阵容 在《王者荣耀世界》的开放世界中开启冒险之旅,作为“元流之子”的你,最令人期待的体验莫过于招募那些熟悉与全新的英雄伙伴。无论是伽罗、东方曜等经典角色,还是“冷春”这样的原创人物,他们的独特故事与强大技能,共同构成了这个东方幻想世界的核心吸





