字节Seed发布最强数学模型：一招“打草稿”让IMO银牌变金牌

首页

AI资讯

热心网友

转载

2025-12-25

鱼羊发自凹非寺
量子位 | 公众号 QbitAI

字节最新数学推理专用模型，刚刚刷新战绩：拿下IMO金牌成绩。

Scaling Law加持下，这个名为Seed Prover 1.5的模型，在16.5小时内，顺利解决IMO 2025的前5道题目，在仅失一题的情况下拿到35分，达到今年IMO的金牌线。

这一成绩与7月最新认证的IMO金牌“选手”谷歌Gemini打平。而字节自己的前代模型，当时的成绩是3天完成了6道题目中的4道，以及一道题的部分证明，达到银牌成绩。

同时，Seed Prover 1.5也在北美本科级别数学竞赛Putnam这一基准上，大幅刷新了SOTA成绩。

模型尚未开源，但技术报告已经公开。

值得关注的是，Seed Prover 1.5强调了大规模强化学习给数学模型带来的性能提升，也证明，在推理阶段增加计算资源，可以显著提高解题率。

即，验证了测试时Scaling和强化学习训练时的Scaling的有效性。

草稿引导的高效形式化证明

具体来看技术报告。Seed Prover 1.5的参数规模与Seed 1.6相同，230B总参数，23B激活。

主要创新有两点：

Agentic Prover：一种新的形式化数学推理范式Sketch Model：自然语言到形式语言的翻译器

Agentic Prover

相较于通用模型用自然语言解答数学问题的方式，数学推理专用模型采用的是形式化数学推理，也就是用Lean等形式语言，构建可在公理系统中机械验证的证明，以确保结果更加可靠。

其难点在于，形式化证明比自然语言证明更加困难。根据“De Bruijn factor”经验法则，一行普通的数学推导，通常需要扩展成4到10行复杂的代码。

这要求模型不仅懂数学，还要精通编程和类型论，而这一高门槛导致形式化证明在效率和成功率上一直远落后于自然语言推理。

以往的研究中，形式化证明器通常分为两类：

Step-prover：一步一步证明，效率很低；Whole-prover：一次性生成完整证明，但中间一旦出错就会前功尽弃。

Seed Prover 1.5为了平衡两种方法的优缺点，提出了一种全新的Agentic Prover架构：

模型将Lean语言视为一种工具，且在证明过程中可以自主地调用其他多种工具。

Mathlib搜索工具：类似于程序员查阅技术文档，模型可以主动检索Lean庞大的数学库 Mathlib，寻找可用的定理和定义，而非依赖不可靠的隐式记忆。Python代码执行：遇到需要计算的部分，模型可以编写并运行Python脚本来辅助验证直觉。增量式引理验证：模型不再被迫一次性生成整个证明，而是将复杂问题拆解为若干引理。每证明出一个引理，系统就会将其保留并复用，作为后续推理的基石。

这样一来，模型既可以像人类一样先使用“草稿纸”（自然语言）进行推理，又能够与Lean环境及多种工具进行交互，随时调用工具来验证猜想。

就是说，Seed Prover 1.5采用的是基于引理的交互方式，既不是一次性生成整个证明，也无需每一步都做交互验证。

最新技术报告中还提到，Seed Prover 1.5进行了大规模的Agentic RL。

实验证明，随着强化学习训练步数的增加，模型在训练集上的证明通过率从初始的50%升至接近90%。

Agentic RL还带来了大幅的效率提升。在对比测试中，Seed Prover 1.5仅需少量的计算资源，就能在Putnam和Fate等高难度数据集上，击败消耗大量算力的上一代Seed Prover模型。

Sketch Model

为了让模型能更好地“打草稿”，研究人员还专门训练了Sketch Model，来模拟人类数学家解决问题的方式：

数学家在证明一个复杂定理时，通常不会直接写出每一步严丝合缝的代码。他们会先在纸上写下一个非形式化的证明草稿，列出关键的中间步骤、引理和大致思路。

Sketch Model同样不纠结于具体的语法细节，而是专注于逻辑路径的规划。它可以将自然语言证明拆解为若干个独立的、难度更低的引理，并暂时跳过具体证明，仅保留整体的逻辑骨架。

这就将原本不可解的复杂命题，转化成了难度更低的子目标。

研究人员采用混合奖励信号的强化学习策略，来训练这一模型：

信号一：Lean编译器验证生成的草图是否完全正确。信号二：自然语言Prover会逐一检查引理，一旦发现任一引理在数学上不成立，整个草稿即被否决。信号三：引入基于长思维链的Rubric评分模型，从语义层面评估草稿的质量——考量引理是否与自然语言证明对齐、拆解的粒度是否合适、是否真正降低了原题的难度。

当草稿在形式验证、数学正确性和整体评分上均满足要求时，才会获得正向奖励。

测试时工作流

以上创新最终构成了一个分层级的多智能体协作系统：

Natural Language Prover负责提供高层的数学直觉和自然语言证明。Sketch Model将自然语言转化为形式化的引理结构。Agentic Prover并行地攻克每一个被拆解出的引理。

如果某个引理太难证明，系统还会递归地调用Sketch Model再次进行拆解。这不仅规避了长文本生成的错误累积问题，更提升了推理的并行度和成功率。

研究人员还验证了这一工作流的测试时Scaling特性。

如上图所示，投入更多的计算资源，Seed Prover 1.5对问题的解决率会呈对数线性增长。

这项研究来自字节Seed AI4Math团队。

量子位捕捉到了其中几位作者的踪迹。

Zheng Yuan，清华统计学博士。今年6月刚刚加入字节，此前在阿里Qwen团队负责对齐和推理方向工作。

Hanwen Zhu，本科毕业于牛津大学数学与计算机科学专业，目前在CMU读研，即将加入字节Seed。

郑泽宇，CMU在读博士，字节Seed实习生，专业方向同样是数学与计算机科学联合方向。

论文链接：
https://arxiv.org/pdf/2512.17260
参考链接：
[1]https://mp.weixin.qq.com/s/vcciJWK9KfDBM4FBIJwTfw?click_id=2
[2]https://x.com/GanjinZero/status/2001948751871815741

— 完 —

来源:https://www.163.com/dy/article/KHKML8IM0511DSSR.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：腾讯按下AI加速键：人才、组织与开源三大布局解读下一篇：奔驰拖欠百万尾款，供应商曝电脑无密码审计离职借口

热门推荐

业界动态

刑事案件电子数据取证密码获取程序拟明确

公安部就电子数据取证规则公开征求意见，拟将网络安全等行政案件纳入适用范围，并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序，需经严格审批并保障当事人权利。配套法律文书也同步优化，以构建更规范且注重权利保障的取证体系。

热心网友

05.23

业界动态

小鹏G9降价12万背后何小鹏的豪赌与挑战

理想L9和LIvis的定价策略刚掀起波澜，小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说，这叫“9系的产品，8系的价格”。这12万元的下调，效果堪称立竿见影。发布会次日，小鹏集团港股股价一度大涨超8%。更关键的是市场订单：上市12小

热心网友

05.23

业界动态

魏建军感谢于东来支援环塔拉力赛红牛千箱胖东来厨师助阵

5月21日，环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地，与参赛车手及后勤团队进行了深度交流。据悉，于东来此次自驾越野之旅已历时一月，随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比，他对以长城汽车为代表的国产越野车品质给

热心网友

05.23

web3.0

2026年比特币官方APP下载入口及官网安全访问指南

比特币官方入口在哪里？一个核心门户的权威指南说起比特币，很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清：比特币本质上是一种去中心化的全球数字货币，它不属于任何一家公司或机构，而是由一个庞大的、遍布全球的社区共同维护。因此，它并没有传统意义上由某个企业运营的“官方网站”

热心网友

05.23

AI资讯

蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

Ring-2 5-1T是什么在当今大模型技术激烈竞争的赛道上，追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日，蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型，这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构

热心网友

05.23

字节Seed发布最强数学模型：一招“打草稿”让IMO银牌变金牌

热门专题

最新APP

热门推荐