字节形式化数学推理模型Seed+Prover 1.5发布,提升智能证明效率
近日,字节跳动Seed团队正式发布了新一代形式化数学推理专用模型Seed Prover 1.5。通过大规模Agentic RL训练,该模型在推理能力和效率上均取得了显著进步。相比上一代模型,Seed Prover 1.5在短短16.5小时内,便针对IMO 2025竞赛的前五道题目,生成了完整且可编译验证的Lean证明代码。换算成竞赛成绩为35/42分,已达到历届IMO金牌分数线。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在北美本科级别数学竞赛Putnam的测试中,Seed Prover 1.5仅用时9小时,就为2025年赛题中的11道题目生成了可编译验证的Lean代码。在更系统的评估中,它的表现同样出色:在完整的Putnam历史评估集上解决了88%的问题;在代表硕士数学难度的Fate-H和代表博士生数学难度的Fate-X评估集上,分别解决了80%和33%的问题,刷新了形式化数学推理模型在这几项基准测试上的最佳纪录。

Seed Prover 1.5 在多个评估集上与此前其他最佳方法的比较
目前,Seed Prover 1.5的技术报告已对外公开。团队后续将开放API,邀请感兴趣的数学与AI研究者亲身体验该模型。
相关攻略
随着 ES2026 (ES17) 正式引入 显式资源管理,JavaScript 终于迎来了 using 关键字。这一特性的出现,直接终结了多年来的手动清理时代,让代码量实现了真正意义上的“断崖式”减
编辑 | 王凤枝一个59 8MB的map文件,把Anthropic最核心的编程产品扒了个干净。这不是黑客攻击,不是内部泄密,就是发布时忘了删。3月31日,安全研究员Shou Chaofan在npm注
智通财经APP获悉,中信证券发布研报称,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更
中信证券认为,2026年以来,国产大模型厂商聚焦Agent及代码能力升级,竞相发布新模型。即将发布的DeepSeek下一代新模型有望延续高性价比开源模型路线,在能力上实现更强记忆功能与超长上下文处理
新智元报道编辑:peter东【新智元导读】一位开发者用四天时间,让AI「盲移植」了拥有37年历史的SimCity代码库。整个过程无人阅读一行原始C代码,仅靠AI生成与自动化测试验证。当AI开始重写软
热门专题
热门推荐
百度网盘个人版如何转企业版?完整切换步骤详细指南 当个人网盘难以满足团队文件共享与协作需求时,百度网盘提供的企业版无疑是高效解决方案。本文将为你详细解析如何直接在百度网盘App内,将个人账户一键切换至功能更强大的企业版,快速开启团队文件管理新模式。 第一步:进入个人中心页面 首先,请确保已安装并打开
“AI+eSIM”云智终端方案正式商用,首批合作项目5G AI CPE成功落地 在MWC 2026世界移动通信大会上,产业合作迎来重大进展。由全球移动通信系统协会(GSMA)与中国联通共同倡导的“‘AI+eSIM’云智终端合作联通方案”正式对外发布,并迅速完成首个商业化项目签约。中国联通联合通则康威
洛克王国世界水泡壳技能搭配完全指南:打造攻防一体的战术核心 世界水泡壳的技能池设计充满了战术深度,完美诠释了攻防一体的战斗哲学。无论是纯粹依靠威力压制对手的技能,还是具备控制、辅助等战略功能的技能,都能在其技能库中找到。掌握其技能搭配的核心思路,是让世界水泡壳在对战中发挥出全部潜力的关键,能够轻松取
现货比特币ETF单周吸金14 2亿美元,强势回归背后的市场信号 加密货币市场正迎来关键转折点。近期数据显示,现货比特币ETF资金流入呈现爆发式增长,成为近期最受关注的市场风向标。这不仅反映了机构资金的重新布局,更可能预示着市场供需结构的深层变化。 数据解读:创纪录的资金流入意味着什么? 根据专业追踪
河西竹篮打水奇遇触发地点指南 想要成功触发《燕云十六声》中颇具趣味的“竹篮打水”奇遇,玩家需要首先前往河西地图的特定区域进行探索。该触发点位置较为隐蔽,建议在河西沿岸的村落与水边场景多番巡视。当你接近正确位置时,可以留意游戏内的环境暗示,例如独特的视觉标识、背景音效的变化或氛围的微妙转变,这些都是系





