2025年11月28日
本文共计1072字,阅读时间约2分钟
作者 | 第一财经 刘晓洁
11月27日晚间,DeepSeek悄然在Hugging Face平台开源了全新模型——DeepSeek-Math-V2。这款专注于数学领域的模型,堪称行业首个达到国际奥林匹克数学竞赛金牌水准并开放源代码的AI。
在同步发布的技术论文中,DeepSeek透露,Math-V2在部分关键指标上超越了谷歌旗下Gemini DeepThink,并在IMO-ProofBench基准测试及近期数学竞赛中展现出卓越性能。
具体来看,在基础基准测试中,DeepSeek-Math-V2以接近99%的超高得分遥遥领先其他模型,而位列第二的谷歌Gemini DeepThink (IMO Gold)得分仅为89%。不过在难度更高的高级子集中,Math-V2获得61.9%的分数,略低于Gemini DeepThink (IMO Gold)的65.7%。
在这篇题为《DeepSeek Math-V2:迈向可验证的数学推理》的论文中,研究团队指出,大语言模型在数学推理领域取得的重要突破,标志着人工智能发展进入新阶段。若持续推进,或将深刻影响科学研究范式。
然而当前AI在数学推理方面仍面临技术瓶颈:以最终答案正确与否作为评判标准,但正确答案未必代表推理过程的严谨性。特别是数学定理证明等任务,需要严密的逐步推导而非简单数字答案,这使得传统奖励机制难以适用。
为突破深度推理的极限,DeepSeek认为有必要验证数学推理的完整性与严谨性。团队特别强调,自我验证对于延长测试时间的计算尤为关键,特别是那些尚未存在已知解决方案的开放性问题。
此次推出的Math-V2实现了从结果导向到过程导向的重要转变,展现出强大的定理证明能力。该模型不依赖大量数学题答案数据,而是通过教导AI如何像数学家一样严谨审查证明过程,从而在无人干预的情况下持续提升解决高难度数学证明题的能力。
论文中提到,Math-V2在IMO 2025和中国数学奥林匹克2024中取得金牌级成绩,并在Putnam 2024竞赛中通过扩展测试实现了接近满分的优异表现(118/120)。
DeepSeek表示,虽然仍有诸多挑战需要攻克,但这些成果表明,可自我验证的数学推理是一个可行的研究方向,有望助力开发更强大的数学AI系统。
对于DeepSeek此次发布的模型,海外社区反响热烈,网友戏称“巨鲸终于归来”。有评论感慨,DeepSeek以十个百分点的显著优势击败了谷歌的IMO金牌模型DeepThink,这一成就超出业界预期。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对会推出编程模型。”
当前,头部厂商的模型迭代已进入新一轮竞争周期。11月以来,先是OpenAI发布了GPT-5.1,几天后xAI推出Grok 4.1,紧接着上周谷歌发布Gemini 3系列引爆AI圈,“这回该轮到DeepSeek出手了”。不过,更受业界关注的仍是DeepSeek旗舰模型的更新计划,行业正期待着“巨鲸”的下一步动作。
