DeepSeek新版上线:揭秘奥数金牌解题能力的技术内幕
2025年11月28日
本文共计1072字,阅读时间约2分钟
作者 | 第一财经 刘晓洁
11月27日晚间,DeepSeek悄然在Hugging Face平台开源了全新模型——DeepSeek-Math-V2。这款专注于数学领域的模型,堪称行业首个达到国际奥林匹克数学竞赛金牌水准并开放源代码的AI。
在同步发布的技术论文中,DeepSeek透露,Math-V2在部分关键指标上超越了谷歌旗下Gemini DeepThink,并在IMO-ProofBench基准测试及近期数学竞赛中展现出卓越性能。
具体来看,在基础基准测试中,DeepSeek-Math-V2以接近99%的超高得分遥遥领先其他模型,而位列第二的谷歌Gemini DeepThink (IMO Gold)得分仅为89%。不过在难度更高的高级子集中,Math-V2获得61.9%的分数,略低于Gemini DeepThink (IMO Gold)的65.7%。
在这篇题为《DeepSeek Math-V2:迈向可验证的数学推理》的论文中,研究团队指出,大语言模型在数学推理领域取得的重要突破,标志着人工智能发展进入新阶段。若持续推进,或将深刻影响科学研究范式。
然而当前AI在数学推理方面仍面临技术瓶颈:以最终答案正确与否作为评判标准,但正确答案未必代表推理过程的严谨性。特别是数学定理证明等任务,需要严密的逐步推导而非简单数字答案,这使得传统奖励机制难以适用。
为突破深度推理的极限,DeepSeek认为有必要验证数学推理的完整性与严谨性。团队特别强调,自我验证对于延长测试时间的计算尤为关键,特别是那些尚未存在已知解决方案的开放性问题。
此次推出的Math-V2实现了从结果导向到过程导向的重要转变,展现出强大的定理证明能力。该模型不依赖大量数学题答案数据,而是通过教导AI如何像数学家一样严谨审查证明过程,从而在无人干预的情况下持续提升解决高难度数学证明题的能力。
论文中提到,Math-V2在IMO 2025和中国数学奥林匹克2024中取得金牌级成绩,并在Putnam 2024竞赛中通过扩展测试实现了接近满分的优异表现(118/120)。
DeepSeek表示,虽然仍有诸多挑战需要攻克,但这些成果表明,可自我验证的数学推理是一个可行的研究方向,有望助力开发更强大的数学AI系统。
对于DeepSeek此次发布的模型,海外社区反响热烈,网友戏称“巨鲸终于归来”。有评论感慨,DeepSeek以十个百分点的显著优势击败了谷歌的IMO金牌模型DeepThink,这一成就超出业界预期。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对会推出编程模型。”
当前,头部厂商的模型迭代已进入新一轮竞争周期。11月以来,先是OpenAI发布了GPT-5.1,几天后xAI推出Grok 4.1,紧接着上周谷歌发布Gemini 3系列引爆AI圈,“这回该轮到DeepSeek出手了”。不过,更受业界关注的仍是DeepSeek旗舰模型的更新计划,行业正期待着“巨鲸”的下一步动作。
热门专题
热门推荐
洞察市场先机:SOL合约持仓量深度解析与实战应用 在瞬息万变的加密货币衍生品市场,SOL合约持仓量如同一张实时绘制的“资金热力图”。它不仅揭示了多空双方投入的真实资本规模,更映射出市场情绪的微妙变化与潜在的趋势转折点。对于精明的交易者而言,掌握解读这张“地图”的能力,意味着能在市场博弈中抢占信息高地
《像素秘境·唤灵师》可通过九游APP或官网下载。在九游APP搜索游戏名即可预约并获取最新版,官网专区也提供高速与普通下载选项。两种方式均能便捷安装,专区还附有游戏攻略供参考。
车市价格战正处微妙临界点。二季度起,一股与以往降价潮不同的涨价暗流开始酝酿。截至五月中旬,至少15家主流新能源品牌已释放调价信号,或直接涨价,或收紧优惠,涉及比亚迪、特斯拉、蔚来等传统及新势力车企。
说起《上古卷轴5:重制版》的主线旅程,奥杜因克星任务绝对是一座绕不开的高峰。它不仅是叙事的关键转折点,更是一场对玩家策略、操作与耐心的综合试炼。想要征服这条恶龙,光有勇气可不够,一份清晰的行动路线图至关重要。接下来,我们就一起梳理一下这场终极对决的核心脉络与实用技巧。 一、剑指目标:前往奥杜因克星的
SOL合约限价单的最小价格单位是0 001美元。该单位是交易时报价的最小变动值,直接影响订单的精确性与灵活性。了解此规则对合约交易者有效设置订单和管理策略至关重要。





