DeepSeek新版上线：揭秘奥数金牌解题能力的技术内幕

首页/科技数码/文章详情

DeepSeek新版上线：揭秘奥数金牌解题能力的技术内幕

时间：2025-11-30 10:21

2025 11 28本文字数：1072，阅读时长大约2分钟作者 | 第一财经刘晓洁11月27日晚，DeepSeek悄悄地在Hugging Face 上开源了一个新模型：DeepSeek-Math-

2025年11月28日

本文共计1072字，阅读时间约2分钟

作者 | 第一财经刘晓洁

11月27日晚间，DeepSeek悄然在Hugging Face平台开源了全新模型——DeepSeek-Math-V2。这款专注于数学领域的模型，堪称行业首个达到国际奥林匹克数学竞赛金牌水准并开放源代码的AI。

在同步发布的技术论文中，DeepSeek透露，Math-V2在部分关键指标上超越了谷歌旗下Gemini DeepThink，并在IMO-ProofBench基准测试及近期数学竞赛中展现出卓越性能。

具体来看，在基础基准测试中，DeepSeek-Math-V2以接近99%的超高得分遥遥领先其他模型，而位列第二的谷歌Gemini DeepThink (IMO Gold)得分仅为89%。不过在难度更高的高级子集中，Math-V2获得61.9%的分数，略低于Gemini DeepThink (IMO Gold)的65.7%。

在这篇题为《DeepSeek Math-V2：迈向可验证的数学推理》的论文中，研究团队指出，大语言模型在数学推理领域取得的重要突破，标志着人工智能发展进入新阶段。若持续推进，或将深刻影响科学研究范式。

然而当前AI在数学推理方面仍面临技术瓶颈：以最终答案正确与否作为评判标准，但正确答案未必代表推理过程的严谨性。特别是数学定理证明等任务，需要严密的逐步推导而非简单数字答案，这使得传统奖励机制难以适用。

为突破深度推理的极限，DeepSeek认为有必要验证数学推理的完整性与严谨性。团队特别强调，自我验证对于延长测试时间的计算尤为关键，特别是那些尚未存在已知解决方案的开放性问题。

此次推出的Math-V2实现了从结果导向到过程导向的重要转变，展现出强大的定理证明能力。该模型不依赖大量数学题答案数据，而是通过教导AI如何像数学家一样严谨审查证明过程，从而在无人干预的情况下持续提升解决高难度数学证明题的能力。

论文中提到，Math-V2在IMO 2025和中国数学奥林匹克2024中取得金牌级成绩，并在Putnam 2024竞赛中通过扩展测试实现了接近满分的优异表现（118/120）。

DeepSeek表示，虽然仍有诸多挑战需要攻克，但这些成果表明，可自我验证的数学推理是一个可行的研究方向，有望助力开发更强大的数学AI系统。

对于DeepSeek此次发布的模型，海外社区反响热烈，网友戏称“巨鲸终于归来”。有评论感慨，DeepSeek以十个百分点的显著优势击败了谷歌的IMO金牌模型DeepThink，这一成就超出业界预期。“想象一下，当他们公布编程模型时会发生什么，我打赌他们绝对会推出编程模型。”

当前，头部厂商的模型迭代已进入新一轮竞争周期。11月以来，先是OpenAI发布了GPT-5.1，几天后xAI推出Grok 4.1，紧接着上周谷歌发布Gemini 3系列引爆AI圈，“这回该轮到DeepSeek出手了”。不过，更受业界关注的仍是DeepSeek旗舰模型的更新计划，行业正期待着“巨鲸”的下一步动作。

来源：https://www.itbear.com.cn/html/2025-11/1033541.html

上一篇阿里千问有望三年内超越DeepSeek，热度下滑解析 下一篇香蕉派BPI-CM6核心板首测：进迭时空K1八核RISC-V兼容树莓派CM4

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

OpenClaw手机App上线，结果翻车了

OpenClaw 官方宣布，已正式推出 iOS 和 Android 原生移动 App，用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接：把 Agent 放进口袋里，让用户可以在移动端处理频道消息、任务和回复。从功能上看，OpenClaw 移动端并

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5