游乐游手机版
首页/科技数码/文章详情

DeepSeek新版上线:揭秘奥数金牌解题能力的技术内幕

时间:2025-11-30 10:21
2025 11 28本文字数:1072,阅读时长大约2分钟作者 | 第一财经 刘晓洁11月27日晚,DeepSeek悄悄地在Hugging Face 上开源了一个新模型:DeepSeek-Math-

2025年11月28日

本文共计1072字,阅读时间约2分钟

作者 | 第一财经 刘晓洁

11月27日晚间,DeepSeek悄然在Hugging Face平台开源了全新模型——DeepSeek-Math-V2。这款专注于数学领域的模型,堪称行业首个达到国际奥林匹克数学竞赛金牌水准并开放源代码的AI。

在同步发布的技术论文中,DeepSeek透露,Math-V2在部分关键指标上超越了谷歌旗下Gemini DeepThink,并在IMO-ProofBench基准测试及近期数学竞赛中展现出卓越性能。

具体来看,在基础基准测试中,DeepSeek-Math-V2以接近99%的超高得分遥遥领先其他模型,而位列第二的谷歌Gemini DeepThink (IMO Gold)得分仅为89%。不过在难度更高的高级子集中,Math-V2获得61.9%的分数,略低于Gemini DeepThink (IMO Gold)的65.7%。

在这篇题为《DeepSeek Math-V2:迈向可验证的数学推理》的论文中,研究团队指出,大语言模型在数学推理领域取得的重要突破,标志着人工智能发展进入新阶段。若持续推进,或将深刻影响科学研究范式。

然而当前AI在数学推理方面仍面临技术瓶颈:以最终答案正确与否作为评判标准,但正确答案未必代表推理过程的严谨性。特别是数学定理证明等任务,需要严密的逐步推导而非简单数字答案,这使得传统奖励机制难以适用。

为突破深度推理的极限,DeepSeek认为有必要验证数学推理的完整性与严谨性。团队特别强调,自我验证对于延长测试时间的计算尤为关键,特别是那些尚未存在已知解决方案的开放性问题。

此次推出的Math-V2实现了从结果导向到过程导向的重要转变,展现出强大的定理证明能力。该模型不依赖大量数学题答案数据,而是通过教导AI如何像数学家一样严谨审查证明过程,从而在无人干预的情况下持续提升解决高难度数学证明题的能力。

论文中提到,Math-V2在IMO 2025和中国数学奥林匹克2024中取得金牌级成绩,并在Putnam 2024竞赛中通过扩展测试实现了接近满分的优异表现(118/120)。

DeepSeek表示,虽然仍有诸多挑战需要攻克,但这些成果表明,可自我验证的数学推理是一个可行的研究方向,有望助力开发更强大的数学AI系统。

对于DeepSeek此次发布的模型,海外社区反响热烈,网友戏称“巨鲸终于归来”。有评论感慨,DeepSeek以十个百分点的显著优势击败了谷歌的IMO金牌模型DeepThink,这一成就超出业界预期。“想象一下,当他们公布编程模型时会发生什么,我打赌他们绝对会推出编程模型。”

当前,头部厂商的模型迭代已进入新一轮竞争周期。11月以来,先是OpenAI发布了GPT-5.1,几天后xAI推出Grok 4.1,紧接着上周谷歌发布Gemini 3系列引爆AI圈,“这回该轮到DeepSeek出手了”。不过,更受业界关注的仍是DeepSeek旗舰模型的更新计划,行业正期待着“巨鲸”的下一步动作。

来源:https://www.itbear.com.cn/html/2025-11/1033541.html
上一篇阿里千问有望三年内超越DeepSeek,热度下滑解析 下一篇香蕉派BPI-CM6核心板首测:进迭时空K1八核RISC-V兼容树莓派CM4
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5