11月27日消息,就在全网都引颈期盼DeepSeek发布V4大模型之际,这家AI公司却悄然放出了一枚技术彩蛋——专攻数学推理的DeepSeekMath-V2模型突然低调上线。
这款创新框架最亮眼的特点在于自我验证能力,其基于DeepSeek-V3.2-Exp-Base架构打造,通过LLM验证器自动审查数学证明过程,并持续利用高难度样本进行迭代优化。
目前该模型的完整代码与权重文件已在Hugging Face和GitHub平台全面开源,开发者可自由下载使用。

那么这款模型究竟实力如何?从测试结果来看,它在IMO 2025和CMO 2024竞赛中均达到金牌水准,Putnam 2024更是取得118/120的惊人高分。
若与当前顶级大模型横向对比,在Basic测试中,DeepSeekMath-V2的99分成绩遥遥领先,Advanced测试中也仅略低于Gemini DeepThink的65.7分——值得一提的是,后者正是谷歌为冲击奥赛金牌而专门调校的模型。
考虑到DeepSeekMath-V2具备开源、免费等特性,可以说它已然成为当前数学领域最具竞争力的AI模型。
耐人寻味的是,DeepSeek团队对此表现得异常谦逊,坦言仍需完成大量工作,但同时指出这些成果证实了自我验证的数学推理是一条可行的技术路径,或将助力开发更强大的数学AI系统。
若结合DeepSeek近期几款专项模型的表现,可见他们在V4正式发布前已积累了雄厚的技术储备。无论是在OCR还是数学领域的惊艳表现,都让人不禁期待:若V4是集大成的全能型多模态模型,其表现必将更加令人瞩目。



