11月27日消息,DeepSeek正式发布了全新数学推理模型DeepSeekMath-V2,其核心特色是采用了能够自我验证的数学推理训练框架。
研发团队指出,如果仅仅追求最终答案的准确性,很难确保推理链条的严谨程度,尤其是在定理证明这类需要逐步推导的任务中更为明显。为此,该模型构建了基于大语言模型的验证器,能够对生成的证明过程进行自动审查,并通过扩展验证计算持续生成高难度训练样本,从而不断提升验证器的判别能力。
据了解,DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base架构,在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中均达到了金牌水平,并在2024年普特南数学竞赛(Putnam 2024)中取得118/120分的优异成绩。最新进展显示,尽管后续仍有大量工作需要推进,但当前成果已充分证明:可自我验证的数学推理确实是一条可行的发展路径,有望为构建更强大、更可靠的数学智能系统奠定坚实基础。


Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
Github:https://github.com/deepseek-ai/DeepSeek-Math-V2
