11月27日,DeepSeek正式推出DeepSeekMath-V2模型,该模型的核心优势在于采用了能够自我验证的数学推理训练框架。
研发团队指出,仅仅追求最终答案的正确率无法保证推理链条的严谨性,特别是在定理证明这类需要逐步推导的任务中尤为明显。为此,该模型引入基于大语言模型的验证器,对生成的证明过程进行自动审查,同时借助扩展验证计算持续生成高难度训练样本,从而不断提升验证器的判断能力。
据悉,DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base架构开发,在2025年国际数学奥林匹克竞赛(IMO 2025)和2024年中国数学奥林匹克竞赛(CMO 2024)中均达到金牌水平,并在2024年普特南数学竞赛(Putnam 2024)中获得118分的优异成绩(满分120分)。最新进展显示,虽然仍有大量工作有待推进,但现有成果已充分证明:具备自我验证能力的数学推理是一条切实可行的技术路径,有望为构建更强大、更可靠的数学智能系统奠定坚实基础。
