继2月论文“撞车”之后,梁文锋和杨植麟这两位大模型领域的代表人物,又在同一条赛道上碰面了。
4月30日,DeepSeek上线了一款新模型——DeepSeek-Prover-V2,这是一款专门用于数学定理证明的模型。它的参数规模一口气扩展到了6710亿,相比前代的70亿,规模增长了近百倍。带来的直接效果是,在数学测试集上的效率和正确率明显提升:miniF2F测试通过率达到88.9%,还顺手解决了PutnamBench(普特南测试)中的49道题。
有意思的是,就在4月中旬,月之暗面也推出了一款类似的产品——Kimina-Prover,同样用于形式化定理证明。这是Kimi团队和Numina联合开发的,同时还开源了1.5B和7B参数的蒸馏版本。它的miniF2F测试通过率是80.7%,PutnamBench测试成绩是10道题。
对比下来,在miniF2F和普特南测试上,DeepSeek-Prover-V2确实压过了Kimina-Prover预览版一筹。
更值得关注的是,两家公司在各自的技术报告里,都不约而同地提到了强化学习。DeepSeek那篇报告的标题是《DeepSeek-Prover-V2:通过子目标分解的强化学习推进形式数学推理》,月之暗面则是《Kimina-Prover Preview:基于强化学习技术的大型形式推理模型》。
把时间拨回到2月份,这两位创始人就已经在论文上“撞车”过一次了。当时,两人都出现在作者行列里,两家公司同时聚焦于Transformer架构最核心的注意力机制——说白了,就是怎么让模型更好地处理长文本。
作为中国大模型领域关注度最高的创业者,梁文锋和杨植麟如今正面临各自的挑战。
对于梁文锋来说,R1模型发布已经三个多月,外界对DeepSeek那种“魔法”般的效果,热情开始降温。阿里巴巴的开源模型紧追不舍,甚至在某些方面已经反超。大家都在眼巴巴地等R2或V4,希望DeepSeek能继续巩固领先位置。
而对于杨植麟和月之暗面,Kimi正在被字节跳动的豆包和腾讯元宝步步紧逼,持续创新这件事,一刻也松懈不得。
01
编程与数学,实现AGI的两条路径
关于AGI的实现路径,DeepSeek创始人梁文锋在2024年接受采访时曾提到,他们确实押注了三个方向:数学和代码、多模态、自然语言本身。在他看来,数学和代码是AGI天然的试验场,有点像围棋——一个封闭的、结果可验证的系统,有可能通过自我学习就实现相当高的智能。而多模态则需要融入到真实的人类世界里去学习。对于所有可能性,他们都保持开放。
这次Prover-V2的推出,也让DeepSeek的模型矩阵保持了一致的迭代节奏。
回顾一下这个系列的发展:Prover系列模型最早是2024年3月发布,8月升级到DeepSeek-Prover-V1.5,今年4月再次更新到Prover-V2。代码系列模型Coder则是从2024年4月开始更新,6月到Coder-V2,7月再升级,9月与DeepSeek-V2合并成V2.5,12月到V3,今年3月又升级到V3-0324。

通用推理大模型方面,1月20日发布的R1模型,以低价和强劲的自然语言推理能力著称,在数学、代码、推理等任务上,性能可以和OpenAI o1正式版掰手腕。
从Prover-V2的技术报告来看,它和其他模型是有关联的。比如,DeepSeek-Prover-V2-671B是以DeepSeek-V3为基础模型做微调:在冷启动阶段,DeepSeek-V3先把复杂问题拆解成一系列子目标,然后将已经解决的子目标证明合成到思维链中,结合V3的逐步推理能力,为强化学习建立一个初始冷启动。
算法工程师、知乎用户“小小将”分析说,推理模型在进行推理时,需要复杂的思考过程。数学和代码之所以能作为检验推理能力的“试金石”,是因为它们的结果是天然可验证的。
在他看来,Prover-V2的推出和新模型R2或V4没有必然的绑定关系,更像是一次独立的产品更新。
他预测,R2模型大概类似于从GPT-o1到o3的演进——基于V3提升后训练效果,研发周期可能会比较短。而V4则是一个大版本的更新,周期可能更长,因为预训练的工程量和训练方法都可能发生变动。
目前,市场对DeepSeek的新模型充满了各种想象和期待。有传言说R2模型会用华&为昇腾系列GPU,但行业人士认为这个消息不太可靠。在英伟达H20芯片受限后,昇腾芯片本身也一卡难求,而且对于大模型研发来说,它的鲁棒性可能没那么理想。另有创业公司的人士告诉媒体,昇腾芯片做训练效果一般,原因是生态系统不够完善,但做推理和部署倒没什么问题。
02
DeepSeek与Kimi还能保持领先吗?
作为明星创业公司,DeepSeek和月之暗面现在都面临着来自大厂的压力。
先看Kimi。QuestMobile的数据显示,Kimi上线不到一年,2024年11月月活就已经突破2000万,仅次于豆包的5600万。但到了2025年2月底,AI原生App月活的前三名已经变成了DeepSeek(1.94亿)、豆包(1.16亿)和腾讯元宝(0.42亿)。
2月中旬,腾讯元宝宣布接入DeepSeek,随后在一个多月里,靠着微信这个超级App引流加上疯狂的买量,用户数迅速超过了Kimi。据AppGrowing数据,今年一季度腾讯元宝的投流费用高达14亿元,而Kimi只有1.5亿元。

最近,Kimi开始内测社区功能,明显是想增加用户粘性。
DeepSeek这边,同样逃不掉被大厂追赶甚至超越的局面。阿里巴巴最近展现出了极强的竞争力。4月29日,阿里发布了新一代通义千问模型Qwen3,号称是首个“混合推理模型”,把“快思考”和“慢思考”集成在一起。参数量只有DeepSeek-R1的三分之一,但性能全面超越了R1和OpenAI o1。
此前,蔡崇信评价DeepSeek时说,它让所有人看到了开源的价值。根据公开数据,阿里通义已开源200多个模型,全球下载量超3亿次,千问衍生模型数超过10万个,已经超越美国Llama,成为全球第一开源模型。
一位AI创业者认为,DeepSeek受到的关注和光环确实很多。但中国大模型产业需要两三个世界领先的模型,而不是只有一个。这时候,更应该鼓励竞争和创业。
还有一个不容忽视的玩家是百度。4月25日,百度发布了文心4.5 Turbo和深度思考模型X1 Turbo,性能和成本都更有优势。李彦宏几次提到DeepSeek,直言它并非万能——只能处理文本,不理解声音、图片、视频,同时幻觉率较高。他还说,DeepSeek最大的问题是“慢和贵”,中国市场上多数大模型API价格更低,反应更快。
不过,百度还是决定学习DeepSeek。今年2月,他们宣布将在6月30日开源文心大模型4.5系列。
越来越多的玩家加入了开源竞赛,但说到底,只有技术最领先的那个,才能真正定义标准。
