梁文锋与杨植麟再度撞车事件引发广泛关注

时间：2026-06-26 15:34

深度求索与月之暗面再次撞车，先后推出数学定理证明模型。深度求索的模型参数达六千七百一十亿，测试成绩领先月之暗面的预览版。两者均采用强化学习技术，正面临阿里、字节等大厂竞争压力。

继2月论文“撞车”之后，梁文锋和杨植麟这两位大模型领域的代表人物，又在同一条赛道上碰面了。

4月30日，DeepSeek上线了一款新模型——DeepSeek-Prover-V2，这是一款专门用于数学定理证明的模型。它的参数规模一口气扩展到了6710亿，相比前代的70亿，规模增长了近百倍。带来的直接效果是，在数学测试集上的效率和正确率明显提升：miniF2F测试通过率达到88.9%，还顺手解决了PutnamBench（普特南测试）中的49道题。

有意思的是，就在4月中旬，月之暗面也推出了一款类似的产品——Kimina-Prover，同样用于形式化定理证明。这是Kimi团队和Numina联合开发的，同时还开源了1.5B和7B参数的蒸馏版本。它的miniF2F测试通过率是80.7%，PutnamBench测试成绩是10道题。

对比下来，在miniF2F和普特南测试上，DeepSeek-Prover-V2确实压过了Kimina-Prover预览版一筹。

更值得关注的是，两家公司在各自的技术报告里，都不约而同地提到了强化学习。DeepSeek那篇报告的标题是《DeepSeek-Prover-V2：通过子目标分解的强化学习推进形式数学推理》，月之暗面则是《Kimina-Prover Preview：基于强化学习技术的大型形式推理模型》。

把时间拨回到2月份，这两位创始人就已经在论文上“撞车”过一次了。当时，两人都出现在作者行列里，两家公司同时聚焦于Transformer架构最核心的注意力机制——说白了，就是怎么让模型更好地处理长文本。

作为中国大模型领域关注度最高的创业者，梁文锋和杨植麟如今正面临各自的挑战。

对于梁文锋来说，R1模型发布已经三个多月，外界对DeepSeek那种“魔法”般的效果，热情开始降温。阿里巴巴的开源模型紧追不舍，甚至在某些方面已经反超。大家都在眼巴巴地等R2或V4，希望DeepSeek能继续巩固领先位置。

而对于杨植麟和月之暗面，Kimi正在被字节跳动的豆包和腾讯元宝步步紧逼，持续创新这件事，一刻也松懈不得。

01 编程与数学，实现AGI的两条路径

关于AGI的实现路径，DeepSeek创始人梁文锋在2024年接受采访时曾提到，他们确实押注了三个方向：数学和代码、多模态、自然语言本身。在他看来，数学和代码是AGI天然的试验场，有点像围棋——一个封闭的、结果可验证的系统，有可能通过自我学习就实现相当高的智能。而多模态则需要融入到真实的人类世界里去学习。对于所有可能性，他们都保持开放。

这次Prover-V2的推出，也让DeepSeek的模型矩阵保持了一致的迭代节奏。

回顾一下这个系列的发展：Prover系列模型最早是2024年3月发布，8月升级到DeepSeek-Prover-V1.5，今年4月再次更新到Prover-V2。代码系列模型Coder则是从2024年4月开始更新，6月到Coder-V2，7月再升级，9月与DeepSeek-V2合并成V2.5，12月到V3，今年3月又升级到V3-0324。

通用推理大模型方面，1月20日发布的R1模型，以低价和强劲的自然语言推理能力著称，在数学、代码、推理等任务上，性能可以和OpenAI o1正式版掰手腕。

从Prover-V2的技术报告来看，它和其他模型是有关联的。比如，DeepSeek-Prover-V2-671B是以DeepSeek-V3为基础模型做微调：在冷启动阶段，DeepSeek-V3先把复杂问题拆解成一系列子目标，然后将已经解决的子目标证明合成到思维链中，结合V3的逐步推理能力，为强化学习建立一个初始冷启动。

算法工程师、知乎用户“小小将”分析说，推理模型在进行推理时，需要复杂的思考过程。数学和代码之所以能作为检验推理能力的“试金石”，是因为它们的结果是天然可验证的。

在他看来，Prover-V2的推出和新模型R2或V4没有必然的绑定关系，更像是一次独立的产品更新。

他预测，R2模型大概类似于从GPT-o1到o3的演进——基于V3提升后训练效果，研发周期可能会比较短。而V4则是一个大版本的更新，周期可能更长，因为预训练的工程量和训练方法都可能发生变动。

目前，市场对DeepSeek的新模型充满了各种想象和期待。有传言说R2模型会用华&为昇腾系列GPU，但行业人士认为这个消息不太可靠。在英伟达H20芯片受限后，昇腾芯片本身也一卡难求，而且对于大模型研发来说，它的鲁棒性可能没那么理想。另有创业公司的人士告诉媒体，昇腾芯片做训练效果一般，原因是生态系统不够完善，但做推理和部署倒没什么问题。

02 DeepSeek与Kimi还能保持领先吗？

作为明星创业公司，DeepSeek和月之暗面现在都面临着来自大厂的压力。

先看Kimi。QuestMobile的数据显示，Kimi上线不到一年，2024年11月月活就已经突破2000万，仅次于豆包的5600万。但到了2025年2月底，AI原生App月活的前三名已经变成了DeepSeek（1.94亿）、豆包（1.16亿）和腾讯元宝（0.42亿）。

2月中旬，腾讯元宝宣布接入DeepSeek，随后在一个多月里，靠着微信这个超级App引流加上疯狂的买量，用户数迅速超过了Kimi。据AppGrowing数据，今年一季度腾讯元宝的投流费用高达14亿元，而Kimi只有1.5亿元。

最近，Kimi开始内测社区功能，明显是想增加用户粘性。

DeepSeek这边，同样逃不掉被大厂追赶甚至超越的局面。阿里巴巴最近展现出了极强的竞争力。4月29日，阿里发布了新一代通义千问模型Qwen3，号称是首个“混合推理模型”，把“快思考”和“慢思考”集成在一起。参数量只有DeepSeek-R1的三分之一，但性能全面超越了R1和OpenAI o1。

此前，蔡崇信评价DeepSeek时说，它让所有人看到了开源的价值。根据公开数据，阿里通义已开源200多个模型，全球下载量超3亿次，千问衍生模型数超过10万个，已经超越美国Llama，成为全球第一开源模型。

一位AI创业者认为，DeepSeek受到的关注和光环确实很多。但中国大模型产业需要两三个世界领先的模型，而不是只有一个。这时候，更应该鼓励竞争和创业。

还有一个不容忽视的玩家是百度。4月25日，百度发布了文心4.5 Turbo和深度思考模型X1 Turbo，性能和成本都更有优势。李彦宏几次提到DeepSeek，直言它并非万能——只能处理文本，不理解声音、图片、视频，同时幻觉率较高。他还说，DeepSeek最大的问题是“慢和贵”，中国市场上多数大模型API价格更低，反应更快。

不过，百度还是决定学习DeepSeek。今年2月，他们宣布将在6月30日开源文心大模型4.5系列。

越来越多的玩家加入了开源竞赛，但说到底，只有技术最领先的那个，才能真正定义标准。

来源：https://www.aiagiai.com/10817.html

上一篇北京人工智能明星公司即将IPO上市 下一篇五一假期AI旅行规划仍难替代专业方案

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略，在大模型的内容采信规则下已经基本失效。取而代之的，是生成式引擎优化（GEO）。它不再关注外链数量，而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG（检索增强生成）架构真正看重的核心指