游乐游手机版
首页/AI教程/文章详情

梁文锋与杨植麟再度撞车事件引发广泛关注

时间:2026-06-26 15:34
深度求索与月之暗面再次撞车,先后推出数学定理证明模型。深度求索的模型参数达六千七百一十亿,测试成绩领先月之暗面的预览版。两者均采用强化学习技术,正面临阿里、字节等大厂竞争压力。

继2月论文“撞车”之后,梁文锋和杨植麟这两位大模型领域的代表人物,又在同一条赛道上碰面了。

4月30日,DeepSeek上线了一款新模型——DeepSeek-Prover-V2,这是一款专门用于数学定理证明的模型。它的参数规模一口气扩展到了6710亿,相比前代的70亿,规模增长了近百倍。带来的直接效果是,在数学测试集上的效率和正确率明显提升:miniF2F测试通过率达到88.9%,还顺手解决了PutnamBench(普特南测试)中的49道题。

有意思的是,就在4月中旬,月之暗面也推出了一款类似的产品——Kimina-Prover,同样用于形式化定理证明。这是Kimi团队和Numina联合开发的,同时还开源了1.5B和7B参数的蒸馏版本。它的miniF2F测试通过率是80.7%,PutnamBench测试成绩是10道题。

对比下来,在miniF2F和普特南测试上,DeepSeek-Prover-V2确实压过了Kimina-Prover预览版一筹。

更值得关注的是,两家公司在各自的技术报告里,都不约而同地提到了强化学习。DeepSeek那篇报告的标题是《DeepSeek-Prover-V2:通过子目标分解的强化学习推进形式数学推理》,月之暗面则是《Kimina-Prover Preview:基于强化学习技术的大型形式推理模型》。

把时间拨回到2月份,这两位创始人就已经在论文上“撞车”过一次了。当时,两人都出现在作者行列里,两家公司同时聚焦于Transformer架构最核心的注意力机制——说白了,就是怎么让模型更好地处理长文本。

作为中国大模型领域关注度最高的创业者,梁文锋和杨植麟如今正面临各自的挑战。

对于梁文锋来说,R1模型发布已经三个多月,外界对DeepSeek那种“魔法”般的效果,热情开始降温。阿里巴巴的开源模型紧追不舍,甚至在某些方面已经反超。大家都在眼巴巴地等R2或V4,希望DeepSeek能继续巩固领先位置。

而对于杨植麟和月之暗面,Kimi正在被字节跳动的豆包和腾讯元宝步步紧逼,持续创新这件事,一刻也松懈不得。

01

编程与数学,实现AGI的两条路径

关于AGI的实现路径,DeepSeek创始人梁文锋在2024年接受采访时曾提到,他们确实押注了三个方向:数学和代码、多模态、自然语言本身。在他看来,数学和代码是AGI天然的试验场,有点像围棋——一个封闭的、结果可验证的系统,有可能通过自我学习就实现相当高的智能。而多模态则需要融入到真实的人类世界里去学习。对于所有可能性,他们都保持开放。

这次Prover-V2的推出,也让DeepSeek的模型矩阵保持了一致的迭代节奏。

回顾一下这个系列的发展:Prover系列模型最早是2024年3月发布,8月升级到DeepSeek-Prover-V1.5,今年4月再次更新到Prover-V2。代码系列模型Coder则是从2024年4月开始更新,6月到Coder-V2,7月再升级,9月与DeepSeek-V2合并成V2.5,12月到V3,今年3月又升级到V3-0324。

通用推理大模型方面,1月20日发布的R1模型,以低价和强劲的自然语言推理能力著称,在数学、代码、推理等任务上,性能可以和OpenAI o1正式版掰手腕。

从Prover-V2的技术报告来看,它和其他模型是有关联的。比如,DeepSeek-Prover-V2-671B是以DeepSeek-V3为基础模型做微调:在冷启动阶段,DeepSeek-V3先把复杂问题拆解成一系列子目标,然后将已经解决的子目标证明合成到思维链中,结合V3的逐步推理能力,为强化学习建立一个初始冷启动。

算法工程师、知乎用户“小小将”分析说,推理模型在进行推理时,需要复杂的思考过程。数学和代码之所以能作为检验推理能力的“试金石”,是因为它们的结果是天然可验证的。

在他看来,Prover-V2的推出和新模型R2或V4没有必然的绑定关系,更像是一次独立的产品更新。

他预测,R2模型大概类似于从GPT-o1到o3的演进——基于V3提升后训练效果,研发周期可能会比较短。而V4则是一个大版本的更新,周期可能更长,因为预训练的工程量和训练方法都可能发生变动。

目前,市场对DeepSeek的新模型充满了各种想象和期待。有传言说R2模型会用华&为昇腾系列GPU,但行业人士认为这个消息不太可靠。在英伟达H20芯片受限后,昇腾芯片本身也一卡难求,而且对于大模型研发来说,它的鲁棒性可能没那么理想。另有创业公司的人士告诉媒体,昇腾芯片做训练效果一般,原因是生态系统不够完善,但做推理和部署倒没什么问题。

02

DeepSeek与Kimi还能保持领先吗?

作为明星创业公司,DeepSeek和月之暗面现在都面临着来自大厂的压力。

先看Kimi。QuestMobile的数据显示,Kimi上线不到一年,2024年11月月活就已经突破2000万,仅次于豆包的5600万。但到了2025年2月底,AI原生App月活的前三名已经变成了DeepSeek(1.94亿)、豆包(1.16亿)和腾讯元宝(0.42亿)。

2月中旬,腾讯元宝宣布接入DeepSeek,随后在一个多月里,靠着微信这个超级App引流加上疯狂的买量,用户数迅速超过了Kimi。据AppGrowing数据,今年一季度腾讯元宝的投流费用高达14亿元,而Kimi只有1.5亿元。

最近,Kimi开始内测社区功能,明显是想增加用户粘性。

DeepSeek这边,同样逃不掉被大厂追赶甚至超越的局面。阿里巴巴最近展现出了极强的竞争力。4月29日,阿里发布了新一代通义千问模型Qwen3,号称是首个“混合推理模型”,把“快思考”和“慢思考”集成在一起。参数量只有DeepSeek-R1的三分之一,但性能全面超越了R1和OpenAI o1。

此前,蔡崇信评价DeepSeek时说,它让所有人看到了开源的价值。根据公开数据,阿里通义已开源200多个模型,全球下载量超3亿次,千问衍生模型数超过10万个,已经超越美国Llama,成为全球第一开源模型。

一位AI创业者认为,DeepSeek受到的关注和光环确实很多。但中国大模型产业需要两三个世界领先的模型,而不是只有一个。这时候,更应该鼓励竞争和创业。

还有一个不容忽视的玩家是百度。4月25日,百度发布了文心4.5 Turbo和深度思考模型X1 Turbo,性能和成本都更有优势。李彦宏几次提到DeepSeek,直言它并非万能——只能处理文本,不理解声音、图片、视频,同时幻觉率较高。他还说,DeepSeek最大的问题是“慢和贵”,中国市场上多数大模型API价格更低,反应更快。

不过,百度还是决定学习DeepSeek。今年2月,他们宣布将在6月30日开源文心大模型4.5系列。

越来越多的玩家加入了开源竞赛,但说到底,只有技术最领先的那个,才能真正定义标准。

来源:https://www.aiagiai.com/10817.html
上一篇北京人工智能明星公司即将IPO上市 下一篇五一假期AI旅行规划仍难替代专业方案
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
RAG四标融合企业知识资产体系四库协同GEO优化实践
AI教程 · 2026-07-01

RAG四标融合企业知识资产体系四库协同GEO优化实践

生成式AI正在彻底改写信息检索的底层逻辑。传统SEO依赖关键词堆砌和外链建设的策略,在大模型的内容采信规则下已经基本失效。取而代之的,是生成式引擎优化(GEO)。它不再关注外链数量,而是重点衡量你的知识是否结构化、证据链是否坚实、信源是否可靠——这些维度才是RAG(检索增强生成)架构真正看重的核心指

一个普通上班人分享WorkBuddy使用心得与真实体验
AI教程 · 2026-07-01

一个普通上班人分享WorkBuddy使用心得与真实体验

前言 最近我开始使用WorkBuddy——这是腾讯推出的一款AI办公工作台。差不多用了一周时间,趁印象还新鲜,把真实的使用感受记录下来,给还在犹豫的朋友做个参考。不吹不黑,只说实际体验。 初印象:不只是聊天机器人 之前用过不少AI工具,大多数就是个对话框,你问它答,答完就结束了。WorkBuddy不

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录
AI教程 · 2026-07-01

AI幻觉变真功能实战教程:App Inventor 2视频录制拓展一周开发实录

先讲一个颇具戏剧性的开端。 这件事的开端颇显荒诞——有用户前来咨询,称AI Pro版的介绍中提到我们有一款“视频录制拓展”。团队全体成员都感到困惑,翻遍产品列表,发现根本不存在该组件。AI那种“一本正经胡说八道”的能力,这次确实让我们陷入尴尬。 按常理,此事到此便可结束——一句“抱歉,暂时没有这个拓

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同
AI教程 · 2026-07-01

别再混淆OLAP和SQL-on-Hadoop两者查询本质不同

OLAP和SQL-on-Hadoop虽都使用SQL查询数据,但本质不同。SQL-on-Hadoop负责海量数据批量计算与ETL,查询速度秒级至分钟级;OLAP通过预聚合实现毫秒级多维分析,适合BI报表。两者在数据平台分工协作,前者是后厨加工,后者是前台快速服务。

GEO优化深度解析:AI偏好FAQ还是长文内容?
AI教程 · 2026-07-01

GEO优化深度解析:AI偏好FAQ还是长文内容?

在GEO优化中,AI对内容形式无统一偏好:FAQ在简单查询中引用率41%,长文在复杂查询中达58%。内容应基于用户意图选择形式,FAQ适配简单事实类问题,长文建立主题权威,两者互补而非替代。