AI进化放缓：大模型如何突破平台期与未来路径

时间：2025-12-25 17:10

AI 的能力发展到什么程度了？这是一个非常实用的问题。2024 年春节，OpenAI 推出文生视频模型 Sora，足引起一场革命；2025 年春节期间，DeepSeek 引发广泛关注。谁又能预料 2

AI 的能力发展到什么程度了？这是一个非常实用的问题。

2024 年春节，OpenAI 推出文生视频模型 Sora，足引起一场革命；2025 年春节期间，DeepSeek 引发广泛关注。谁又能预料 2026 年春节，AI 领域还会推出怎样的“年货级”新角色？你得有所准备。

硅谷风险投资机构 a16z 发布的 2025 年消费者 AI 报告总结道，对于各大AI Lab来说，今年是面向消费者推出产品的大年。比方说，OpenAI 发布了数十项 AI 功能，包括 GPT-4o 图像处理模型、独立 App Sora 以及群聊功能，谷歌推出图像处理模型 Nano Banana 和视频生成模型 Veo，其它实验室也都发布了涵盖聊天、编程、搜索、图像生成等领域的多种工具。结果如何？a16z 评价道：“喜忧参半”。

单从 Sora App 的命运便能看出来，哪怕是关注度多如 OpenAI 推出的 AI 产品，也如同一场大雨，雨落到地上的多，存到罐子里的却少。Sora 的全球下载量超过 1200 万次，但据 SensorTower 估计，其 30 天留存率低于 8%。

2025年，AI 浏览器被视为“AI时代的第一入口”，成了兵家必争之地。Perlexity推出Comet、OpenAI有Atlas，谷歌把AI功能嵌入chrome……不过，根据分析，还没有一款AI浏览器的市占率超过1%。同时，2025被宣传为“Agent元年”，根据麦肯锡报告，智能体在舆论和想象中潜力巨大，但现实落地总体还偏早期：62% 受访者所在公司至少在“实验”智能体，但是真正在任何单一业务职能中“规模化使用”智能体的比例都不超过 10%。麦肯锡总结道：“要做好智能体应用，需要付出艰苦努力。”

为何各家开始在产品赛道上卷生卷死？背后是 AI 模型能力的徘徊。低垂的果实已经摘完了，通往 AGI 的前路开始泥泞。

AI 已经很强了，只是升级的速度变慢了

通过分析259个AI大模型在十余项任务上的表现，我们发现，至少在做题方面，AI 已经拳打脚踢相当一部分人。无论是顶尖的高中生数学竞赛，还是研究生级别的物理、生物和化学问题（直接搜索是搜不到答案的，得进行科学推理），或是看图回答问题，AI 都做得很好，超越了人类专家的平均水准。

而一些相对简单、抽象的真实问题，比方说扮演一位电信技术支持的客服，跟客户协调解决诸如“为啥我连不上网？”之类的问题，AI 也已经很能顶事儿了。

从时间维度上看，AI 大模型在大部分任务上的能力跃升集中在 2024 年下半年至 2025 年年初，是AI 大模型在2025这一年徘徊的一个注脚。

有几道人类的护城河，AI 尚未突破（真是松一口气）。科学编程能力，不及格；“人类的最后一场考试”（HLE，涵盖了数学、科学以及人文社科领域有标准答案的难题），AI 没有通过；至于研究级的物理推理能力（约等于一名优秀的物理研究生独立完成研究的水平），AI 还没摸着边。也就是说，在逻辑推理方面，AI 还没能超越最聪明的那一拨人类。

谷歌的 Gemini 3 在 2025 年的 AI 竞赛中表现亮眼，在多个高难度任务上拔得头筹，也为它赢得了更多用户——Gemini 的 Pro 订阅用户同比增长近 300%，而 ChatGPT 的增幅为 155%。

AI 的能力会此消彼长吗？

AI 在不同方面的能力会有一点起伏。以 OpenAI 推出的 GPT-5.2 和 GPT-5.1 为例，提高了编程能力，长文本推理能力就下去了一点。这似乎很好理解，人的特质也常出现左右互搏的情况，理智与情感、创造力和服从度，很难两全。难道 AI 也会出现这种情况？

令人惊讶的是，综合 artificialanalysis 上 259 个模型在 12 项任务上的表现，从总体上看，AI 没有哪项能力是真的互斥的。

数值越高，指标间关联度越高，反之越低

绝大多数指标之间都呈现出正相关，这意味着目前的顶尖模型正在走向“全能化”——通常一个模型在数学上变强了，它的编程和推理能力也会跟着变强，也就是我们常说的“Scaling Law”带来的普遍提升。

不过从中我们也能找出几组很不熟的指标。比方说研究级物理推理能力就跟“模拟客服解决问题”的能力基本毫不相干。这也和前OpenAI核心研究员、CoT（思维链）作者Jason Wei 的观点相似，不同任务提升的速度是不同的。在单项任务上的能力提升不一定会泛化到其他任务上。

Jason Wei在斯坦福大学AI Club的演讲：AI并不是全知全能，AI在不同任务上的智能水平就像锯齿一样，有高有低

接下来，AI 要怎么发展？

世界上最聪明的那拨人对 AI 目前的水平并不满意。不过，他们的方向不太一样。

它怎么不能举一反三呢？OpenAI 前首席科学家Ilya Sutskever认为大力出奇迹的路已经走到尽头了，“数据是有限的，而且各个组织已经拥有大量的计算资源……所以我们又回到了研究时代”，而需要更多研究的方向就是让模型像人类那样学习，从少量的示例和信息中学习。

而李飞飞则想培养 AI 的“空间智能”，简单来说，像是一种空间上的直觉，人可以在半睡半醒间把咖啡倒进杯子里，消防员可以在浓烟弥漫的建筑中穿梭，瞬间判断形势；AI 不仅要能说能看，更要会行动、会创造。

Demis Hassabis 和吴恩达仍然相信规模，前者认为必须将系统的规模扩展推向极致，后者提出多个智能体一起运行可以扩大规模。

无论如何，AI 未来还是要追在人类屁股后面撵，以追赶人类为乐。人该怎么办呢？图灵奖得主 Yann LeCun 建议，应该学习那些“保质期长”的知识，以及能让你“学会如何学习”的东西。他补充道，保质期长的东西，往往不是计算机科学。

来源：https://www.163.com/dy/article/KHKP6UJQ0514R9P4.html

编程推理大模型吴恩达智能体中场时刻 openai

上一篇新评审模式：告别“本子”文化，破局科研评估困境 下一篇通义千问图像编辑模型Qwen-Image-Edit-2511开源上线：优化角色一致性修复

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

AI进化放缓：大模型如何突破平台期与未来路径

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

AI进化放缓：大模型如何突破平台期与未来路径

相关推荐

同类最新

年国家能源局充换电服务业用电量增速48.8%

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

三星Galaxy Watch8用户反馈谷歌后台组件异常

罗永浩批苹果iOS 27创新不足 盼新CEO改进

年国产车出口710万辆，两家车企销量破百万

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

罗永浩批苹果iOS 27创新不足盼新CEO改进