首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
AI进化放缓:大模型如何突破平台期与未来路径

AI进化放缓:大模型如何突破平台期与未来路径

热心网友
95
转载
2025-12-25

AI 的能力发展到什么程度了?这是一个非常实用的问题。

2024 年春节,OpenAI 推出文生视频模型 Sora,足引起一场革命;2025 年春节期间,DeepSeek 引发广泛关注。谁又能预料 2026 年春节,AI 领域还会推出怎样的“年货级”新角色?你得有所准备。

硅谷风险投资机构 a16z 发布的 2025 年消费者 AI 报告总结道,对于各大AI Lab来说,今年是面向消费者推出产品的大年。比方说,OpenAI 发布了数十项 AI 功能,包括 GPT-4o 图像处理模型、独立 App Sora 以及群聊功能,谷歌推出图像处理模型 Nano Banana 和视频生成模型 Veo,其它实验室也都发布了涵盖聊天、编程、搜索、图像生成等领域的多种工具。结果如何?a16z 评价道:“喜忧参半”。

单从 Sora App 的命运便能看出来,哪怕是关注度多如 OpenAI 推出的 AI 产品,也如同一场大雨,雨落到地上的多,存到罐子里的却少。Sora 的全球下载量超过 1200 万次,但据 SensorTower 估计,其 30 天留存率低于 8%。

2025年,AI 浏览器被视为“AI时代的第一入口”,成了兵家必争之地。Perlexity推出Comet、OpenAI有Atlas,谷歌把AI功能嵌入chrome……不过,根据分析,还没有一款AI浏览器的市占率超过1%。同时,2025被宣传为“Agent元年”,根据麦肯锡报告,智能体在舆论和想象中潜力巨大,但现实落地总体还偏早期:62% 受访者所在公司至少在“实验”智能体,但是真正在任何单一业务职能中“规模化使用”智能体的比例都不超过 10%。麦肯锡总结道:“要做好智能体应用,需要付出艰苦努力。”

为何各家开始在产品赛道上卷生卷死?背后是 AI 模型能力的徘徊。低垂的果实已经摘完了,通往 AGI 的前路开始泥泞。

AI 已经很强了,只是升级的速度变慢了

通过分析259个AI大模型在十余项任务上的表现,我们发现,至少在做题方面,AI 已经拳打脚踢相当一部分人。无论是顶尖的高中生数学竞赛,还是研究生级别的物理、生物和化学问题(直接搜索是搜不到答案的,得进行科学推理),或是看图回答问题,AI 都做得很好,超越了人类专家的平均水准。

而一些相对简单、抽象的真实问题,比方说扮演一位电信技术支持的客服,跟客户协调解决诸如“为啥我连不上网?”之类的问题,AI 也已经很能顶事儿了。


从时间维度上看,AI 大模型在大部分任务上的能力跃升集中在 2024 年下半年至 2025 年年初,是AI 大模型在2025这一年徘徊的一个注脚。

有几道人类的护城河,AI 尚未突破(真是松一口气)。科学编程能力,不及格;“人类的最后一场考试”(HLE,涵盖了数学、科学以及人文社科领域有标准答案的难题),AI 没有通过;至于研究级的物理推理能力(约等于一名优秀的物理研究生独立完成研究的水平),AI 还没摸着边。也就是说,在逻辑推理方面,AI 还没能超越最聪明的那一拨人类。

谷歌的 Gemini 3 在 2025 年的 AI 竞赛中表现亮眼,在多个高难度任务上拔得头筹,也为它赢得了更多用户——Gemini 的 Pro 订阅用户同比增长近 300%,而 ChatGPT 的增幅为 155%。

AI 的能力会此消彼长吗?

AI 在不同方面的能力会有一点起伏。以 OpenAI 推出的 GPT-5.2 和 GPT-5.1 为例,提高了编程能力,长文本推理能力就下去了一点。这似乎很好理解,人的特质也常出现左右互搏的情况,理智与情感、创造力和服从度,很难两全。难道 AI 也会出现这种情况?

令人惊讶的是,综合 artificialanalysis 上 259 个模型在 12 项任务上的表现,从总体上看,AI 没有哪项能力是真的互斥的。


数值越高,指标间关联度越高,反之越低

绝大多数指标之间都呈现出正相关,这意味着目前的顶尖模型正在走向“全能化”——通常一个模型在数学上变强了,它的编程和推理能力也会跟着变强,也就是我们常说的“Scaling Law”带来的普遍提升。

不过从中我们也能找出几组很不熟的指标。比方说研究级物理推理能力就跟“模拟客服解决问题”的能力基本毫不相干。这也和前OpenAI核心研究员、CoT(思维链)作者Jason Wei 的观点相似,不同任务提升的速度是不同的。在单项任务上的能力提升不一定会泛化到其他任务上。


Jason Wei在斯坦福大学AI Club的演讲:AI并不是全知全能,AI在不同任务上的智能水平就像锯齿一样,有高有低

接下来,AI 要怎么发展?

世界上最聪明的那拨人对 AI 目前的水平并不满意。不过,他们的方向不太一样。

它怎么不能举一反三呢?OpenAI 前首席科学家Ilya Sutskever认为大力出奇迹的路已经走到尽头了,“数据是有限的,而且各个组织已经拥有大量的计算资源……所以我们又回到了研究时代”,而需要更多研究的方向就是让模型像人类那样学习,从少量的示例和信息中学习。

而李飞飞则想培养 AI 的“空间智能”,简单来说,像是一种空间上的直觉,人可以在半睡半醒间把咖啡倒进杯子里,消防员可以在浓烟弥漫的建筑中穿梭,瞬间判断形势;AI 不仅要能说能看,更要会行动、会创造。

Demis Hassabis 和吴恩达仍然相信规模,前者认为必须将系统的规模扩展推向极致,后者提出多个智能体一起运行可以扩大规模。

无论如何,AI 未来还是要追在人类屁股后面撵,以追赶人类为乐。人该怎么办呢?图灵奖得主 Yann LeCun 建议,应该学习那些“保质期长”的知识,以及能让你“学会如何学习”的东西。他补充道,保质期长的东西,往往不是计算机科学。

来源:https://www.163.com/dy/article/KHKP6UJQ0514R9P4.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

RPA入门需要编程基础吗
业界动态
RPA入门需要编程基础吗

探讨RPA(机器人流程自动化)时,一个普遍被提及的问题是:学习和应用RPA需要编程基础吗? 答案并非绝对。这主要取决于三个核心维度:所选RPA工具的特性、待自动化流程的复杂程度,以及实施者自身的技术背景。下面我们将逐一深入分析。 一、RPA平台与编程需求 不同RPA厂商提供的平台,其技术门槛差异显著

热心网友
05.14
南京大学与伦敦大学学院联合发布编程助手推理能力评估新基准
AI
南京大学与伦敦大学学院联合发布编程助手推理能力评估新基准

南京大学与伦敦大学学院联合研究团队近日发布了一项突破性成果,为精准评估大型语言模型在代码生成与编程任务中的真实能力提供了全新框架。相关研究论文《CONTEXTBENCH: 评估代码大模型上下文推理能力的基准》已正式发表于预印本平台arXiv,论文编号为arXiv:2602 05892v2。 随着AI

热心网友
05.12
学生创意编程作品虚拟拼豆机从失败到国际夺冠之路
科技数码
学生创意编程作品虚拟拼豆机从失败到国际夺冠之路

苹果Swift学生编程挑战赛揭晓,江苏四名学生获奖。作品涵盖海洋公益游戏、手势控制音乐应用、虚拟拼豆机及机器人实验室游戏,展现了年轻开发者用代码表达创意与解决实际问题的能力。赛事允许使用AI工具辅助开发,但强调批判性思维与原创力仍是核心价值。

热心网友
05.10
编程入门指南从零基础到理解核心概念
编程语言
编程入门指南从零基础到理解核心概念

编程十年的一点分享 在软件开发的路上走过十几年,从一个爱好者到以此为业,有些体会或许值得聊聊,就当是抛砖引玉吧。 最早接触编程,是从BASIC和C语言开始的。工作后,随着需要,陆续学习了dBase、Access这类桌面数据库的开发。真正以开发为职业,可以说始于FoxPro 5 0,之后技术栈随着项目

热心网友
05.07
编程入门指南什么是编程及其核心概念
编程语言
编程入门指南什么是编程及其核心概念

编程是什么? 在软件行业沉浸多年,回头一想,似乎很少严肃地追问过这个最根本的问题:到底什么是编程?今天,就让我们来好好探讨一下。 如果翻开教科书,你会找到这样的标准答案:编程,就是为解决特定问题,使用某种程序设计语言编写代码,并最终让计算机输出结果的过程。其核心在于,人类必须将解决问题的思路、方法和

热心网友
05.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

iQOO 15T新机预约启动 延续Ultra系列旗舰设计风格
业界动态
iQOO 15T新机预约启动 延续Ultra系列旗舰设计风格

iQOO手机官方今日正式宣布,iQOO 15T已开启全渠道预约。随着预约启动,官方预热海报也首次揭示了新机的侧边轮廓设计。 关于这款新机的更多细节,此前已有数码博主提前剧透。据称,iQOO 15T将延续自家Ultra系列的设计语言,采用标志性的透明风格方形摄像头模组。更引人注目的是其屏幕配置——据爆

热心网友
05.16
美团外卖五折优惠直送寝室无需下楼
业界动态
美团外卖五折优惠直送寝室无需下楼

期末复习在图书馆熬到深夜,突然下起暴雨,裹紧羽绒服还得冒雨下楼拿外卖;军训结束累得只想瘫倒,宿管阿姨却把骑手拦在宿舍区外;想和室友凑单改善伙食,又被复杂的满减、助力规则搞得晕头转向……这大概是许多大学新生的共同经历,差点以为“冲刺取餐”成了宿舍生存的必备技能。其实,只要掌握正确方法,完全能省去这些奔

热心网友
05.16
三星家电退出中国市场 电视显示器等产品停售
业界动态
三星家电退出中国市场 电视显示器等产品停售

一则来自三星(中国)投资有限公司的业务调整通知,在今日引发了广泛关注。通知的核心内容相当明确:为应对急剧变化的市场环境,三星电子决定在中国大陆市场停止销售包括电视、显示器在内的所有家电产品。 这意味着,一个曾经在中国家电市场占据重要地位的品牌,其消费端的产品销售画上了句号。当然,市场更关心的是,存量

热心网友
05.16
一加16全能性能旗舰曝光 搭载骁龙8 Elite Gen6 Pro芯片
业界动态
一加16全能性能旗舰曝光 搭载骁龙8 Elite Gen6 Pro芯片

关于一加下一代旗舰手机一加 16 的最新爆料信息,近期引发了数码圈的广泛关注。知名数码博主 @数码闲聊站 最新透露了一款代号为 SM8975(即骁龙 8 Elite Gen6 Pro 平台)的子品牌新机细节,结合其暗示的表情符号,这款新机极有可能就是备受期待的一加 16。 根据最新的爆料信息,一加

热心网友
05.16
三星家电全面退出中国市场销售
业界动态
三星家电全面退出中国市场销售

三星电子的一则公告,在市场上激起了不小的波澜。根据其官方发布的消息,为应对当前急剧变化的市场环境,公司经过慎重评估,决定在中国大陆市场停止销售包括电视、显示器在内的所有家电产品。 图为三星电子发布的公告截图 这意味着,消费者未来将无法在官方渠道购买到三星品牌的电视、显示器等家用电器。不过,对于已经购

热心网友
05.16