AI智力成本暴降128倍,2026万物皆Agent,人类如何应对?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:元宇
【新智元导读】当AI智力成本一年暴跌128倍、代码开始「自主打工」……2026,你准备好把自己和公司交给Agent了吗?
几个月前,Artificial Analysis还在提醒人们注意,关于AI进展放缓的谣言被严重夸大了!
但到了2026年初,相信几乎没有人再相信「AI进展放缓」这样观点,因为它一直都在加速发展。
2025年年初,那时的世界上甚至还不存在真正意义上的「代码Agent」。
但仅仅到了年底,软件工程这个古老的职业就被「氛围编程」(Vibe Coding)永远地改变了。
程序员们不再把代码机械地复制粘贴到ChatGPT或者CursorChat里,而是开始熟练地向Agent下达指令,看着它们连续几分钟甚至更长时间地自主埋头苦干。
这就是Artificial Analysis刚刚发布的《2025全球AI年终报告》为我们揭示的疯狂现实的一个侧面。

在过去的一年里,全球AI军备竞赛不仅没有丝毫降温,反而彻底白热化。
当然,这样残酷的竞争,对于AI使用者们也带来了一个令人极其振奋的利好:
各个智力层级的AI使用成本正在以不可思议的速度跳水。
AI实验室们死磕强化学习,在大规模稀疏混合专家(MoE)架构上疯狂内卷,再加上英伟达Blackwell硬件的王者降临,共同推高了这场技术海啸的浪潮。

Artificial Analysis的这份报告认为,2025年,5大核心趋势彻底重塑了整个AI行业的骨架:
竞争极度拥挤:赛道变得空前激烈,新玩家与国际巨头贴身肉搏。
推理成为绝对标配:思考型模型一统天下。
Agent迎来全面爆发:从单一指令走向长周期的自主任务。
多模态跨越奇点:视频生成与图像编辑杀入主流认知。
原生语音觉醒:端到端语音大模型赋予了语音Agent真正的灵魂。
「思考」成为绝对标配
同级推理成本暴跌128倍!
仅仅在2025年初,OpenAI的o1还在孤独领跑,是市面上唯一的推理型选手。
但到了年底,画风突变,几乎所有的顶级AI实验室全部拿出了自己的「思考型」推理模型。
这个范式转移,直接霸占了人类所能见到的最高智力榜单。
OpenAI依然以GPT-5.2(xhigh)在年初和岁末都保住了「最聪明大脑」的桂冠。
但这家昔日霸主的领先优势正被极速压缩。
Anthropic带着Claude4.5Opus(Reasoning)紧追不舍,谷歌拿出了Gemini3Pro,xAI也毫不示弱。
AI军备竞赛,对普通用户带来的好消息就是:聪明不再等同于昂贵。
由于模型体积的不断缩小、软硬件效率的极致提升,我们在2025年初还要顶礼膜拜的o1级别智力,其每Token的使用成本,在短短一年内发生了自由落体般的坠落,整整降了128倍!

现在,我们可以在同样的预算下召唤出远超以往的超级大脑,或者用极低的成本普及过去的顶级智力。

从「复制粘贴」到「自主打工」
2025,Agent终于落地了
2025年,Agent完成了从单一测试玩具到企业级核心生产力的跃升。
也是在这一年,我们对AI的期待,终于从「你给我答案,我来干活」变成了「你直接把活干完」。
这一切的引爆点,是代码Agent的大放异彩,长周期编程任务成了这场生产力革命最大的受益者。
大厂和初创团队都在疯狂发布代码Agent,如今的模型不仅出厂自带极其熟练的工具调用能力,更被强化学习深深地注入了自主执行长周期任务的本能。
Artificial Analysis在报告中提到一个变化:
在Agent的漫长工作流里,并不是模型吐出的Token越多,智力就越高。

真正的顶级高手,赢在能巧妙且高效地使用各种外部工具。
在这张残酷的帕累托前沿图表上,谷歌和Anthropic的旗舰模型成为了全场效率与智力平衡的绝对王者。
由于2025年是代码Agent大获全胜的一年,Artificial Analysis据此断言:2026年,将彻底成为「万物皆可Agent(Agents for everything)」的元年。

原生多模态大爆发
视频模型进入「带声时代」
2025年,大模型迎来了原生多模态的大爆发。
视频模型,在这一年彻底撕掉了「实验品」的标签,真正走向了主流可用。
年初还在被顶礼膜拜的Sora,到了年底已经被RunwayGen-4.5超越了近200个ELO积分。
更重要的一个变化是,视频模型不再是「哑巴」了。
2025年5月发布的Veo3,是第一个在极高画质下原生支持音频生成的视频大模型。
紧接着,全行业集体爆发,OpenAI的Sora2、Lightricks的LTX-2等,让「自带BGM和环境音的视频生成」成为了主流标配。
这份报告还给出了一个重磅结论:在图像与视频生成领域,中国和美国已经完全处于同等水平!

端到端S2S推理大爆发
语音与音乐AI的全面进化
2025年第四季度,语音与音乐AI圈经历了一场真正的底层革命。
以前的语音助手为什么总显得有些迟钝和机械?因为它们在脑子里要走一条极其繁琐的「翻译」流水线:
先把听到的语音转成文字(STT),然后把文字交给大语言模型去思考(LLM),最后再把思考出的文字转回语音(TTS)读出来。
这种级联拼接模式不仅延迟高,还会把人类语气中的情绪、叹息、重音过滤掉。
但在2025年,原生音频推理(Nativeaudioreasoning)技术让模型学会了直接用声波的形状去思考,它们摒弃了文字这个「中间商」,开始端到端地处理音频。
这场技术革命,直接引发了榜单的大洗牌。
四季度,xAI凭借极快的响应速度和恐怖的原生听觉理解力,强势掀翻了前任霸主谷歌Gemini2.5NativeAudioThinking,登顶了BigBenchAudio评测榜首;而亚马逊的Nova2.0Sonic则极其精准地踩中了市场的痛点,加冕性价比之王。

在语音转文本(STT)的战场上,单项选手正被全能学霸降维打击。
像AWS的Nova2Omni这类多模态大模型,现在做起语音转文字,简直就像是接了个顺手的「兼职」。
它们甚至都不需要专门去练听写,准确率就已经能和专业软件打个平手了。
与此同时,为了解决语音助手总是慢半拍的毛病,ElevenLabsScribev2Realtime和英伟达ParakeetRealtime这种专门死磕超低延迟的模型也出来了。
有了它们,语音智能体真正落地到现实场景里的绊脚石也被搬开了。
现在的顶级模型不仅声音好听,甚至能在指令下完美控制情感基调、语速、重音,还能极其自然地插入笑声、叹息声和呼吸声。
过去总让人觉得有些别扭的AI味儿,现在已经基本消失了。
随着SunoV4.5和ElevenLabsMusic这些工具开始在大众里普及,现在只要花上极底成本,就能轻松合成出足够以假乱真的人声或乐曲。
当然,这种拟真也引发了极大的恐慌,声音克隆的泛滥,直接倒逼全行业开始把音频水印和出处验证系统当成了最高优先级的安全限制。
报告也极其克制地指出了当下的局限:
虽然语音Agent在诸如客服、预订等结构化交互中已经表现得像个真人,但一旦遇上模糊不清的语境、需要长线逻辑推导的多轮对话,或者嘈杂恶劣的录音环境,它们依然会露出机器的笨拙底色。
算力权力的游戏
英伟达大规模交付与200亿美元的「终局豪赌」
2025年的底层硬件基础设施,经历了一次脱胎换骨的成熟进化。
英伟达的Blackwell芯片,B200和GB200NVL72机架级系统在2025年全线铺开,进入了真实生产环境。
像IBM的Granite4系列和OpenAI的GPT-5.3Codex,就成了最早一批公开宣布用上GB200集群的头部大模型。
随后在第三季度,英伟达又顺势发布了B300和GB300。
这次的硬件升级非常直接:在B200的基础上,不仅HBM3e显存增加了50%(达到288GB),FP4精度下的算力也随之提高到了14PFLOPs。
但英伟达的野心远不止于卖芯片。
在2025年12月,整个科技圈被一笔交易彻底引爆:英伟达豪掷约200亿美元天价收购了Groq。

这笔交易极其聪明地被包装成「IP授权加人才收购(acqui-hire)」的模式。
英伟达看中的,是将Groq的LPU推理技术直接内嵌到自己的算力帝国中,试图彻底锁死AI推理市场的咽喉。
然而,权力的游戏里从来不缺野心家。
谷歌的TPUv6(Trillium)在2024年底已经全面铺开,它支撑了Gemini2.5Pro和Gemini3Pro的庞大需求。
Anthropic也在2025年同时牵起了谷歌与亚马逊的手,将TPU和Trainium一并接入自己的训练与推理矩阵。
而一直被低估的Cerebras则是联手AMD和博通,与OpenAI签下了一纸多年期的极速推理巨额合同。
在这场算力狂飙的背后,推理端的工作流也在悄然发生着剧变。
因为Agent时代的到来,过去那种堆在一台机器上傻跑的模式已经行不通了。
分布式推理优化成了2025年的一个明显趋势。
靠着英伟达Dynamo生态和开源社区的推动,过去那些只有顶级大厂才玩得转的技术,现在普通开发团队也能用上了。
现在的做法是把Prefill(预填充)和Decode(解码)这两个环节直接拆开,让几十甚至上百张GPU分工合作,一起做专家并行计算。
在这个过程中,之前五花八门的推理框架也慢慢收敛,最后大家的选择基本都稳定在了vLLM、SGLang以及英伟达「亲儿子」TensorRT-LLM这三个主流框架上。
拥抱即将到来的零边际成本智力
看完Artificial Analysis的这份年终报告,最直观的感受就是,AI发展的倒计时真的就在耳边了。
现在的AI早就不是刚出来时大家拿来尝鲜的聊天玩具,它已经实打实地变成了各行各业都在用的核心生产力。
当o1这种级别的聪明大脑,使用成本在一年里真真切切地降了128倍;当原本只能听口令做简单操作的Agent,现在已经可以自己埋头写上几十分钟的代码;当多模态让机器真正像人一样,能用耳朵听、用眼睛看去理解这个世界——
无论是创业者、开发者还是企业主管,可能都需要停下来认真想一个问题:目前的业务模式,还能适应接下来这个「万物皆可Agent」的新阶段吗?
到了2026年,随着机器智力的获取成本越来越低,所有的公司、团队、产品甚至我们每一个普通人,都需要尽早去适应Agent化的工作方式。
2026年2月,理想汽车基座模型MindVLA团队与国创决策智能技术研究所联合发布了一篇论文——
提出了面向端侧大语言模型的「硬件协同设计扩展定律」。
论文直面了当前最核心的挑战之一:
如何将越来越强大的大语言模型高效地部署在资源受限的「端侧设备」(如汽车、手机、机器人)上。
理想正在从一家以增程技术见长的汽车公司,蜕变为一家以智能驾驶和具身智能为核心的AI公司。
而这篇刚刚发布的论文,是理解这场转型最好的注脚。
提前规划和拥抱这些新工具,才能在下一波技术浪潮中站稳脚跟。
相关攻略
比特币年末行情为何“缺席”暴涨?资深专家深度解读市场新常态 与往年不同,比特币(BTC)在今年的年末并未上演惊心动魄的“疯狂上涨”行情。这一现象引起了Web3社区和传统金融市场的广泛讨论。然而,在知名投资人安东尼·庞普利亚诺等资深观察家看来,这种“缺席”并非坏事,反而可能预示着市场正在走向成熟,并为
一口气追完《隐身的名字》大结局,真相大白那一刻,看剧的你心情如何?剧中人物的结局,有的在意料之中,有的则像闹剧一般,出人意料。令人唏嘘的是:这场长达近20年的博弈与纠缠,几乎没有赢家!水泥里的女尸是
3月31日,交个朋友公开AI最新进展,已搭建 "朋友云 "直播业务中台、BefriendsAI零售平台和曼达斯克AI营销体系。其中, "朋友云 "系统年处理选品已超过500万次,明星数字人交易平台也浮出水面
文 | 正见TrueView在大模型商业演进史中,2026年3月30日,会是一个会被高亮标记的节点。先是有媒体测试发现,豆包已悄然接入抖音电商,在豆包内询问产品推荐时,不仅能得到AI的回复,还能直接
序言:你知道当唐舞桐当着橘子学姐的面疯狂表白霍雨浩时,堂堂日月帝国的皇后橘子究竟有多崩溃吗?当唐舞桐当着日月帝国皇后橘子的面,疯狂表白霍雨浩、当众撒狗粮秀恩爱时这位手握百万大军、朝堂上运筹帷幄的帝国
热门专题
热门推荐
末日生存手游推荐:前往九游开启你的废土冒险之旅 近年来,末日生存题材手游以其独特的沉浸感与生存挑战,持续吸引着大量玩家。在废墟世界中探索资源、应对危机、重建秩序的核心玩法,带来了紧张而富有成就感的游戏体验。如果你正在寻找一款高品质的末日生存手游,九游平台无疑是理想的起点。这里汇集了多款深受好评的末日
《纪念碑谷3》第二关“小镇”超详细图文攻略 《纪念碑谷》系列凭借其独特的视觉艺术与空间谜题设计广受赞誉。最新发布的《纪念碑谷3》在第二章节“小镇”中,将这一美学风格与机关逻辑提升到了新的层次。本章节不仅延续了标志性的极简主义美学,其空间层次感与交互严谨性也更具挑战性。本攻略将为你完整解析《纪念碑谷3
《生存33天》:“沙漠之王”高效通关攻略 在热门生存手游《生存33天》中,玩家面临的挑战远不止于无尽的丧尸潮。游戏深度结合了生存资源管理与高难度首领战策略,其中“沙漠之王”堪称游戏中期最具考验的BOSS。它不仅是实力分水岭,击败后更能获得稀有材料、限定头衔及海量经验金币,大幅推动队伍成长。本文将深入
《生存33天》“四只手”首领完全通关攻略 你是否在“四只手”首领关卡止步不前?不必焦虑,这个Boss在《生存33天》中素有“新秀杀手”之称。初次遭遇时,其独特的机制与高额伤害往往让玩家措手不及,不少冒险者在此耗费了数日时光。然而,只要掌握了它的核心规律,你就会发现这个敌人不过是外强中干。以下这份详尽
《剑与远征:启程》前排坦克英雄赫普深度解析:双形态切换机制与实战搭配指南 在《剑与远征:启程》这款策略放置手游中,组建一支攻守兼备的队伍至关重要,而前排坦克英雄的选择往往是决定胜败的关键。今天,我们将聚焦于蛮血部族的一位特色英雄——赫普。作为一名超稀有品质的坦克,赫普不仅具备坚实的防御力,更凭借独特





