2025模型服务展望:将如何演变为新基础设施?
AI持续狂奔的2025年,大模型API基础设施化,成为最鲜明的注脚。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
本月,国际市场调研机构英富曼(Omdia)发布了《2025全球企业级MaaS市场分析》报告:截至2025年10月,OpenAI、谷歌云、火山引擎分别占比31%、19%、15%,三家模型厂商合计占据全球MaaS市场65%的份额。ChatGPT带来的大模型技术变革仅3年,全球MaaS(模型即服务)市场格局初步形成。

Omdia报告中,火山引擎以30万亿日均Tokens调用量位居全球第三,仅次于OpenAI的70万亿和谷歌云的43万亿。
作为全球前三中唯一的中国厂商,火山引擎正在凭借 MaaS 服务在 AI 云市场快速突围。12月29日,火山引擎官宣成为总台春晚独家 AI 云合作伙伴,一并公布了豆包大模型的最新日均调用量,63万亿 Tokens,持续高速增长。
在大模型API成为基础设施的2025年,依旧有“MaaS薄、MaaS市场窄”的声音。2024年之前,没有MaaS这一商业模式,谈品牌忠诚度也还是太早了,用户总是会选择下一个更有性价比的模型服务。
但改变就这么发生了,推出不到600天,豆包大模型的调用量呈指数增长。

据《晚点》,今年火山引擎已实现100%的同比增长,营收超200亿。由于MaaS商业化和模型迭代超预期,火山引擎原来计划于2030年实现的 1000 亿营收目标,又上调了百分之几十。
“MaaS优先”,加速度的600天
更早地意识到MaaS的重要性,火山引擎投入早、投入的精力和资源多。
过去两年,MaaS作为这家公司的第一战略优先级目标,体现在火山引擎全员会上、在员工的OKR里,更体现在具体的销售激励和产品研发上。
2024年5月15日,火山引擎首次推出豆包大模型家族的API服务,通过模型架构、推理框架等技术创新,将主力模型定价从行业的“分计价”拉入“厘计价”时代,降幅高达99.3% 。伴随着更多模型厂商跟进的降价潮,MaaS市场就此迎来“从无到有”般的增长。
2025年2月1日,DeepSeek-R1登陆火山方舟,模型推理服务全面爆发。在部署同一个开源模型的大考中,火山方舟的各项模型部署性能领先,火山引擎也顺势成为市场上吃到最多DeepSeek推理服务红利的云厂商。
IDC报告显示的中国公有云大模型调用量月度环比增长中,显示了这两个关键的增长拐点。可以说,豆包大模型与DeepSeek的爆红,共同催生了中国MaaS市场。

中国公有云大模型调用量月度环比增长中,2024年7月和2025年2月中增长率最高。|来源:IDC
DeepSeek-R1之后,不断迭代的豆包大模型接棒Tokens调用量继续增长。
2025年6月以来,豆包大模型1.6、豆包视频生成模型Seedance 1.0 pro、豆包图像编辑模型SeedEdit、豆包语音模型2.0、豆包图像创作模型Seedream4.0、豆包大模型1.8、视频生成模型Seedance 1.5 pro等模型相继发布。每一次模型能力的提升,解锁了更多的应用场景。
伴随模型发布节奏,几乎每3个月,模型调用就会迎来一次更陡峭的增长。
2025年,Token跳动,成为基础设施,越来越多的头部云厂商,把 MaaS 当做业务长期成功的首要指标。在AI应用逐渐渗透的过程里,MaaS成为最大的幕后功臣。
与MaaS市场一同壮大的火山引擎,也顺势进化为“Token跳动”公司,率先迈向AI云。

火山引擎总裁谭待
IDC显示,2025年H1,火山引擎大模型公有云服务扩大到49.2%,中国公有云上每产生的两个tokens就有一个由火山引擎生产。此外,Gartner®发布的2025年度全球《AI应用开发平台魔力象限》中:凭借豆包大模型和火山方舟大模型服务平台 ,火山引擎领跑全球“挑战者”象限。在“执行能力”上,火山引擎位于全球第五、中国第一。
大的模型调用量,才能打磨出更好的模型和Infra
谈及把MaaS当作第一优先级时,谭待曾表示,看长期就会更早意识到MaaS的重要性,比如想想十年后的云跟现在有什么变化,而不是明年。这让火山引擎在中国MaaS市场加起来只有几亿人民币时,坚定执行MaaS战略优先。
2024年5月第一次推出豆包大模型对外服务的发布会上,他表示,“大的使用量,才能打磨出好模型,并且大幅降低模型推理的单位成本。”

豆包大模型家族
换句话说,大模型调用量越大,模型在B端场景的反馈和需求,比如:是否被用起来、哪些场景用得多用得好、哪些场景用不起来等,都可以反映在下一代模型等路线图里,让Seed团队训练出B端场景更加智能的模型。相反,如果是私有化部署,就没有这样的反馈来做真实世界的评测集。
同时,大的模型调用量,也会迭代出更极致的Infra。举例来说,以当前豆包APP日活1亿且免费的前提,决定了其对火山引擎在KV Cache优化上的要求会极其严苛。同时,在大模型平台的性能和工具易用性上,如果不是有非常大的调用量,Infra层面的各种corner case和新需求,甚至也都没有见过,也就不能在2024年5月通过PD分离、xLLM推理框架等方式,降低模型推理价格。
当然,大的模型调用量也会进一步优化MaaS服务的毛利率。对于火山引擎这样体量的调用量来说,MaaS服务已成为增长最快、毛利最高的AI云计算产品。一个可以参照的对象是,今年2月底,DeepSeek最新公布自己推理服务的最高成本利润率可达545%。
用火山引擎,薅字节的“技术羊毛”
如果上述视角是火山引擎选择MaaS份额第一为优先级目标的理由,那么63万亿日均Tokens调用量——用户的用脚投票,则来源于字节跳动的溢出效应。
谭待在媒体报道里讲过最多的一个观察,似乎是火山引擎在B端(企业客户)和C端(个人用户)的极致协同。他常说,字节的 C 端产品有大量用户,会大规模调用模型,能帮火山把服务做好,同时,豆包 App 也帮了不少忙,很多客户都会拿着跟豆包的聊天 Case 找过来,问火山引擎能不能在企业场景中实现类似的效果。企业用好AI,可以先下个豆包感受一下。

以前在ToB行业,做购买决策和开发产品的人不用最终的产品,所以很多ToB产品在流程管理上,比用户体验重要得多。但AI其实会让 ToB 和 ToC 更近一些。有了 AI 之后,动动嘴就能用起来大模型和Agent,产品体验好不好立竿见影,这时候,C端产品体验好就很关键,会给火山引擎带来很大的增益,因为字节跳动对做好产品体验比较擅长,也有洞察。
服务这些“内部客户”的时候,火山引擎知道模型和Infra上的痛点在哪,就能够去不断地提供各种方案。在 AI 的实践上,字节跳动走得更靠前,做了很多Agent,比如豆包就是一个最大的 Agent,即梦也是,字节内部 50 多个业务线在不断尝试。
在谭待看来,最重要的是认知,ToC 和 ToB 的协同有巨大优势,不仅是品牌上的协同优势(豆包APP和豆包大模型),而在于在这个过程中获得的know-how。企业想把 Agent 做好,要找最懂的人来做,火山引擎不仅自己做了,而且把量级做起来了,是做出来的认知。
事实上,作为字节跳动旗下云与AI服务平台,火山引擎自2020年以来通过把字节跳动的数据增长方法论、推荐算法、内容生态等以工具的形式外溢,同时利用抖音对服务器的规模优势外溢低成本、弹性的云服务。2024年,火山引擎发现了自动驾驶、科学计算、大模型等场景,2024年推出了模型训练服务,直到2024年,终于在模型推理服务上迎来新空间。
把能力服务化、商业化是一个过程,大模型时代,火山引擎赶上了好时机,放大了字节跳动的技术溢出。
云计算本质上是规模体系的比拼,目前市场上头部云厂商的崛起,都有庞大的业务体系托举。尤其当大模型技术投入非常大时,如果没有一个能够外溢的业务,很难保持足够的领先,AWS、谷歌、阿里无一例外。
今年6月,字节跳动CEO梁汝波在火山引擎发布会致辞时也曾表示,字节跳动决心做好技术,必须在更大的市场、更多的场景去服务客户,经受市场的检验,才算是真的好。同时,字节跳动致力成为优秀的创新科技公司,会坚定长期投入,追求智能突破,服务产业应用。通过火山引擎,持续把新模型、新技术开放给企业客户。
MaaS第一后,火山引擎的下一步
在12月举办的Force大会媒体群访时,谭待曾表示,MaaS份额第一后,火山引擎的目标依旧是MaaS优先。当前模型服务主要集中在 ToC 行业,比如互联网公司、智能制造、消费电子以及汽车行业,随着模型应用进入更深的领域,以Agent为技术主体的AI云原生成为新需求,对模型和工具也会提出新要求。
他表示,火山引擎致力于降低 AI 应用的门槛,通过更高层次的封装,通过成本优化,加速AI普惠。
在基础的 MaaS(模型即服务)层,追求模型效果越来越好、成本越来越低,同时易用性提升。随着客户需求的推动,用模型 API 需要选模型、调 Prompt,火山引擎推出了Prompt Pilot、Model Router和Responses API,把一些工具内嵌进去,这样应用做起来更简单。
在更底层,火山引擎这个月还推出了模型的推理代工服务。客户可以直接把自己的模型托管在方舟上,像使用豆包模型服务一样方便,不需要自建底层设施。
MaaS 往上是 Agent 开发和Agent运营,随着应用迈向以 Agent 为技术主体,以模型为中心的AI云原生架构正在形成。新架构中,模型是软件的核心,MaaS 是使用模型的最佳方式,同时围绕 Agent 开发和 Agent 运营,云平台和中间件进一步把 Tokens 组装成 Agents,并实现 Agent 和现有工作流、Agent 和 Agent 之间的智能互通。

作为国内率先推出Agent开发、运营全套产品的云厂商,在谭待看来,过去如果模型服务用得很浅,比如只是拿模型做数据打标,模型API 的确随时可换。但如果要做的事情很复杂,比如视频创作时,要把客户画像跟模型结合,针对不同人群创造不同视频,并在里面融入私有数据、特定画风;做完这些模型微调,还要端到端地跑通、把一个 Agent 做好,那还需要身份认证、各种组件。
更进一步,当客户需求更多追求直接能解决问题,把模型串联到一起做一个Agent,把Agent封装为API的新方式出现了。近日,豆包助手API,即梦API都已经通过火山引擎对外提供服务。
就像红杉美国一直在讲10万亿美金的agent市场,从Agent的结果来看,商业逻辑就从tokens调用的IT预算,变成了BPO(人力外包)的角度,市场天花板也就变成全球客服市场有多大、全球开发程序员市场有多大,Agent会把原来的市场扩大很多倍。
相关攻略
BCBC币(BCBC)深度解析:技术底色与市场前景 在百花齐放的数字货币领域,总有项目希望以独特的技术路径站稳脚跟。BCBC币(BCBC)正是其中之一,它依托一套组合技术方案来构建其安全与稳定的基石,目标直指高效、低成本的支付新体验,同时也不失为投资者眼中一个潜在的增值选项。 技术架构:不止于共识的
BNB Chain完成第31次季度销毁,近10亿美元BNB永久退出流通 近日,全球顶尖的区块链基础设施BNB Chain正式完成了其第31次季度代币销毁。根据官方公布的数据,本次共计销毁了1,579,207 716枚BNB,按销毁时市场价值计算,总额高达约9 16亿美元。此次大规模销毁再次向市场展现
OpenClaw 核心命令完全指南:从入门到精通 当您开始接触一个新工具时,最常见的障碍是什么?往往是面对复杂的命令列表感到困惑,只能被动地复制粘贴。这不仅影响效率,而且在遇到问题时更难以排查。 本文将为您深入解析 OpenClaw 的关键指令,帮助您从基础操作者转变为理解原理的熟练用户,全面提升配
让AI告别“重视觉效果、轻物理逻辑”的行业短板,近期五一视界(51WORLD)发布全球首款物理直觉世界模型51World Model,实现AI遵循物理规律推演、与真实场景全要素交互的核心突破,彻底破
一台售价8 5万元的人形机器人,拆开来看,成本只有4 16万元,预估毛利率40 7%。但宇树G1的真正壁垒,藏在硬件之外。3月30日,中邮证券电新团队分析师苏千叶、盛炜、杨帅波发布《宇树G1人形机器
热门专题
热门推荐
《全面战争:中世纪3》:经典延续,如何平衡怀旧与创新? 近期,《全面战争:中世纪3》的项目负责人帕维尔·沃伊斯坦然指出,要打造一款真正优秀的续作,绝不能仅仅依赖对前作模式的简单复刻。这一观点引人深思——尽管《中世纪2:全面战争》至今仍在策略游戏爱好者心中占据着经典地位,但开发团队此次显然决心跳出“照
雷鸟X3 Pro斩获AWE艾普兰创新大奖,开启全民AR生活新篇章 在上海新国际博览中心隆重揭幕的2026年中国家电及消费电子博览会(AWE)上,前沿AI科技与未来生活愿景激情碰撞。全球消费级AR领导品牌雷鸟创新,以其里程碑式的表现,定义了行业发展的新方向。 通过“顶尖硬件科技+顶级文化IP”的双轨战
借力AWE2026“一展双区”,MOVA双区协同、震撼登场 备受瞩目的科技盛会——2026年中国家电及消费电子博览会(AWE),于3月12日至15日在上海盛大举办。本届AWE展会首次创新采用“一展双区”的展览模式,主会场位于上海新国际博览中心,分会场则设于上海东方枢纽国际商务合作区,两大展区高效联动
冰结师技能全解析 踏入2026年,《地下城与勇士》中的冰结师职业,其技能体系已构建得更为成熟与强大。无论是在副本中高效清理海量怪物,还是在决斗场与高手玩家周旋,这个职业都能凭借其独特的冰霜艺术掌控战局。刷图时,酷寒的范围法术可瞬间清屏;而在PVP竞技中,一套将冻结控制与瞬间爆发完美衔接的连招,往往让
iPhone 18 Pro系列模具不变,屏幕形态将与iPhone 17 Pro保持一致 备受期待的屏下Face ID组件小型化设计与灵动岛区域缩窄方案,预计将被推迟至后续迭代机型中正式应用。 近期,关于iPhone 18 Pro系列的技术传闻持续引发行业关注,尤其在显示与解锁设计领域传言甚多。多方消





