
12月18日,字节跳动旗下云平台火山引擎正式发布豆包大模型1.8和音视频创作模型Seedance 1.5 pro。数据显示,豆包大模型的日均tokens调用量已突破 50 万亿次,而在今年9月,这一数字为30万亿次。
豆包AI手机上线的消息,依然是行业关注的焦点。行业内将互联网 APP 对 AI 应用的针对性限制,解读为“Agent 时代与 APP 时代之间的冲突”。对此,火山引擎总裁谭待在受访时回应称:行业当前发展阶段尚早,AI 落地仍处于早期阶段,所谓的“冲突”本质取决于观察视角。对用户而言,核心价值不在于满足需求的载体是 Agent、APP、网页或是电话,而在于能否更便利、更低成本地达成目标。比如过去人们可能因为下楼买咖啡太麻烦就作罢了,而现在有机器人配送让点餐更便捷,需求直接升级为一天两杯——这正是技术创造关键价值的地方。
谭待认为,日常生活中仍存在大量未被充分满足的需求,AI的核心作用应是优化这些需求的解决效率。就像APP并未完全取代Web一样,Agent也不会淘汰现有载体,反而会因需求扩容、用户时长增加,形成Web、APP、Agent共存互补的格局。
除了外部独立 APP 的“反制”,整个技术生态的成熟度也尚未做好全面迎接 Agent 的准备。对此,火山引擎智能算法负责人吴迪对记者表示,当前行业对AI与 Agent 的探索仍处于摸索阶段。在过渡期里,市场需求已然存在,但模型尚不完善,企业实践也各有特色,这种状态预计还会持续三年左右。从生态与第三方视角来看,行业“是否准备就绪”的核心在于 Agent 工具的完善程度。吴迪透露,公司内部已投入大量精力,尝试将存量功能转化为 Agent 可识别、可调用的工具。
谭待向记者补充道,不论是豆包AI助手还是各类APP产品,本质上都是由众多复杂Agent构成的集合。即便是搜索、垂类问答等功能,背后也都对应不同逻辑的Agent。而当前Agent亟待突破的两大核心挑战,包括基础设施能力支撑与真实线上落地要求,需满足健全性、运行时稳定性、弹性伸缩、数据安全等高可靠标准。
2025年步入尾声,海内外模型龙头企业密集发力,包括 Seedance 1.5 pro 在内的多款多模态大模型接连更新迭代。对此,谭待分析称,多模态能力让大模型能像人一样“看、听、说、做”,标志着AI应用正深入更具体的实际场景。过去使用大模型多为文字聊天,现在需要让它办更多实事——无论是开车时的路况识别、产品质检中的瑕疵检测,还是餐饮服务里的需求响应,都需要有视觉输入。并且在使用模型工具后,返回的结果常以图片、视频等可视化内容为主,得能“看得懂”,才能进行后续处理。
至于多模态技术仍面临的数据规模等难题,谭待认为需要耐心。相关模型较去年已能解决非常多实际问题,模型进步并解锁一个领域的速度非常快。对于行业竞争,他认为厂商之间最重要的是先把市场做大,帮助各行各业更快实现 AI 落地。
作为云平台,火山引擎持续强调 AI 时代云计算服务的价值。此前,AWS 管理层公开表示,其生成式 AI 平台 Bedrock 的目标是成为“全球最大的推理引擎”,长期潜力可与 AWS 核心计算服务 EC2 相媲美,后者的市场规模约在400亿美元上下。谭待认可这一趋势,并将MaaS业务的发展趋势类比芯片行业:两年前行业 GPU 出货量已超过 CPU,MaaS 也正经历从 GPU 内训练向推理端过渡的过程。
谭待还以 2025 年初的 AI 浪潮为例,佐证 AI 时代云业务的重要性:当时 DeepSeek 带火了一体机销售,但最终很多人还是“砸”在手里了,核心原因是 AI 与大模型技术持续快速迭代,甚至三个月就更新一代,而 Agent、AgentKit、RAG 等技术产品难以私有化部署,且一体机固定算力也很难支撑丰富的 AI 应用落地。基于此,他判断软件时代的私有化部署模式,在 AI 时代将被逐渐淘汰。
