在实时互动技术领域,声网正凭借对话式AI战略掀起新一轮浪潮。这家以实时音视频技术为核心的企业近期宣布,其年度服务分钟数突破万亿大关,同时推出多款对话式AI相关产品,引发行业高度关注。此次战略转型的背后,既是技术迭代的必然趋势,也体现了对市场风向的精准预判。
声网的战略调整绝非偶然。2024年,OpenAI通过ChatGPT的语音交互功能及与声网合作推出的Realtime+API,为行业树立了全新标杆。声网AI RTE产品线负责人姚光华透露,正是洞察到对话式AI在C端和B端市场的爆发潜力,公司决定将资源向该领域倾斜。数据显示,全球已有67%的企业将语音智能体纳入战略核心,84%的企业计划加大投入,这为声网提供了广阔的市场空间。
在技术层面,实现高质量的对话式AI需要多环节协同。MiniMax开放平台解决方案高级总监冯韫解释道,系统需通过Voice Agent判断说话人身份,经ASR(自动语音识别)转换内容后,由大语言模型进行处理,最终通过TTS(文本转语音)输出结果。每个环节都存在优化空间,例如声网新推出的对话式AI引擎2.0,通过支持更多ASR/TTS供应商、优化对话时机判断等功能,显著提升了用户体验。
围绕对话场景,声网构建了完善的产品矩阵。对话式AI Studio平台允许用户通过编排或API集成方式快速开发应用;模型评测平台则根据延迟、成本等指标为客户推荐最优方案;开发套件进一步降低了集成门槛。这些工具已应用于多个热门领域:AI语音助手(如ChatGPT、豆包)、社交陪伴(如Talkie、Soul)及智能潮玩(如玑博-Fuzozo)均位列声网发布的场景热度榜前三。
尽管市场前景广阔,技术挑战依然存在。冯韫指出,当前对话式AI的端到端延迟仍需优化,800毫秒是合理目标,但未来需进一步压缩。行业调研显示,仅21%的用户对现有AI对话体验满意,用户流失率居高不下。根本原因在于,人类对话中超过90%的信息通过语调、表情等非语言要素传递,而现有技术在情感理解、上下文管理等复杂场景的应对仍显不足。
声网创始人赵斌将对话式AI视为下一代AI基础设施的核心组成部分。市场数据支撑了这一判断:AI陪伴赛道规模有望从3000万美元跃升至700亿-1500亿美元。声网相关用量在2025年第三季度环比增长151%,显示出强劲增长势头。财务表现上,公司2025年二季度营收3430万美元,同比增长0.5%,净利润150万美元,实现扭亏为盈。
这场转型能否持续?声网的选择既面临机遇,也需应对巨头竞争。其优势在于深耕实时互动技术多年,构建了低延迟、高并发的技术底座;挑战则在于如何将技术优势转化为商业成功。随着对话式AI从概念走向落地,声网与同行正站在一个充满不确定性的新起点上。
