中国具身智能产业正迎来一个里程碑式节点。5月18日,上海市生成式人工智能服务备案名单正式公布,智元公司的WITA(硅光动语大模型)成功入选,成为全国首款完成合规备案的具身智能交互大模型。这不仅是一纸批文,更标志着整个行业从早期的“技术验证”阶段,加速迈向“合规商用”的新蓝海。
简而言之,WITA模型是智元为机器人打造的“大脑”中专门负责“交互智能”的核心模块。它率先应用于灵犀X2机器人,核心能力在于“察言观色”——通过识别人类的面部表情和语音语调,精准判断情感状态并作出回应。更关键的是,它实现了毫秒级的交互响应,并让机器人能够依赖视觉理解物理世界,不再完全依赖语音或文字指令。例如,当你同时展示咖啡和牛奶并询问“睡不着该喝什么”时,它会迅速指向牛奶并给出正确答案。这种直观的交互方式,正是具身智能迈向实用化的关键一步。

智元WITA成功通过上海市生成式AI服务合规备案。
然而,技术演进并非一蹴而就。随着机器人商用场景的不断拓展,WITA模型现有架构的局限性逐渐显现。智元机器人董事长邓泰华对此直言不讳,他指出当前模型的“三段式”工作流程:先将语音转为文字,交由大模型处理,再将生成的文字转为语音输出。这个过程如同传话游戏,说话者的语气、情绪等“言外之意”极易在文字转换中丢失。显然,这种并非为真实物理世界机器人定制的交互模式,仍有巨大改进空间,尤其在情感化语音、拟人表情和长期记忆等功能上亟待增强。

智元机器人灵犀X2。 新华社记者 方喆 摄
从“传话”到“对话”:具身智能下一代模型的关键跃迁
那么,下一代交互模型究竟应该是什么样?智元给出的答案是“端到端”架构。据悉,公司计划于今年第三季度推出行业首个端到端具身多模态交互大模型——WITA Omni 1.0。
所谓“端到端”,其革命性在于彻底跳过了中间的语音转文字、文字转语音环节。模型直接利用人类说话时的完整信息(包括声音频谱、语调等)进行训练和响应。这样一来,机器人在对话中不仅能理解字面意思,更能保留情绪和语境,回话时懂得分寸,更像一个真实的人在交流。
技术路径的革新带来了体验的质变。由于跳过了转换环节,WITA Omni的反应时延被压缩至500毫秒以内,这一速度已接近真人聊天的节奏。更重要的是,它支持随时插话、打断和纠正,使整个交流过程的感受几乎与人与人之间的对话无异。这正是具身智能迈向深度人机协作所必须跨越的门槛。
云端部署与本地化未来:具身智能的演进方向
关于模型的落地方式,邓泰华给出了清晰的路线图。WITA模型及其升级版WITA Omni均将以云服务的形式提供,基于全球云节点进行部署。可以将其理解为:WITA是面向广泛场景的基础云服务,而Omni则是满足更高阶交互需求的专业级服务。
但这并非终点。一个更具想象力的方向是本地化运行。邓泰华透露,未来的具身交互智能将逐步迁移至机器人本体运行。这意味着,即便在断网等特殊环境下,机器人也能像人类一样进行自然对话,其自主性和可靠性将获得极大提升。从云端赋能到本地智能,这或许是机器人真正融入我们日常生活和工作场景的终极形态。
技术的每一次合规备案,都是产业成熟度的一块基石。从WITA的率先破冰,到Omni的蓝图已绘,中国具身智能的交互之路正从“能听会说”迈向“善解人意”。接下来的故事,值得我们共同期待。
