5月18日,上海市网信办发布了生成式人工智能服务备案的最新动态。其中,智元公司自主研发的WITA(硅光动语)大模型成功通过合规备案,成为国内首个获得该资质的具身智能交互大模型。这一里程碑不仅为行业确立了合规典范,更标志着中国具身智能产业正从早期的技术验证期,稳健迈向合规商业化的新阶段。

那么,这款大模型究竟有何独特之处?它主要依托于智元提出的“三智一体”产品架构,核心目标就是应用于人形机器人交互场景。简单来说,它的使命是让机器人摆脱“会说话的工具”这种刻板印象,通过实现自然拟人的情感交互,升级为具有连续感和人格感的“硅基伙伴”。这里提到的“三智”,指的是运动智能、交互智能和作业智能;而“一体”,则是一个稳定可靠、同时兼具高上限与低成本的硬件本体。
其实,这一进展早有铺垫。在今年4月的智元合作伙伴大会上,公司就已将2026年明确为“部署态元年”。这个提法颇具深意,它标志着具身智能正在告别过去那种局限于实验室演示或单点技术炫技的“开发态”阶段,转而进入一个更务实的新时期——即机器人在真实落地场景中,能够稳定、连续、规模化地“干活”。换句话说,产业焦点正从让机器人“能动”,转向让机器人“能创造可量化的商业价值”。整个产业的商业逻辑,也随之从单纯的“售卖机器人硬件”,向“交付实际的生产力结果”悄然转变。
在此背景下,完成备案的WITA大模型被视作“交互智能部署态”的核心。它不仅是机器人情绪价值的入口,更是服务生产力的提供者。因此,其应用前景将广泛覆盖导览、导购、导引以及各类服务零售站等解决方案。此次成功备案,无疑为智元的“三智一体”产品架构提供了坚实的合规支撑,并将加速其全系列产品向规模化“部署态”全面迈进。
当然,这只是一个开始。据智元透露,公司计划在今年第三季度推出更具突破性的产品——行业首个机器人原生的端到端全模态交互大模型WITA Omni 1.0。这款模型的目标非常明确:将交互时延压缩至500毫秒以内,使其接近真人对话的节奏,从而实现正常语速下的连续交流。这意味着未来与机器人的对话,将支持中途插话、打断和纠正,情绪和语气也能做到实时呼应,交互的自然度将大幅提升。
更重要的是,WITA Omni 1.0致力于打破模态壁垒,让语言、语音、表情和动作不再各自为政,而是像人类一样协调统一地表达。同时,通过构建多模态交互数据飞轮,模型有望在真实场景的部署中持续学习、不断进化,真正做到越用越聪明。这一切,都在为那个机器人真正融入我们工作和生活的未来,铺平道路。
