游乐游手机版
首页/科技数码/文章详情

智元具身交互模型通过合规备案,今年将推升级版实现自然对话

时间:2026-06-04 13:27
中国具身智能产业正迎来一个里程碑式节点。5月18日,上海市生成式人工智能服务备案名单正式公布,智元公司的WITA(硅光动语大模型)成功入选,成为全国首款完成合规备案的具身智能交互大模型。这不仅是一纸批文,更标志着整个行业从早期的“技术验证”阶段,加速迈向“合规商用”的新蓝海。 简而言之,WITA模型

中国具身智能产业正迎来一个里程碑式节点。5月18日,上海市生成式人工智能服务备案名单正式公布,智元公司的WITA(硅光动语大模型)成功入选,成为全国首款完成合规备案的具身智能交互大模型。这不仅是一纸批文,更标志着整个行业从早期的“技术验证”阶段,加速迈向“合规商用”的新蓝海。

简而言之,WITA模型是智元为机器人打造的“大脑”中专门负责“交互智能”的核心模块。它率先应用于灵犀X2机器人,核心能力在于“察言观色”——通过识别人类的面部表情和语音语调,精准判断情感状态并作出回应。更关键的是,它实现了毫秒级的交互响应,并让机器人能够依赖视觉理解物理世界,不再完全依赖语音或文字指令。例如,当你同时展示咖啡和牛奶并询问“睡不着该喝什么”时,它会迅速指向牛奶并给出正确答案。这种直观的交互方式,正是具身智能迈向实用化的关键一步。


智元WITA成功通过上海市生成式AI服务合规备案。

然而,技术演进并非一蹴而就。随着机器人商用场景的不断拓展,WITA模型现有架构的局限性逐渐显现。智元机器人董事长邓泰华对此直言不讳,他指出当前模型的“三段式”工作流程:先将语音转为文字,交由大模型处理,再将生成的文字转为语音输出。这个过程如同传话游戏,说话者的语气、情绪等“言外之意”极易在文字转换中丢失。显然,这种并非为真实物理世界机器人定制的交互模式,仍有巨大改进空间,尤其在情感化语音、拟人表情和长期记忆等功能上亟待增强。


智元机器人灵犀X2。 新华社记者 方喆 摄

从“传话”到“对话”:具身智能下一代模型的关键跃迁

那么,下一代交互模型究竟应该是什么样?智元给出的答案是“端到端”架构。据悉,公司计划于今年第三季度推出行业首个端到端具身多模态交互大模型——WITA Omni 1.0。

所谓“端到端”,其革命性在于彻底跳过了中间的语音转文字、文字转语音环节。模型直接利用人类说话时的完整信息(包括声音频谱、语调等)进行训练和响应。这样一来,机器人在对话中不仅能理解字面意思,更能保留情绪和语境,回话时懂得分寸,更像一个真实的人在交流。

技术路径的革新带来了体验的质变。由于跳过了转换环节,WITA Omni的反应时延被压缩至500毫秒以内,这一速度已接近真人聊天的节奏。更重要的是,它支持随时插话、打断和纠正,使整个交流过程的感受几乎与人与人之间的对话无异。这正是具身智能迈向深度人机协作所必须跨越的门槛。

云端部署与本地化未来:具身智能的演进方向

关于模型的落地方式,邓泰华给出了清晰的路线图。WITA模型及其升级版WITA Omni均将以云服务的形式提供,基于全球云节点进行部署。可以将其理解为:WITA是面向广泛场景的基础云服务,而Omni则是满足更高阶交互需求的专业级服务。

但这并非终点。一个更具想象力的方向是本地化运行。邓泰华透露,未来的具身交互智能将逐步迁移至机器人本体运行。这意味着,即便在断网等特殊环境下,机器人也能像人类一样进行自然对话,其自主性和可靠性将获得极大提升。从云端赋能到本地智能,这或许是机器人真正融入我们日常生活和工作场景的终极形态。

技术的每一次合规备案,都是产业成熟度的一块基石。从WITA的率先破冰,到Omni的蓝图已绘,中国具身智能的交互之路正从“能听会说”迈向“善解人意”。接下来的故事,值得我们共同期待。

来源:https://www.163.com/dy/article/KT88TGED055040N3.html
上一篇工业富联市值超越贵州茅台 创A股纪录 下一篇AI大模型如何“记住”知识?
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
加油站卖车 全国首座能源汽车综合服务站落地
科技数码 · 2026-06-04

加油站卖车 全国首座能源汽车综合服务站落地

广汽集团与中国石化在广东湛江遂溪建成全国首座“能源+汽车”综合服务站,推出加油站+汽车销售+维保一体化新模式,填补县域市场跨界空白,构建看车、购车、养车、加油一站式用车服务生态圈。

谷歌被曝研发至少8款Googlebook安卓本 今秋发布
科技数码 · 2026-06-04

谷歌被曝研发至少8款Googlebook安卓本 今秋发布

谷歌正在研发至少8款Googlebook安卓笔记本,计划今年秋季发布。其中4款搭载英特尔PantherLake芯片,3款采用高通骁龙X系列,1款配备联发科迅鲲Ultra芯片并支持可拆卸键盘设计。

巴菲特重仓谷歌而非英伟达的投资逻辑
科技数码 · 2026-06-04

巴菲特重仓谷歌而非英伟达的投资逻辑

伯克希尔·哈撒韦重仓谷歌而非英伟达,因其看好AI基础设施的长期价值。谷歌拥有搜索现金流、云服务和数据中心,商业模式可预测。伯克希尔认为投资“卖铲子的人”更具确定性,而非高风险的AI模型公司。

2026年WWDC最值得关注的升级与实操避坑指南
科技数码 · 2026-06-04

2026年WWDC最值得关注的升级与实操避坑指南

2026年苹果全球开发者大会预计将聚焦于人工智能与操作系统的深度融合。iOS18、iPadOS18等系统或将迎来AI原生体验的全面升级,包括更智能的Siri、系统级AI助手以及开发工具的革新。对于开发者和用户而言,了解新特性适配、隐私数据准备以及测试流程是顺利过渡的关键。

iPhone语音备忘录内置AI转写功能iOS 18起无
科技数码 · 2026-06-04

iPhone语音备忘录内置AI转写功能iOS 18起无

你是否也遇到过这样的场景——会议刚结束、课程刚刚听完、采访也收了尾,手机里却躺着一段十几分钟甚至更长的录音,亟待整理成文字? 原本想着快速转成文本,结果反复暂停、回放、快进,三十分钟的音频硬生生耗了一个多小时才逐字敲完。不少人不得不下载第三方转写工具,到头来却发现——付费门槛才是真正的绊脚石。 其实