首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
崇实大学和中央大学联手破解机器人指令理解难题

崇实大学和中央大学联手破解机器人指令理解难题

热心网友
76
转载
2026-04-21

当机器人听不懂“人话”:一项研究揭示AI助手的语言理解困境


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

你对机器人说“把碗放到炉子上”,它能完美执行。但如果你换一种说法——“请将容器置于灶台之上”,同一个机器人可能就彻底“死机”了。这场景是不是像极了那些只会背标准答案的学生,考题稍微换个问法就不知所措?

这个看似简单却影响深远的问题,最近被韩国崇实大学和中央大学的研究团队系统性地剖析并取得了关键进展。相关成果已发布于2026年3月的arXiv预印本平台(论文编号:arXiv:2603.28301v1)。研究不仅量化了当前机器人在理解同义指令时的严重短板,更构建了一套全新的评估体系,用以衡量其“语言理解韧性”。

惊人的性能落差:换个说法,成功率暴跌

研究揭示了一个颇为震撼的现象:即便是最先进的视觉-语言-动作模型,在面对语义完全相同、仅表达方式不同的指令时,任务成功率会骤降22%至52%。这好比一位原本得心应手的助手,仅仅因为你换了个措辞,就突然变得笨拙不堪。

更关键的是,分析表明,高达80%到96%的失败案例,根源并非机械臂抓取不准或导航出错,而是机器人压根就没理解任务目标。问题出在“大脑”的理解环节,而非“手脚”的执行环节。当指令从“打开炉子”变为“启动加热设备”,机器人可能陷入茫然,完全无法将新指令映射到已知动作。

LIBERO-Para:为机器人设计的“语言理解考试”

为了深入探究此问题,团队开发了一个名为LIBERO-Para的全新测试平台。它就像一套专为机器人设计的语言理解试卷,系统性地包含了43种表达变体。这些变化主要围绕两个维度展开:动作描述的变化与物体指称的变化。

在动作表达层面,团队归纳了三种核心变化类型:

1. 词汇层面变化:例如将“拾取”替换为“抓取”,或增加“小心地”这类修饰词。

2. 结构层面变化:将简单指令“拿碗放炉子上”扩展为复合句“拿起那个碗,然后把它放到炉子上”。

3. 语用层面变化:这也是最有趣的一类,涉及将直接命令转化为间接请求,例如“我需要把碗放到炉子上”或“你能把碗放到炉子上吗?”。

在物体指称层面,变化相对直接但影响显著。主要包括同义词替换(如“炉子”变“灶台”)以及添加描述性定语(如“碗”变“汤碗”)。

普遍存在的脆弱性:无论模型大小与架构

研究团队测试了七种不同的机器人模型,参数规模从6亿到75亿不等,覆盖了当前主流的四种架构。结果令人深思:所有模型,无论规模大小或架构如何,均表现出显著的语言理解脆弱性。表现最佳的模型在原始指令上成功率可达98.8%,但面对同义表达时,成功率跌至76%。而在最差的情况下,成功率甚至低至39.1%。

数据进一步指出,物体名称的词汇变化是导致性能下降的主因。仅仅将“炉子”改为“灶台”,就足以让机器人的表现大幅下滑。这强烈暗示,现有系统过度依赖表面词汇的精确匹配,缺乏深层次的语义理解能力。相对而言,动作表达的变化影响程度较小。

超越成败:更精细的PRIDE评估指标

传统评估只关注任务最终成功与否,如同考试只看总分。为此,团队开发了名为PRIDE的新型评估指标。它不仅衡量成功率,更会评估指令本身的复杂程度,通过分析关键词保留率与句法结构变化度,给出更精细的评分。

借助PRIDE指标,一个有趣的现象浮出水面:某些模型能较好处理简单的同义替换,却在复杂句法变化前败下阵来;另一些模型则相反,对句法有一定适应力,却对词汇替换异常敏感。这好比学生群体中,有人擅长解析长难句却记不住同义词,有人词汇量大但面对复杂句式就头疼。

失败根源:从第一步就理解错了

通过对任务执行轨迹的深入分析,团队锁定了失败的根本原因:绝大多数情况下,机器人并非在执行过程中间出错,而是在指令解析的最初阶段就误解了任务。这就像让人“去买苹果”,他却直奔橘子而去——错误始于理解,而非购买行动本身。

现实意义与深层启示

这项研究的价值远超学术范畴。随着家用与服务机器人日益普及,它们必须能理解人类千变万化的自然表达。用户不可能像输入代码一样使用标准化指令。如果机器人只能听懂训练数据中间出现过的特定句式,其实际应用价值将大打折扣。

研究还暴露了一个更深层的问题:当前机器人训练数据中语言多样性的严重匮乏。例如,在LIBERO数据集中,一个物体往往只有一个固定名称(“炉子”永远不会被称为“灶台”)。这无异于让学生只练习一种题型,考试稍作变化便无从下手。

值得注意的是,不同架构的模型在语言脆弱性上呈现出不同模式。有些模型在物体识别与动作识别间存在明显性能差,有些则较为均衡。这为未来的模型设计提供了关键洞见。

另一个反直觉的发现是:即使将训练任务的多样性提升四倍,也未能显著改善语言理解的鲁棒性。这说明,问题的核心并非训练数据量的不足,而在于数据中表达方式的单一性。就像阅读量虽大,但若文体风格千篇一律,依然无法应对多样的文本。

未来之路:迈向真正理解“人话”的机器人

这项研究对产业界、用户和学术界都具有明确指引:

对于制造商,它警示了在训练数据中纳入多样化语言表达的必要性;对于用户,它解释了为何有时换个说法机器人就“不听话”;对于研究者,它指明了改进方向——提升模型对语言变化的适应能力,远比单纯扩大模型规模或堆砌数据更为关键。

研究的科学性通过严谨的人工评估得到了验证。15名评估员对205个样本进行独立判断,结果显示99.51%的同义表达确实保持了原意,确保了实验设计的可靠性。

此外,一个技术细节值得玩味:那些冻结了视觉-语言模块、仅训练动作模块的模型,在执行层面的失败率反而更高。这揭示了视觉-语言理解与动作执行之间存在复杂的耦合关系,不可简单割裂处理。

归根结底,这项研究点明了一个基础而关键的挑战:机器人需要获得如人类般灵活的语言理解能力。人类能轻松理解“把门打开”、“请开一下门”、“门需要打开”表达的是同一意图,但现有机器人还远未达到此境界。这不仅是技术瓶颈,更是机器人能否真正融入日常生活的分水岭。

团队的工作为解决该问题奠定了重要基础:他们识别了问题,开发了评估工具,剖析了根源,并指明了方向。虽然完全解决前路尚远,但这项研究无疑是迈向正确方向的关键一步。对技术细节感兴趣的读者,可通过论文编号arXiv:2603.28301v1查阅全文。

Q&A

Q1:LIBERO-Para是什么?

A:LIBERO-Para是韩国研究团队开发的专用测试平台,用于系统评估机器人对同义指令的理解能力。它包含43种表达变化,如同为机器人设计的“语言理解考试”,能精准检测其是否真正把握了指令语义。

Q2:为什么换个说法机器人就不会执行任务了?

A:核心原因在于当前机器人过度依赖表层词汇匹配,缺乏深层语义理解。例如,训练时只接触过“炉子”一词,当听到“灶台”时便无法关联到同一物体。研究发现,80-96%的失败源于任务理解错误,而非执行过程出错。

Q3:PRIDE评估指标有什么特别之处?

A:PRIDE指标超越了简单的成败二分法。它同时考量指令的复杂程度,通过分析关键词保留与句法变化,能够区分机器人是在简单表达上成功,还是在复杂表达上也能胜任,从而提供更精准、更有洞察力的性能评估。

来源:https://www.163.com/dy/article/KQGIM4DC0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智元官宣新品,加速具身智能商业化
科技数码
智元官宣新品,加速具身智能商业化

智元发布全栈生态技术体系,具身智能商业化进程提速 最近,智元在合作伙伴大会上放了个“大招”,一口气亮出了四大本体新品、六大AI模型以及七大生产力解决方案。更关键的是,他们首次对外公开了完整的AIMA全栈生态技术体系。这一系列动作,信号再明确不过:这家公司正全力开动引擎,要把具身智能从实验室和演示厅,

热心网友
04.20
具身智能机器人路演亮相福州五一广场
科技数码
具身智能机器人路演亮相福州五一广场

来源:新华网 前沿科技的魅力,正从实验室与展台走向大众生活。4月19日,福州五一广场人潮涌动,一场别开生面的具身智能机器人路演在此精彩上演,吸引了众多市民驻足围观。这场充满未来科技感的公开表演,是为预热即将开幕的第九届数字中国建设峰会而特别策划的公众活动。它成功地将高深的智能技术以直观、生动、可互动

热心网友
04.20
什么是MEV(最大可提取价值)?它如何影响你的链上交易成本?
web3.0
什么是MEV(最大可提取价值)?它如何影响你的链上交易成本?

深入解析MEV:区块链交易的隐形成本与应对策略 在区块链的世界里,每一笔交易的成本并不仅仅是你支付的Gas费。一个名为最大可提取价值的复杂机制,正悄然成为影响你链上资产安全与交易效率的关键因素。简单来说,MEV指的是验证者或矿工利用其打包和排序交易的权力,通过策略性操作所能提取的额外价值总和。它如同

热心网友
04.20
热点追踪|机器人跑半马,今年变化在哪?
科技数码
热点追踪|机器人跑半马,今年变化在哪?

热点追踪|机器人跑半马,今年变化在哪? 4月19日,全球首个人形机器人马拉松品牌赛事——2026北京亦庄半程马拉松暨人形机器人半程马拉松,在北京经济技术开发区鸣枪开跑。 那么,今年的比赛和去年相比,到底有哪些不同?简单来说,这是一次从规模到技术的全面升级。参赛队伍更多了,赛道设计更贴近实战了,而机器

热心网友
04.20
Demo秀终结,机器人连干8小时不歇!智元定义「部署态」
AI
Demo秀终结,机器人连干8小时不歇!智元定义「部署态」

新智元报道 编辑:好困 桃子 【新智元导读】今天,智元正式定义2026为「部署态」元年。机器人要在产线上7×24小时自主干活,正式开启万亿级生产力飞轮。 具身智能,无疑是当下科技圈最炙手可热的赛道,没有之一。 发布会一场接一场,演示视频一个比一个炫酷:空翻、踢沙袋、分拣电池……技术秀层出不穷。 市场

热心网友
04.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

苹果手机互传PDF文档怎么弄_用AirDrop或微信文件传输【方式】
iphone
苹果手机互传PDF文档怎么弄_用AirDrop或微信文件传输【方式】

一、使用AirDrop发送PDF 说到在苹果设备之间传文件,说实话,AirDrop真是我心中的“王牌方案”。它不绕任何弯路,直接用蓝牙和Wi-Fi在你和对方的设备之间建一条“专属加密通道”,整个过程不走网络,所以你的PDF原原本本是啥样,传过去就是啥样,画质、格式丝毫不变。更棒的是,完全不用折腾什么

热心网友
04.21
收银员个人年度工作总结热门推荐范文2026
办公文书
收银员个人年度工作总结热门推荐范文2026

时光飞逝,又到一年总结复盘时。一份详实深刻的年度工作总结,不仅是对过往工作的系统梳理,更是个人职业成长与未来规划的重要基石。为助力广大收银岗位同仁高效完成年终总结,我们特别精选并优化了以下几篇具有代表性的收银员年度工作总结范文,涵盖酒店、超市等多场景,希望能为您提供切实可行的参考与灵感。 收银员个人

热心网友
04.21
中科创达 AquaDrive AIOS 1.0 HMI 斩获 2026 德国 IF 设计大奖,定义 AI 座舱新体验
业界动态
中科创达 AquaDrive AIOS 1.0 HMI 斩获 2026 德国 IF 设计大奖,定义 AI 座舱新体验

全球公认的设计权威认证 最近,2026年德国iF设计大奖的获奖名单正式公布了。这个奖项什么分量?这么说吧,自1954年创立以来,它一直是全球设计领域最具影响力和公信力的标杆之一。每年,来自世界各地的顶尖品牌和设计团队都会带着作品参评,其竞争激烈程度可想而知。 评审过程堪称严苛。一个由国际专家组成的独

热心网友
04.21
mysql如何解决1045访问拒绝错误_检查用户权限表与本地Socket连接路径
数据库
mysql如何解决1045访问拒绝错误_检查用户权限表与本地Socket连接路径

MySQL 1045访问拒绝错误深度解析:从连接认证机制到根治方案 当MySQL报出1045错误时,许多用户的第一直觉是“密码输错了”。然而,这个错误的本质是“身份认证失败”,更准确的描述是“连接通道已建立,但服务器拒绝认可你的身份”。解决问题的核心,并非盲目地重置密码,而是首先要精准核对mysql

热心网友
04.21
《星痕共鸣》S3赛季将于3月19日正式上线!
游戏资讯
《星痕共鸣》S3赛季将于3月19日正式上线!

《星痕共鸣》S3赛季前瞻:赤炎狂战士燃爆登场,乐手系统奏响艾恩瓦尔 各位艾恩瓦尔的冒险者们,准备好了吗?3月19日,《星痕共鸣》的S3赛季将正式拉开帷幕。这一季的更新,可不止是修修补补,而是实打实地投下了几枚“重磅冲击波”——从暴力美学代言人「赤炎狂战士」,到能让你切换成文艺模式的「乐手系统」,再到

热心网友
04.21