崇实大学和中央大学联手破解机器人指令理解难题

时间：2026-04-21 18:02

当机器人听不懂“人话”：一项研究揭示AI助手的语言理解困境你对机器人说“把碗放到炉子上”，它能完美执行。但如果你换一种说法——“请将容器置于灶台之上”，同一个机器人可能就彻底“死机”了。这场景是不是像极了那些只会背标准答案的学生，考题稍微换个问法就不知所措？这个看似简单却影响深远的问题，最近被韩

当机器人听不懂“人话”：一项研究揭示AI助手的语言理解困境

你对机器人说“把碗放到炉子上”，它能完美执行。但如果你换一种说法——“请将容器置于灶台之上”，同一个机器人可能就彻底“死机”了。这场景是不是像极了那些只会背标准答案的学生，考题稍微换个问法就不知所措？

这个看似简单却影响深远的问题，最近被韩国崇实大学和中央大学的研究团队系统性地剖析并取得了关键进展。相关成果已发布于2026年3月的arXiv预印本平台（论文编号：arXiv:2603.28301v1）。研究不仅量化了当前机器人在理解同义指令时的严重短板，更构建了一套全新的评估体系，用以衡量其“语言理解韧性”。

惊人的性能落差：换个说法，成功率暴跌

研究揭示了一个颇为震撼的现象：即便是最先进的视觉-语言-动作模型，在面对语义完全相同、仅表达方式不同的指令时，任务成功率会骤降22%至52%。这好比一位原本得心应手的助手，仅仅因为你换了个措辞，就突然变得笨拙不堪。

更关键的是，分析表明，高达80%到96%的失败案例，根源并非机械臂抓取不准或导航出错，而是机器人压根就没理解任务目标。问题出在“大脑”的理解环节，而非“手脚”的执行环节。当指令从“打开炉子”变为“启动加热设备”，机器人可能陷入茫然，完全无法将新指令映射到已知动作。

LIBERO-Para：为机器人设计的“语言理解考试”

为了深入探究此问题，团队开发了一个名为LIBERO-Para的全新测试平台。它就像一套专为机器人设计的语言理解试卷，系统性地包含了43种表达变体。这些变化主要围绕两个维度展开：动作描述的变化与物体指称的变化。

在动作表达层面，团队归纳了三种核心变化类型：

1. 词汇层面变化：例如将“拾取”替换为“抓取”，或增加“小心地”这类修饰词。

2. 结构层面变化：将简单指令“拿碗放炉子上”扩展为复合句“拿起那个碗，然后把它放到炉子上”。

3. 语用层面变化：这也是最有趣的一类，涉及将直接命令转化为间接请求，例如“我需要把碗放到炉子上”或“你能把碗放到炉子上吗？”。

在物体指称层面，变化相对直接但影响显著。主要包括同义词替换（如“炉子”变“灶台”）以及添加描述性定语（如“碗”变“汤碗”）。

普遍存在的脆弱性：无论模型大小与架构

研究团队测试了七种不同的机器人模型，参数规模从6亿到75亿不等，覆盖了当前主流的四种架构。结果令人深思：所有模型，无论规模大小或架构如何，均表现出显著的语言理解脆弱性。表现最佳的模型在原始指令上成功率可达98.8%，但面对同义表达时，成功率跌至76%。而在最差的情况下，成功率甚至低至39.1%。

数据进一步指出，物体名称的词汇变化是导致性能下降的主因。仅仅将“炉子”改为“灶台”，就足以让机器人的表现大幅下滑。这强烈暗示，现有系统过度依赖表面词汇的精确匹配，缺乏深层次的语义理解能力。相对而言，动作表达的变化影响程度较小。

超越成败：更精细的PRIDE评估指标

传统评估只关注任务最终成功与否，如同考试只看总分。为此，团队开发了名为PRIDE的新型评估指标。它不仅衡量成功率，更会评估指令本身的复杂程度，通过分析关键词保留率与句法结构变化度，给出更精细的评分。

借助PRIDE指标，一个有趣的现象浮出水面：某些模型能较好处理简单的同义替换，却在复杂句法变化前败下阵来；另一些模型则相反，对句法有一定适应力，却对词汇替换异常敏感。这好比学生群体中，有人擅长解析长难句却记不住同义词，有人词汇量大但面对复杂句式就头疼。

失败根源：从第一步就理解错了

通过对任务执行轨迹的深入分析，团队锁定了失败的根本原因：绝大多数情况下，机器人并非在执行过程中间出错，而是在指令解析的最初阶段就误解了任务。这就像让人“去买苹果”，他却直奔橘子而去——错误始于理解，而非购买行动本身。

现实意义与深层启示

这项研究的价值远超学术范畴。随着家用与服务机器人日益普及，它们必须能理解人类千变万化的自然表达。用户不可能像输入代码一样使用标准化指令。如果机器人只能听懂训练数据中间出现过的特定句式，其实际应用价值将大打折扣。

研究还暴露了一个更深层的问题：当前机器人训练数据中语言多样性的严重匮乏。例如，在LIBERO数据集中，一个物体往往只有一个固定名称（“炉子”永远不会被称为“灶台”）。这无异于让学生只练习一种题型，考试稍作变化便无从下手。

值得注意的是，不同架构的模型在语言脆弱性上呈现出不同模式。有些模型在物体识别与动作识别间存在明显性能差，有些则较为均衡。这为未来的模型设计提供了关键洞见。

另一个反直觉的发现是：即使将训练任务的多样性提升四倍，也未能显著改善语言理解的鲁棒性。这说明，问题的核心并非训练数据量的不足，而在于数据中表达方式的单一性。就像阅读量虽大，但若文体风格千篇一律，依然无法应对多样的文本。

未来之路：迈向真正理解“人话”的机器人

这项研究对产业界、用户和学术界都具有明确指引：

对于制造商，它警示了在训练数据中纳入多样化语言表达的必要性；对于用户，它解释了为何有时换个说法机器人就“不听话”；对于研究者，它指明了改进方向——提升模型对语言变化的适应能力，远比单纯扩大模型规模或堆砌数据更为关键。

研究的科学性通过严谨的人工评估得到了验证。15名评估员对205个样本进行独立判断，结果显示99.51%的同义表达确实保持了原意，确保了实验设计的可靠性。

此外，一个技术细节值得玩味：那些冻结了视觉-语言模块、仅训练动作模块的模型，在执行层面的失败率反而更高。这揭示了视觉-语言理解与动作执行之间存在复杂的耦合关系，不可简单割裂处理。

归根结底，这项研究点明了一个基础而关键的挑战：机器人需要获得如人类般灵活的语言理解能力。人类能轻松理解“把门打开”、“请开一下门”、“门需要打开”表达的是同一意图，但现有机器人还远未达到此境界。这不仅是技术瓶颈，更是机器人能否真正融入日常生活的分水岭。

团队的工作为解决该问题奠定了重要基础：他们识别了问题，开发了评估工具，剖析了根源，并指明了方向。虽然完全解决前路尚远，但这项研究无疑是迈向正确方向的关键一步。对技术细节感兴趣的读者，可通过论文编号arXiv:2603.28301v1查阅全文。

Q&A

Q1：LIBERO-Para是什么？

A：LIBERO-Para是韩国研究团队开发的专用测试平台，用于系统评估机器人对同义指令的理解能力。它包含43种表达变化，如同为机器人设计的“语言理解考试”，能精准检测其是否真正把握了指令语义。

Q2：为什么换个说法机器人就不会执行任务了？

A：核心原因在于当前机器人过度依赖表层词汇匹配，缺乏深层语义理解。例如，训练时只接触过“炉子”一词，当听到“灶台”时便无法关联到同一物体。研究发现，80-96%的失败源于任务理解错误，而非执行过程出错。

Q3：PRIDE评估指标有什么特别之处？

A：PRIDE指标超越了简单的成败二分法。它同时考量指令的复杂程度，通过分析关键词保留与句法变化，能够区分机器人是在简单表达上成功，还是在复杂表达上也能胜任，从而提供更精准、更有洞察力的性能评估。

来源：https://www.163.com/dy/article/KQGIM4DC0511DTVV.html

机器人

上一篇香港搭建国际高端对话平台，院士论坛热议AI赋能健康与教育 下一篇CEO亲自上阵写代码，消息称扎克伯格将工位搬进Meta AI团队

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

优必选CEO周剑：家庭机器人生态核心投入过半精力

先说几个核心判断：优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上，直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进，现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景，另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间，技术路线尚未收敛

6月30日，申银万国在光连接系列研报中重点指出，MPO光连接器领域的投资机会值得高度关注。通俗来说，随着AI算力集群持续扩张，光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件，如今它直接决定着链路插损、可

科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上，区级部门一次性推出了7个AI“龙搭子”。其中，名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解，依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”，已在今年五一假期发布了内测版本。经过一个月市场验证后，该项目正式启动面向全社会的

科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日，南下资金持续大举买入港股，单日净流入金额高达58 95亿港元。接下来，我们直接盘点哪些个股获得资金青睐、哪些遭到减持：净买入方面，中芯国际领跑全场，单日吸金19 33亿港元；建滔积层板紧随其后，净买入10 59亿港元；腾讯控股获得7 65亿港元净流入；智谱（02513 HK）也有6 5

科技数码 · 2026-07-01

电动汽车电池新国标7月实施热失控不起火不爆炸

自2026年7月1日起，两项关乎电动汽车安全的核心强制性国家标准将正式实施，为行业加装“安全锁”——《电动汽车安全要求》（GB 18384-2025）与《电动汽车用动力蓄电池安全要求》（GB 38031-2025）同步落地。此次标准升级，从整车架构与电池系统两大维度，精准填补了近年来多起事故暴露出的