
教会机器人使用家用电器,这不仅是科幻场景,更是家庭服务机器人实现真正落地的核心挑战之一。相比在桌面上抓取物品,操作微波炉、洗衣机等设备要复杂得多。机器人不仅需要精准识别各类按钮、旋钮和舱门,还必须深入理解复杂的操作流程与状态约束——一个按键的错误,就可能导致整个程序失效。
因此,如何让机器人准确理解产品说明书,并据此规划出安全可靠的操作步骤,成为“具身智能”能否无缝融入家庭环境的关键。近期,来自北京大学、上纬启元研究院与京东的研究团队,在CVPR 2026上发布了一项突破性成果:RealAppliance数据集及其配套的评测基准RealAppliance-Bench。这项研究直面说明书驱动的家电操作规划难题,旨在通过一套高保真仿真系统,解决机器人实操评估的痛点,加速技术走向真实应用。
为何必须采用仿真进行评测?核心原因在于成本与安全。在实体家电上让算法反复“试错”,风险极高。一次误操作可能损坏设备,甚至带来安全隐患。此外,家电种类繁多,购置与维护成本高昂,进行大规模、可重复的实体实验几乎不可行。而现有的仿真资源大多只注重外观还原,忽略了内在的程序逻辑与状态约束,与实际产品差距较大,难以满足基于说明书的复杂操作测评需求。
正是针对这些瓶颈,由北京大学长聘副教授、上纬启元首席科学家董豪领衔的团队,完成了RealAppliance系列的研发。值得关注的是,该团队在去年(CVPR 2025)已率先提出这一研究方向;今年的工作则更进一步,将测评维度从单一的手册理解,拓展为“说明书文本-设备外观-交互功能-运行状态”一体化的完整操作体系。

RealAppliance数据集概览,包含100个高保真家电模型,覆盖14个常见类别,并为每个资产配套真实说明书。
构建高保真数字家电“博物馆”
RealAppliance数据集犹如一座精心打造的数字家电“博物馆”,收录了100款高精度3D模型,涵盖微波炉、烤箱、咖啡机等14类日常电器。其“高保真”特性体现在四个核心维度:真实的说明书、精确的外观构造、可交互的操控方式以及严密的内部程序逻辑。
数据集整合了中、俄、法、德等多语种原版设备手册,确保每一款数字资产都有据可查。从尺寸参数、部件功能到状态切换规则,均与实物保持高度一致。这为算法测试提供了一个既可复用、又能灵活扩展的仿真实验平台。

传统数据集普遍缺乏手册对齐与程序逻辑,而RealAppliance实现了说明书、资产与交互逻辑的系统对齐。
这与传统仿真数据集形成鲜明对比。后者通常仅还原运动结构,而RealAppliance构建的是一个“说明书-资产-程序逻辑”联动的完整体系。它不仅能模拟按下按钮的动作,还能模拟按下后设备的状态变化、顺序约束以及操作错误时的反馈,为研究建立了一个标准化的评估框架。
从实物到数字资产的精细还原
如此高保真的数据集是如何构建的?整个过程堪称一项系统工程。
团队首先广泛搜集了海内外家电的实物照片和原版说明书,并依据“可机械操作、文本适配模型处理、步骤描述清晰、数据信息完备”四项硬性标准进行严格筛选。随后,利用专业建模软件对家电外观进行精细复刻,拆分出每一个可独立操作的功能部件,并在纹理、色彩乃至标识细节上反复打磨。
仅有外观还不够,还需赋予其“灵魂”。团队为此搭建了物理与电子两大模块化交互机制,涵盖了弹簧复位、磁吸闭合、屏幕显示、电机运转等10类运行模式,使仿真家电能够提供真实的操作反馈和状态变化。最后,也是最关键的一步:对照原版说明书编写运行脚本,设定温度、时长、工作模式等核心参数,完整还原家电从开机、运行到停止的整套工作流程。

RealAppliance资产构建流程:收集手册与照片、完成高保真建模、配置交互机制,并依据说明书设计程序逻辑。
五重关卡,全面检验算法“实操”能力
基于此数据集,团队打造了RealAppliance-Bench评测基准。它模拟了机器人操作家电的全过程,设置了五个递进式的测试任务,堪称算法的“五重关卡”:
- 手册页面检索:根据给定任务,从说明书中快速定位相关操作章节。
- 开环操作规划:依据检索到的说明,规划出一系列正确的动作步骤序列。
- 电器部件定位:在3D场景中精准定位需要操作的按钮、旋钮等交互部件。
- 闭环规划调整:当操作遇到意外状态(如舱门未关紧)时,能否动态调整原有计划。
- 全过程推理:端到端地完成从理解任务到成功执行的全流程操作。
这套组合测试旨在全面考核智能模型在文档解析、动作规划、空间感知、故障修正和端到端作业等方面的核心能力。

RealAppliance-Bench的五个任务:手册检索、开环规划、部件定位、闭环调整与全过程推理。
测评结果:理想与现实仍有差距
研究团队选取了当前主流的多模态大模型和具身规划模型进行系统性测评,结果揭示出一些值得深思的现状。
各类模型在单一任务上或许表现尚可,但一旦面对贴合真实场景的综合性任务,其短板便暴露无遗。例如,在检索任务中,许多具身模型的文本理解能力仍然较弱;在动作规划时,普遍存在步骤缺失或动作误用的问题,表明模型并未真正“吃透”设备运行的内在逻辑。部件空间定位精度不高,则凸显了跨模态信息(文本指令与3D视觉)匹配的难度。
更为关键的是,当遇到突发工况需要实时调整时,模型往往显得束手无策。而在最考验综合能力的“全过程推理”任务中,所有参与测试的模型均未能成功通关。多个环节的微小误差不断累积,最终导致任务失败。这清晰地表明,现有算法在居家环境下的操作稳定性、鲁棒性与实用性,距离真正落地应用仍有很长一段路要走。
推动具身智能落地的基石
尽管挑战严峻,但RealAppliance数据集与评测基准的发布,无疑为领域发展提供了一个至关重要的“标尺”与“试金石”。未来,它将持续作为标准化的测评工具,帮助研究人员迭代优化算法,深入探索智能操作策略的研发方向。
随着仿真体系的不断迭代与完善,这项研究有望为家庭服务机器人最终攻克家电操作难题、真正规模化走进千家万户,奠定坚实的技术基础。通往实用化的道路虽然曲折,但每一步扎实的评测与改进,都在让理想的终点变得更近。
