清华研发NavA³分层导航架构：突破机器人语义难题，成功率提升显著

时间：2025-10-14 13:13

在科幻电影里，机器人精准执行“帮我拿杯咖啡”或“把衣服晾到阳台”这类指令的场景屡见不鲜，然而在现实科研中，赋予机器人这样的高级理解和执行能力，却一直是科研人员面临的巨大挑战。其核心难题，在于机器人具

科幻作品中常出现机器人流畅执行"请帮我拿杯咖啡"或"把衣服晾到阳台"的场景，然而在真实科研领域，让机器人具备如此高级的认知与行动能力，始终是研究者们亟待突破的难题。这一挑战的核心，在于机器人具身导航技术面临的实际瓶颈。目前主流的机器人导航方案主要分为两种类型，但各自都存在明显局限。

指令跟踪导航要求机器人严格遵循过于具体的指引，比如"左转，走出门，向前移动三米"。这种方式对指令精度的依赖性过高，超出了人类自然交流的惯常模式。预定义物体导航则让机器人寻找某类别（例如"椅子"）的任意对象，却忽视了具体场景的需求。以"我想喝咖啡"的任务为例，定位"咖啡机"显然比找到随便哪把"椅子"更为关键。这两种方式都存在显著的"语义断层"，导致机器人难以领会人类高级指令背后的真实意图，也无法处理"茶室左侧桌面的水果"这类蕴含复杂空间关系的任务。现实生活中的人类指令往往具有开放性、抽象性且充满语境关联，这使得现有导航机器人在面对真实家居或办公环境的远距离导航任务时，表现往往不尽如人意。

为突破这一技术瓶颈，清华大学联合北京智源人工智能研究院、中科院自动化所、北京大学等科研单位，共同推出了分层架构NavA³，为机器人配备了"智能导航分层系统"。该框架的核心思路是将复杂的远距离开放式导航任务，拆分为"全局规划"与"局部执行"两个层级，模拟人类在陌生环境中寻找目标的思维模式。

在全局策略层面，其核心功能是实现"从高级指令到目标区域的智能映射"，依托"推理-视觉语言模型"与"全局三维场景重构"两大模块，解决"该往何处寻找"的问题。机器人会先通过三维场景构建，将整个环境转化为立体地图。具体操作中，通过相机拍摄大量彩色图像，再配合LiDAR传感器（类似"激光视觉"）生成密集的三维点云，每个点对应场景中的三维坐标。接着运用特征点匹配算法建立帧间对应关系，通过网格重建形成连贯的三维几何结构，最终标注出"茶室""会议室""阳台"等功能区域的语义信息。

推理-视觉语言模型作为全局策略的"智能决策中枢"，通过结构化提示模板引导指令解析与空间推理。例如面对"取一杯咖啡"这样的高级指令时，模型会先通过语义分析推断核心目标物体（即"咖啡机"），再基于已构建的全局场景，计算目标物体在各个区域的出现概率，筛选出概率最高的目标区域，最后在目标区域的局部范围内随机选取初始航点，为后续局部策略提供导航起点。经过这一系列智能处理，机器人的搜索范围从整栋建筑缩小至特定功能区域，导航效率得到显著提升。

局部策略专注于在目标区域内实现物体的精确定位，核心组件是"导航可供性模型"，重点解决"具体定位何处"的问题。该模型的突出优势在于"空间感知与可供性理解"，这种能力的培养依赖于大规模数据集的训练支撑。

在数据集构建方面，研究团队从多个公开数据集中筛选出五万张室内场景图像，生成百万级"图像-问答"样本对，同时将实例分割掩码转换为目标检测格式，并在每个边界框内采样多个代表点，以此提升空间粒度。在可供性标注环节，设计了两类标注维度：物体可供性（标注目标物体与参照物的方位关系，如"沙发正前方的电视机"）与空间可供性（标注满足任务要求的可用空间，如"衣柜内的悬挂区域"）。模型架构采用"视觉-语言"双分支设计，其中文本分支处理查询指令，视觉分支对彩色图像进行编码，再通过特征映射将视觉信息融入语言模型的嵌入空间，最终输出精确的目标点坐标，完成对目标物体的精准定位。

为增强导航可供性模型的空间感知能力，研究团队构建了包含百万样本的"空间感知物体可供性"数据集。该数据集不仅教会模型识别"这是什么物体"，更重要的是传递了"物体通常如何与其他物体形成空间关联"的深层知识，为模型的能力构建奠定坚实基础。

在严谨的实验评估中，NavA³展现出显著优势。研究团队构建了包含五个不同场景的基准测试集，设置总计五十项导航任务。实验数据显示，NavA³的平均成功率达到了66.4%，而此前最优的基准方法仅为25.2%。以工作站场景为例，NavA³的成功率高达76%，对比方法的成功率只有28%；导航误差方面，NavA³在会议室场景的误差仅1.23米，而对比方法达到7.21米，这表明NavA³真正实现了"精准抵达目标位置"。值得注意的是，其他通用视觉语言模型在这类复杂导航任务中几乎无法完成任何任务，它们虽然能够识别图像、理解指令，却缺乏将"指令"与"空间导航"有效结合的能力，而NavA³的分层设计正好弥补了这一关键空白。

更重要的是，NavA³框架已成功部署在轮式移动机器人和四足机器人这两种形态迥异的平台上，这充分证明了该方法的通用性和卓越的跨平台适应能力，为未来大规模实际应用开辟了广阔前景。

来源：https://www.itbear.com.cn/html/2025-10/985917.html

上一篇AOC Q27V12XY 27英寸无线投屏显示器发布售价999元起 下一篇AI独立开发者崛起：技术赋能从大厂螺丝钉到职业新路径

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-07

谷歌升级Google Cloud机密计算产品

IT之家 7 月 6 日消息，谷歌宣布对旗下 Google Cloud 机密计算（Confidential Computing）产品进行升级，新增基于英伟达 Blackwell GPU 的机密虚拟机、开源 AI 提示词加密工具 Prompt Encryption SDK，同步升级 Confident

科技数码 · 2026-07-07

谷歌要放大招? Gemini 3.5 Pro传7月17日发布，前端碾压Fable 5

谷歌在大模型竞赛中憋出一张重磅底牌。据泄露信息，Gemini 3 5 Pro将于7月17日正式发布，其前端与视觉代码生成能力据称出现跨越式跃升，在多项测试中压制Anthropic的Fable 5，但在硬核推理与复杂工程任务上仍落后于对手。这款姗姗来迟的旗舰模型背后，是一次更为彻底的技术重构。据科技媒

科技数码 · 2026-07-07

年电池续航最长的荣耀手机别错过

在挑选2026年电池续航最长的手机时，许多人关注的不仅仅是实验室测试中的几分钟优势，更看重一天高强度使用后还能剩下多少电量。按照这个标准来看，荣耀X80 Pro Max确实很有代表性，它将大容量电池与真实日常场景紧密结合，是该需求下非常值得优先考虑的一款机型。荣耀X80 Pro Max直接搭载了一块

科技数码 · 2026-07-07

年高性价比手机推荐同预算选机更看重长期体验

在2026年性价比高的手机推荐榜单中，同价位机型往往更看重长期使用的综合体验。如果仅仅追求低价，很容易忽视续航、耐用性、屏幕素质与通信质量这些日常高频使用的核心维度。荣耀X80 Pro Max的主要竞争力，在于将11000mAh超大电池、军工级防护、万级亮度屏幕以及AI智能体验，全部集成到2000元

科技数码 · 2026-07-07

小米17系列销量超550万台 Ultra版约23.07万部

探讨小米17系列最新销量表现。据数码博主曝光的行业追踪数据，截至2026年第26周（即6月22日至6月28日），小米17系列全系累计销量已成功突破550万台大关。具体数据方面，系列总销量约为554 01万台。其中，定位顶配的小米17 Ultra贡献了约23 07万部。值得关注的是，面向中端市场的1