从ICRA 2026看世界模型趋势：优化管线决胜与数据筛选筑基

时间：2026-06-03 10:22

世界模型正从生成逼真场景向支撑智能决策演进。评价标准转向动作可控性与决策可用性。工程化优化与数据筛选机制突破落地瓶颈，生成理解一体化推动跨领域融合，工业场景成为重要应用方向。未来需突破数据稀缺与物理规律建模瓶颈。

世界模型（World Model）正从“生成逼真场景”向“支撑智能决策”加速演进，这一点在AGIBOT WORLD CHALLENGE@ICRA 2026世界模型赛道中体现得尤为明显。冠亚军团队的技术思路和落地实践，实际上揭示了未来几年具身智能领域的关键走向。本文结合赛事访谈和行业背景，试着把世界模型技术的演进逻辑、核心突破和产业前景梳理清楚。

一、赛事背景：世界模型技术的“实战检验场”

AGIBOT WORLD CHALLENGE是国际具身智能领域极具影响力的赛事，其世界模型赛道以“真实机器人任务导向”为核心，和那些只盯着视觉生成的评测不同，这里更看重模型在动作可控性、物理一致性和决策可用性上的综合能力。比赛提供的大规模数据集AGIBOT World，给参赛团队提供了足量且真实的场景数据，能有效排除非本质因素的干扰，可以说是一块检验世界模型技术边界的“试金石”。

目前，世界模型已经成为连接计算机视觉、机器人学与人工智能的关键枢纽——它通过学习环境数据，建模环境的动态变化和因果关系，为智能体提供可用于预测、规划和纠错的观测表征。这次参赛的冠亚军团队，分别代表了“学术前沿+工程落地”与“工业场景+技术深耕”两大方向，他们的技术路径和观点碰撞，为行业提供了很好的参考。

“优化管线”决胜，“数据筛选”筑基：从ICRA 2026看世界模型的技术发展趋势

二、技术趋势一：评价标准转型——从“视觉逼真”到“决策可用”

访谈中，冠亚军团队都明确提到，世界模型的发展正在经历一场评价标准的转变，这和全球该领域的研究共识高度吻合。冠军NeoVerse-Abot团队（中科院自动化所NLPR与高德地图CV Lab联合团队）指出，2026年世界模型的核心议题已经从“生成合理视频”转向了“支撑具身智能决策以及推理”。这个判断并非空xue来风——随着具身智能向实际应用落地，光追求画面逼真已经不够了，模型必须理解物理规律和因果逻辑，才能真正帮机器人完成规划、复杂推理以及在未见场景中的策略泛化。

从背景来看，传统世界模型大多聚焦于视觉生成，比如基于NeRF、3DGS等技术的场景重建，但这类模型往往“重视觉、轻逻辑”，难以应对机器人交互中的复杂物理约束。现在行业的核心需求，就像亚军物理智能团队（PAI@IAII）说的那样，是要让世界模型“提升具身策略学习”——模型得能准确回答“机器人执行某个操作后世界会怎么变化”，避免生成那些虽然好看但脱离实际控制的“无效内容”。

这种评价标准的转型，正在推动世界模型从“表面生成”向“深度理解”跨越，核心指标已经变成动作可控性、物理一致性和决策可用性。这也是此次赛事评分的核心导向——NeoVerse-Abot团队的离线内外参优化管线，正是因为大幅提升了动作控制确定性，才在action following指标上拿了第一。

三、技术趋势二：技术突破——工程化优化与跨领域融合并行

面对具身智能的复杂需求，单纯的算法创新已经不够了，工程化优化和跨领域技术融合成为访谈里凸显出来的核心突破方向，这和当前世界模型的技术演进路径高度一致。

（一）工程化优化：破解落地核心瓶颈

NeoVerse-Abot团队在访谈中重点介绍了“离线内外参优化管线”，这是工程化优化的一个典型实践。这条管线通过整合机器人RGB视频信息、关节状态数据，再结合现有的视觉感知模型，对相机内参、外参以及畸变参数进行联合后处理优化，解决了“智能体动作指令与视觉感知空间精准对齐”这个核心难题——这一技术背后，离不开高德地图CV Lab在大规模视觉感知、空间理解领域的长期积累。针对这项突破，团队核心算法开发者李锐智给出了细致的回应：“我们搭建的离线内外参优化管线，核心是通过机器人采集的原始数据进行联合优化，具体分为三个关键步骤。首先，提取机器人数据中原始包含的RGB视频信息，以及机器人整个关节的运动状态数据——因为机器人在组装和相机安装过程中，难免会有GTP自给、相机支架安装、相机本身的安装误差，这些误差会直接影响相机内外参的准确性，导致机器人动作在图像中的空间投影出现偏差。其次，我们组合了现有的成熟视觉感知模型，对相机的内参、外参以及畸变参数进行联合优化，这种优化属于后处理环节，相当于对采集到的原始数据进行‘校准’，让视频生成模型能更精准地感知当前机器人的实际内外参状态。最后，将优化完成后的参数保存下来，全程应用于后续的模型训练和视频生成流程，形成完整的技术闭环。从比赛小分来看，这条优化管线对action following（动作跟随）指标的贡献最直接，我们在这一项小分排名第一。动作跟随能力也是其他各项指标的基础——只有确保机械臂在图像中的位置准确，才能更好地保证画面一致性和场景一致性，这也为我们最终夺冠奠定了基础。”

补充背景显示，高德地图CV Lab团队长期深耕三维重建与世界模型研究，其核心成员刘雨参与的两篇顶会论文，分别聚焦卫星图像的生成式城市摄影测量与3D高斯splatting的连续LOD技术，体现了“工程化落地导向”的技术思路——这些积累被成功迁移到机器人世界模型训练中，解决了数据处理、场景建模中的工程化难题。

与冠军团队不同，亚军PAI@IAII团队通过“独特的数据筛选机制”破解了训练数据瓶颈。其设计逻辑遵循“先保证场景多样性，再确保数据质量”的原则，重点筛选动作与画面完全对应的样本，同时保留长尾场景与各类演化数据，这和工业场景中“数据稀缺但要求鲁棒性”的需求高度匹配。团队在回应中表示：“我们的筛选机制核心有两个要点：优先保证场景的多样性，再严格把控数据质量。具体到评判标准，对于action condition的模型，我们会通过多维度校验确保动作与画面完全对应，比如将机器人关节运动数据与视频帧中的动作轨迹进行逐帧比对，计算两者偏差值，偏差低于设定阈值的样本才会被保留，同时剔除模糊、卡顿、动作断裂的无效样本。至于工业场景与通用机器人场景的数据清洗差异，目前我们的世界模型尚未完全落地工业场景，但结合我们对工业场景的研究和预判，工业场景虽然相对固定，却也存在不少长尾场景和异常数据，比如焊接过程中的焊缝偏移、机械臂操作中的突发故障等。对于世界模型这种建模next state的模型而言，所有与世界演变相关的数据都有价值，不能因为是所谓‘失败数据’就丢弃，我们会将这些数据单独标注、分类处理，通过增强训练让模型在相对固定的工业场景中达到更鲁棒的性能。”

（二）跨领域融合：拓宽技术边界

访谈中最具前瞻性的观点，是NeoVerse-Abot团队提出的“生成理解一体化”路径——将policy（策略）视为一种理解，推动世界模型与决策模型的深度耦合。这和国际前沿研究高度契合，比如谷歌DeepMind的Vision Banana论文所展现的“生成与语义理解同步”，但该团队更强调“动作条件驱动”，区别于文本引导的通用生成模型。团队核心成员李俊彦回应道：“首先要明确，我们当前的世界模型与单纯的决策模型有所不同，但两者的核心目标是一致的——无论是我们现在做的视频生成类世界模型，还是当前热门的VLA、世界动作模型，核心都不是简单地将观测映射成语言、动作或视频，而是从当前的观测、机器人状态以及相关的语义动作中，生成真正影响操作结果的观测表征。这种表征包含了物体的可操作性、接触关系、空间约束、机器人本体的动作可达性、潜在风险，以及动作执行后可能引发的状态变化，这也是‘生成理解一体化’的核心内涵——生成的过程本身就是模型理解世界的过程，而policy本质上就是这种理解的具体体现。至于视频生成模型与决策策略的耦合，其实VLA、世界模型、世界动作模型这三种模型已经在朝这个方向推进：VLA更强调指令与观测的动作选择，世界模型更强调预测环境的演化，而世界动作模型则是直接将世界模型的动作生成能力与动作条件绑定，实现了生成与决策的耦合。关于引入大语言模型进行高层任务分解，这确实是当前领域的一个重要方向，也是我们团队正在考虑的思路——利用大语言模型的语义驱动能力，与我们的世界模型进行耦合，实现高层任务的拆解。不过在本次比赛中，我们并没有进行这方面的尝试，因为本次比赛的核心任务是实现‘动作/状态到视频’的预测，重点聚焦于动作跟随和场景一致性。”

补充背景显示，NeoVerse-Abot团队的核心负责人范略（中科院自动化所助理研究员），长期聚焦世界模型、具身智能与自动驾驶的交叉研究，其2026年牵头的NeoVerse项目（CVPR 2026收录），正是通过单目视频增强4D世界模型，体现了“生成理解一体化”的技术思路。高德地图的赋能并非直接提供地图数据，而是其长期积累的空间智能感知、理解能力以及工程化实践经验。李锐智结合实习经历解释道：“高德地图的核心赋能，不是将地图数据直接用于世界模型的训练，而是其长期积累的空间智能感知、理解能力以及工程化实践经验，这些都能直接迁移到我们的机器人世界模型训练中。高德地图的业务本身就属于空间智能的重要组成部分，长期面对真实世界的大规模异构、长尾数据——不同地点、不同视角、不同天气、不同传感器的数据，都需要进行高效组织、校验和更新，这种处理大规模复杂数据的工程经验，与我们当前机器人数据的准备、训练需求高度契合。在场景理解和三维空间先验构建上，高德CV Lab长期深耕大规模视觉感知、空间理解与场景建模，形成了业界领先的视觉技术工程体系；在数据引擎构建上，高德在数据筛选、校验、更新等方面的工程化流程，也为我们搭建机器人数据引擎提供了重要参考。”

针对“单视角挑战过于依赖基模能力”这一观点，PAI@IAII团队给出了明确的改进思路：“我们已有相关技术储备，具体改进思路分为两个核心环节。首先，在模型预训练阶段，利用多视角数据进行训练，通过多视角图像的特征融合，让模型提前学习到场景的3D空间结构、物体的深度关系等3D先验信息，打破单视角带来的深度模糊、遮挡等局限；其次，在微调阶段，结合单视角数据，针对性优化模型的特征提取能力，实现‘多视角预训练+单视角微调’的高效结合。多视角数据能为模型注入更丰富的空间信息，解决单视角下难以判断物体深度、遮挡区域状态等问题；多模态信息的引入，比如传感器数据、关节角数据，能让模型更精准地捕捉机器人动作与环境变化的关联，进一步提升物理建模的准确性。目前，我们团队在多视角3D重建、多模态特征融合方面已有相关研究积累，也完成了初步的实验验证。”

四、技术趋势三：应用落地——从通用场景到工业深耕

世界模型的技术演进，最终指向实际应用落地。此次访谈中，两大团队都明确了“场景化深耕”的方向，其中工业具身智能成为重点布局领域。

PAI@IAII团队由徐凯研究员（中科院工业人工智能研究所）全职带领，研究方向聚焦工业具身智能、工业数字孪生，长期深耕重工、船舶、汽车等智能制造领域。团队指出，世界模型在工业场景中的核心价值，除了预测，更在于建模不确定性——比如焊接场景中，通过模型预测焊接枪移动对焊缝厚度、长度的影响，为决策优化提供先验支持。团队结合工业场景实际需求回应道：“世界模型的一个重要应用方向就是作为仿真器（world model as a simulator），在工业场景中体现得尤为明显。很多操作过程存在不确定性，且部分操作成本高、风险大，比如船舶焊接、重工装备装配等场景，焊接枪的移动方式会直接影响焊缝的厚度、长度、平整度等结果，这些结果往往需要焊接完成后通过专业设备测量才能得知，一旦出现偏差，不仅会造成材料浪费，还可能影响产品质量甚至带来安全隐患。世界模型能够精准建模这种不确定性，通过输入当前的设备状态、动作指令等信息，预测下一个状态的演变。此外，在仿真训练中，我们可以利用世界模型构建高度逼真的工业场景，让机器人在虚拟环境中进行大量训练，减少真实场景训练的成本和风险；在安全验证中，世界模型可以模拟各类极端场景、故障场景，测试机器人策略的安全性和鲁棒性。”

补充背景显示，徐凯研究员在国际上较早开展数据驱动三维感知、建模与交互工作，其团队的研究重点的是“机理增强的具身交互理论”，这与世界模型“物理规律建模”的核心需求高度匹配。

NeoVerse-Abot团队则依托高德地图的工程积累，聚焦机器人开放环境理解，将地图业务中应对大规模异构、长尾数据的工程经验，迁移到机器人数据准备与训练中，为服务机器人、自主移动机器人等场景的落地提供了技术支撑。

五、未来展望：瓶颈突破与方向聚焦

结合访谈内容与背景知识，世界模型未来的发展将聚焦于两大核心瓶颈的突破，同时明确三大研究方向。

核心瓶颈方面，一是数据稀缺性——高质量机器人操作数据远少于互联网视频数据，且采集难度高；二是物理规律建模不足——现有模型缺乏对几何关系、摩擦力、刚体/软体交互等物理常识的显式建模，易出现违反物理规律的生成结果。这两大瓶颈也是中美两国在该领域的共性挑战，当前双方处于“你追我赶”的状态，无显著代差。

未来研究方向则很明确：一是持续推进“生成理解一体化”，将世界模型与策略模型深度耦合，降低推理延迟，满足机器人实时控制需求；二是强化多视角、多模态融合，通过多视角预训练注入3D先验，提升模型泛化能力；三是加速工业场景落地，推动评测标准从“表面正确性”转向“物理正确性”，让世界模型真正服务于工业决策优化。

此次访谈，为我们呈现了世界模型技术从“学术探索”向“落地实践”转型的路径。从评价标准的变革，到工程化优化与跨领域融合的突破，再到工业场景的深耕，世界模型正逐步摆脱“纯视觉生成”的局限，成为具身智能实现“理解世界、交互世界”的核心支撑。以NeoVerse-Abot、PAI@IAII为代表的中国团队，正通过“学术前沿+工程落地”“工业深耕+技术创新”的路径，在世界模型领域实现突破。

来源：https://www.leiphone.com/category/robot/IH4SUHF1ihnMy0Ne.html

技术发展

上一篇京东京造追光Ultra投影仪售价2176.9元 下一篇ICRA 2026维也纳开幕聚焦通用物理智能

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。