复旦大学团队研发机器人先摸底再动手技术

时间：2026-07-01 11:04

你猜怎么着？一台机器人，如果给它换个新角度的摄像头，它的表现就很可能从“熟练工”直接变成“新手小白”。这个让工程师们挠头的问题，最近被复旦大学、上海创新研究院和同济大学的联合团队盯上了。他们2026年6月发表在arXiv上的那篇论文（编号arXiv:2606 26025），扎扎实实地给出了一个解决方

你猜怎么着？一台机器人，如果给它换个新角度的摄像头，它的表现就很可能从“熟练工”直接变成“新手小白”。这个让工程师们挠头的问题，最近被复旦大学、上海创新研究院和同济大学的联合团队盯上了。他们2026年6月发表在arXiv上的那篇论文（编号arXiv:2606.26025），扎扎实实地给出了一个解决方案。

一、机器人换个角度就“失忆”了，这事有多麻烦

把一台精心训练的机器人从正面摄像头换成侧面摄像头，它的表现就会断崖式下跌。这就像一个从小在上海长大的孩子，突然被要求用粤语做数学题——知识还在，但输入的格式变了，整个系统就乱套了。

背后的原因其实很简单。现代机器人普遍依赖一种叫“视觉-语言-行动模型”（Vision-Language-Action Model，简称VLA）的系统。它的工作流程是：看一眼当前环境的照片，再接收一句人类指令（比如“把红色杯子放到蓝色盘子上”），然后输出一系列动作。问题就出在，这个系统在训练时，悄悄记住了摄像头的位置、角度这些“背景条件”，并把它当成了永远不变的事实。一旦摄像头换了位置，它看到的世界就天差地别——明明同一个东西，视觉信号却完全不同，机器人自然就容易抓空、偏移、失败。

研究团队把这个问题称为“系统配置”（system configuration）的缺失。机器人体不知道自己当前处于什么样的视角和物理设置下，自然无法做出正确调整。传统的解决办法是重新收集新视角的数据，再花大量时间重新训练模型——这不仅费时费钱，而且每换一个新环境就要重复一遍，根本没法落地。

正是在这个背景下，复旦大学团队提出了一个截然不同的思路，他们把这个方法叫做“上下文世界建模”（In-Context World Modeling，简称ICWM）。

二、人类是怎么适应新环境的——灵感来自一个生活场景

研究团队的灵感，来自一个非常日常的场景：你第一次拿到一个陌生的游戏手柄或遥控器，根本不知道哪个键对应什么功能。但你不会呆呆地等着别人来教你，而是会随机按几下，观察屏幕上发生了什么，然后根据反应推测出按键与结果的对应关系。几秒钟之内，你就对这套“系统”有了基本理解，然后才开始认真操作。

机器人能不能也这么干？在正式开始任务之前，先随机动几下，通过观察摄像头拍到的画面变化，推断出“我现在处于什么样的视角”——这就是ICWM的核心思路。

研究团队把这种“随机动几下、看看发生什么”的过程，称为“主动探测”（Active Probing）。机器人在正式任务开始前，会在安全的工作区域内随机移动几次机械臂，记录下每次移动前后的画面以及自己执行的动作。这些“动作-画面变化”的片段，就像是机器人给自己做的一份快速“环境摸底报告”。

关键在于，这份报告完全不需要包含任何任务相关的信息。机器人不需要先试着抓一次目标物体，也不需要人类帮它演示一遍任务。它只需要在工作区域里随机晃几下，就能获得足够的信息来理解当前的视角和物理配置。

三、“摸底报告”怎么被利用——模型的训练和推理机制

要让机器人学会利用这份“摸底报告”，需要在训练阶段就把这个机制内置进去。

训练时，研究团队为每一个训练样本都额外准备了若干段随机运动的片段。这些片段来自各种不同视角下的机器人探索过程，内容完全与具体任务无关。模型在学习如何完成任务的同时，也在学习如何从这些随机运动片段中提取“当前系统是什么样的”这一信息。

打个比方：这就像一个厨师不仅要学做菜，还要学会在进入陌生厨房后，先拉开几个抽屉、开关几个炉灶，感受一下这个厨房的布局和设备特性，然后再正式开始烹饪。训练时就让厨师反复练习这套“先摸底、再做菜”的流程，等真正上场时，他自然知道该怎么应对不熟悉的厨房了。

在技术实现上，ICWM没有为这个“摸底”功能额外设计一套新的模块或参数。取而代之的是，它让原有的模型骨架（一个叫Qwen2.5-VL-3B的视觉语言模型）同时承担两个任务：一是理解当前的系统配置，二是生成任务动作。这两件事共享同一套参数，因为研究团队认为，两者在本质上需要相同的能力——都需要理解“看到的画面”和“做出的动作”之间的对应关系。

推理（也就是实际使用）时，流程分为两个阶段。第一阶段，机器人在正式任务开始前执行若干次随机探测动作，记录下每次动作对应的前后画面，形成一个“探测上下文”。第二阶段，机器人把这些探测片段作为“前情提要”输入模型，模型先处理这些片段，建立起对当前系统配置的隐式理解，然后再接收任务指令和当前观测画面，生成精准的任务动作。整个过程不需要调整任何参数，也不需要人类提供任何演示，机器人完全自主完成。

四、实验结果——数字背后的实际意义

研究团队在两个层面上验证了ICWM的效果：一是仿真环境，二是真实机器人平台。

在仿真环境中，他们使用了名为LIBERO的标准机器人学习基准测试平台，包含四类任务：需要理解空间位置关系的任务、需要根据指令选择不同目标的任务、需要识别各种物体的任务，以及需要连续完成多个步骤的长程任务。训练时使用8个不同方向的摄像头角度，测试时使用6个从未出现过的新角度。

面对这些从未见过的新视角时，ICWM相比普通的多视角训练基线（即同样接受了多视角训练数据但没有探测机制的模型）平均成功率提升了13%。如果较真儿，拿去和明确告诉模型“当前摄像头角度是多少度”的版本相比，ICWM依然高出9.5%——这说明仅仅知道角度数字是不够的，真正有用的是亲身“感受”过当前视角下的运动反馈。

特别值得注意的是长程任务的表现。在需要连续执行多个步骤的任务上，ICWM相比普通多视角训练的提升幅度最大，在已见视角上高出29.9%，在新视角上高出26.3%。这背后的逻辑是：长程任务中，每一步的微小偏差都会在后续步骤中累积放大，视角带来的误差如果在早期没有被纠正，最终就会演变成彻底的失败。而ICWM通过对当前视角的正确理解，从一开始就减少了这种误差，防止了错误的级联扩散。

在真实机器人平台上，研究团队使用了一台UR5e机械臂，配备12个摄像头，其中6个用于训练，6个作为测试时的全新视角。测试任务包括叠杯子、抬篮子、抓取物品放置等四类。结果显示，当摄像头从训练视角切换到测试视角时，普通多视角训练模型的成功率从68%直接跌到17%，而ICWM的加入则大幅缓解了这种下滑。在抓取任务上，ICWM比普通基线高出90%；在叠杯任务上更是高出175%。

研究团队还通过视频记录展示了具体的失败模式。没有ICWM的机器人在新视角下会出现末端执行器的位置偏移（抓的位置不准）和过早关闭夹爪（还没抓到就夹上了）这两类典型错误，而加入ICWM后，这两类错误都得到了明显改善。

五、为什么这个方法有效——有没有理论支撑

研究团队不满足于仅仅展示实验数据，他们还从信息论的角度论证了为什么“先随机动几下”能帮机器人理解当前的系统配置。

核心论点如下：从单张画面中，你很难准确判断摄像头装在哪个位置、角度是多少。但如果你同时知道“我往左移动了多少，画面中的机械臂往哪个方向移动了多少”，这个信息就丰富得多。研究团队用严格的数学证明表明，“一系列动作加上对应的画面变化”包含的关于系统配置的信息，一定严格多于单张画面。而且这个结论对任何类型的动作序列都成立，哪怕完全随机、与任务无关——这从理论上为“随机探测也有效”提供了保证。

六、探测方式重要吗——一个实用性问题的解答

既然要在任务前随机动几下，那么动的方式有没有讲究？研究团队测试了四种不同的探测策略：完全随机方向、只在水平面内移动、只沿垂直方向移动、只改变末端执行器的朝向。

结果发现，四种策略的表现差异不大，但都比不做任何探测要好15%到27%。这意味着ICWM的收益主要来自“有探测”这件事本身，而不是探测动作的具体设计。这对实际部署来说是个好消息——不需要精心设计探测路径，随机动几下就能获得大部分收益。不同策略之间的细微差异表明，不同方向的运动会暴露系统配置的不同侧面，没有哪一种能覆盖所有情况，但任何一种都能带来显著帮助。

七、ICWM能不能应对视角以外的变化

研究团队还测试了ICWM在两类非摄像头变化情况下的表现，以验证这个方法是否有更广泛的适用性。

第一类是场景语义变化，包括在工作台上摆放与任务无关的干扰物品，以及把桌面换成训练时从未出现过的新材质。在这两种情况下，ICWM相比普通基线依然保持了一定的优势，不过提升幅度比视角变化时要小。研究团队认为这主要是因为训练数据中场景多样性不够充分，而非方法本身的局限。

第二类是机器人形态变化。他们在机械臂的夹爪法兰上安装了不同长度的刚性垫片（20毫米、40毫米、80毫米），从而改变了机械臂实际的运动学参数——也就是说，同样的控制指令现在会产生略微不同的实际位移。面对这种变化，普通基线模型成功率大幅下降，而ICWM通过探测阶段感受到的运动反馈，能够隐式推断出当前夹爪的有效长度，从而保持了更稳定的表现。

为了进一步验证这一点，研究团队还在另一款名叫WindowX的机器人平台上做了测试。他们把机器人的连杆长度分别缩短到原始长度的90%和80%（训练时只用了100%和70%两个极端情况），测试模型对从未见过的中间状态的泛化能力。随着连杆缩短幅度增大，普通基线的成功率从57%腰斩到28%，而ICWM从77%相对温和地降到62%，两者之间的差距反而随着形态变化的增大而扩大——变化越大，ICWM的优势越明显。

八、计算开销——这个方法实用吗

探测阶段需要额外的计算，那么它会不会让机器人反应变慢？研究团队在一张NVIDIA RTX 4090显卡上测量了推理延迟。不加任何上下文时，每步推理需要0.112秒；加入3段探测片段后变为0.165秒；加入5段时变为0.185秒。对于机器人操控任务来说，这个延迟完全在可接受范围内，不会影响控制循环的稳定性。

更重要的是，由于探测上下文在整个任务执行过程中是固定不变的（只要摄像头没动），可以用一种叫“KV缓存”的技术把上下文的中间计算结果存起来，后续每一步推理直接复用，把额外的计算开销降回到接近零基线的水平。探测阶段本身（20次随机动作）在真实机器人上只需要5到6秒，且整个任务执行期间只做一次，代价极小。

九、模型真的在“理解”视角，还是只是记住了图案

研究团队做了几个很有说服力的实验，来检验ICWM是否真的在做系统识别，而不只是表面的模式匹配。

第一个实验是把真实的探测上下文换成来自180度偏转视角的错误探测上下文（“假上下文”）。如果模型只是在忽略上下文、靠自己猜，那么假上下文不应该有什么影响。但结果是，假上下文的表现（平均成功率18.9%）比完全不提供任何上下文（22.0%）还要差。这说明错误的上下文会主动误导模型，而不是被忽视——这意味着模型确实在认真参考上下文内容。正确上下文带来的提升（+13.6%）与错误上下文带来的下降（-12.0%）在量级上高度对称，这种对称性本身就是模型真正依赖上下文的有力证据。

第二个实验是测试一个没有经过ICWM训练的普通行为克隆模型，看它在给定同样的探测片段时能不能也受益。结果却是成功率直接崩到接近零——这证明上下文世界建模的能力不是自然涌现的，必须在训练阶段就显式地引入才能获得。

第三个实验是对模型内部的表示进行可视化分析（使用t-SNE降维技术）。研究团队发现，同一视角下的不同探测上下文在模型内部会形成紧密的聚类，而不同视角之间的聚类则分得很开。这说明模型确实为不同的系统配置建立了不同的内部表示，而且这些表示是稳定且可区分的。

说到底，ICWM做的事情并不神秘，但它的聪明之处在于把一个本来需要大量额外工程设计的问题，用一个极其简洁的思路解决了：与其告诉机器人“你现在处于什么配置”，不如让它在开始工作之前自己去感受一下。这个思路在人类和动物的运动控制中早就存在，只不过以前没人想到把它系统地引入到机器人学习框架里。

实际上，这项研究的意义远不止于帮助机器人适应新摄像头。它所提出的“在正式执行任务前先做任务无关的自主探索”这一框架，可能对整个机器人泛化能力的研究方向都有参考价值。机器人的部署场景千变万化——不同工厂的照明条件不同、不同型号的机器臂有不同的运动特性、不同季节的户外环境差异巨大——任何一个单一的“系统配置”都无法在训练阶段被完全覆盖。ICWM提供的这种“到了新地方先摸摸底再干活”的机制，为解决这类泛化问题提供了一条代价极低的路径。

当然，这项研究也有其局限。目前的实验主要集中在摄像头视角和机械臂形态这两类变化，对于更复杂的场景——比如物体光照条件的剧烈变化、任务本身的根本性变化——是否同样有效，还需要更多验证。训练数据的多样性同样是制约因素：在语义场景变化实验中效果相对有限，部分原因就在于训练数据中场景多样性不足。此外，探测阶段需要机器人在工作区域内自由移动，在高度危险或空间极度受限的环境中，可能需要额外的安全设计。

归根结底，这项研究告诉我们一个朴素的道理：到了新环境，先别急着干活，花几秒钟熟悉一下周围的情况，往往能让后续工作事半功倍。这个道理人人都懂，但让机器人也懂，并且用严格的数学和实验来证明它切实有效，才是这篇论文真正的贡献所在。

Q&A

Q1：ICWM和普通的多视角训练有什么区别，为什么多视角训练不够用？

普通多视角训练是把各种摄像头角度的数据都塞进训练集，希望模型见多识广。但问题是，测试时遇到的新角度永远不会完全出现在训练集里，模型没有办法在推理时主动调整自己。ICWM的不同在于，它给了模型一个在每次部署时“现场感受当前视角”的机会，通过任务前的随机探测动作，让模型实时理解当前的观测-动作对应关系，而不是依赖训练时见过的角度。