游乐游手机版
首页/科技数码/文章详情

复旦大学团队研发机器人先摸底再动手技术

时间:2026-07-01 11:04
你猜怎么着?一台机器人,如果给它换个新角度的摄像头,它的表现就很可能从“熟练工”直接变成“新手小白”。这个让工程师们挠头的问题,最近被复旦大学、上海创新研究院和同济大学的联合团队盯上了。他们2026年6月发表在arXiv上的那篇论文(编号arXiv:2606 26025),扎扎实实地给出了一个解决方

你猜怎么着?一台机器人,如果给它换个新角度的摄像头,它的表现就很可能从“熟练工”直接变成“新手小白”。这个让工程师们挠头的问题,最近被复旦大学、上海创新研究院和同济大学的联合团队盯上了。他们2026年6月发表在arXiv上的那篇论文(编号arXiv:2606.26025),扎扎实实地给出了一个解决方案。

一、机器人换个角度就“失忆”了,这事有多麻烦

把一台精心训练的机器人从正面摄像头换成侧面摄像头,它的表现就会断崖式下跌。这就像一个从小在上海长大的孩子,突然被要求用粤语做数学题——知识还在,但输入的格式变了,整个系统就乱套了。

背后的原因其实很简单。现代机器人普遍依赖一种叫“视觉-语言-行动模型”(Vision-Language-Action Model,简称VLA)的系统。它的工作流程是:看一眼当前环境的照片,再接收一句人类指令(比如“把红色杯子放到蓝色盘子上”),然后输出一系列动作。问题就出在,这个系统在训练时,悄悄记住了摄像头的位置、角度这些“背景条件”,并把它当成了永远不变的事实。一旦摄像头换了位置,它看到的世界就天差地别——明明同一个东西,视觉信号却完全不同,机器人自然就容易抓空、偏移、失败。

研究团队把这个问题称为“系统配置”(system configuration)的缺失。机器人体不知道自己当前处于什么样的视角和物理设置下,自然无法做出正确调整。传统的解决办法是重新收集新视角的数据,再花大量时间重新训练模型——这不仅费时费钱,而且每换一个新环境就要重复一遍,根本没法落地。

正是在这个背景下,复旦大学团队提出了一个截然不同的思路,他们把这个方法叫做“上下文世界建模”(In-Context World Modeling,简称ICWM)。

二、人类是怎么适应新环境的——灵感来自一个生活场景

研究团队的灵感,来自一个非常日常的场景:你第一次拿到一个陌生的游戏手柄或遥控器,根本不知道哪个键对应什么功能。但你不会呆呆地等着别人来教你,而是会随机按几下,观察屏幕上发生了什么,然后根据反应推测出按键与结果的对应关系。几秒钟之内,你就对这套“系统”有了基本理解,然后才开始认真操作。

机器人能不能也这么干?在正式开始任务之前,先随机动几下,通过观察摄像头拍到的画面变化,推断出“我现在处于什么样的视角”——这就是ICWM的核心思路。

研究团队把这种“随机动几下、看看发生什么”的过程,称为“主动探测”(Active Probing)。机器人在正式任务开始前,会在安全的工作区域内随机移动几次机械臂,记录下每次移动前后的画面以及自己执行的动作。这些“动作-画面变化”的片段,就像是机器人给自己做的一份快速“环境摸底报告”。

关键在于,这份报告完全不需要包含任何任务相关的信息。机器人不需要先试着抓一次目标物体,也不需要人类帮它演示一遍任务。它只需要在工作区域里随机晃几下,就能获得足够的信息来理解当前的视角和物理配置。

三、“摸底报告”怎么被利用——模型的训练和推理机制

要让机器人学会利用这份“摸底报告”,需要在训练阶段就把这个机制内置进去。

训练时,研究团队为每一个训练样本都额外准备了若干段随机运动的片段。这些片段来自各种不同视角下的机器人探索过程,内容完全与具体任务无关。模型在学习如何完成任务的同时,也在学习如何从这些随机运动片段中提取“当前系统是什么样的”这一信息。

打个比方:这就像一个厨师不仅要学做菜,还要学会在进入陌生厨房后,先拉开几个抽屉、开关几个炉灶,感受一下这个厨房的布局和设备特性,然后再正式开始烹饪。训练时就让厨师反复练习这套“先摸底、再做菜”的流程,等真正上场时,他自然知道该怎么应对不熟悉的厨房了。

在技术实现上,ICWM没有为这个“摸底”功能额外设计一套新的模块或参数。取而代之的是,它让原有的模型骨架(一个叫Qwen2.5-VL-3B的视觉语言模型)同时承担两个任务:一是理解当前的系统配置,二是生成任务动作。这两件事共享同一套参数,因为研究团队认为,两者在本质上需要相同的能力——都需要理解“看到的画面”和“做出的动作”之间的对应关系。

推理(也就是实际使用)时,流程分为两个阶段。第一阶段,机器人在正式任务开始前执行若干次随机探测动作,记录下每次动作对应的前后画面,形成一个“探测上下文”。第二阶段,机器人把这些探测片段作为“前情提要”输入模型,模型先处理这些片段,建立起对当前系统配置的隐式理解,然后再接收任务指令和当前观测画面,生成精准的任务动作。整个过程不需要调整任何参数,也不需要人类提供任何演示,机器人完全自主完成。

四、实验结果——数字背后的实际意义

研究团队在两个层面上验证了ICWM的效果:一是仿真环境,二是真实机器人平台。

在仿真环境中,他们使用了名为LIBERO的标准机器人学习基准测试平台,包含四类任务:需要理解空间位置关系的任务、需要根据指令选择不同目标的任务、需要识别各种物体的任务,以及需要连续完成多个步骤的长程任务。训练时使用8个不同方向的摄像头角度,测试时使用6个从未出现过的新角度。

面对这些从未见过的新视角时,ICWM相比普通的多视角训练基线(即同样接受了多视角训练数据但没有探测机制的模型)平均成功率提升了13%。如果较真儿,拿去和明确告诉模型“当前摄像头角度是多少度”的版本相比,ICWM依然高出9.5%——这说明仅仅知道角度数字是不够的,真正有用的是亲身“感受”过当前视角下的运动反馈。

特别值得注意的是长程任务的表现。在需要连续执行多个步骤的任务上,ICWM相比普通多视角训练的提升幅度最大,在已见视角上高出29.9%,在新视角上高出26.3%。这背后的逻辑是:长程任务中,每一步的微小偏差都会在后续步骤中累积放大,视角带来的误差如果在早期没有被纠正,最终就会演变成彻底的失败。而ICWM通过对当前视角的正确理解,从一开始就减少了这种误差,防止了错误的级联扩散。

在真实机器人平台上,研究团队使用了一台UR5e机械臂,配备12个摄像头,其中6个用于训练,6个作为测试时的全新视角。测试任务包括叠杯子、抬篮子、抓取物品放置等四类。结果显示,当摄像头从训练视角切换到测试视角时,普通多视角训练模型的成功率从68%直接跌到17%,而ICWM的加入则大幅缓解了这种下滑。在抓取任务上,ICWM比普通基线高出90%;在叠杯任务上更是高出175%。

研究团队还通过视频记录展示了具体的失败模式。没有ICWM的机器人在新视角下会出现末端执行器的位置偏移(抓的位置不准)和过早关闭夹爪(还没抓到就夹上了)这两类典型错误,而加入ICWM后,这两类错误都得到了明显改善。

五、为什么这个方法有效——有没有理论支撑

研究团队不满足于仅仅展示实验数据,他们还从信息论的角度论证了为什么“先随机动几下”能帮机器人理解当前的系统配置。

核心论点如下:从单张画面中,你很难准确判断摄像头装在哪个位置、角度是多少。但如果你同时知道“我往左移动了多少,画面中的机械臂往哪个方向移动了多少”,这个信息就丰富得多。研究团队用严格的数学证明表明,“一系列动作加上对应的画面变化”包含的关于系统配置的信息,一定严格多于单张画面。而且这个结论对任何类型的动作序列都成立,哪怕完全随机、与任务无关——这从理论上为“随机探测也有效”提供了保证。

六、探测方式重要吗——一个实用性问题的解答

既然要在任务前随机动几下,那么动的方式有没有讲究?研究团队测试了四种不同的探测策略:完全随机方向、只在水平面内移动、只沿垂直方向移动、只改变末端执行器的朝向。

结果发现,四种策略的表现差异不大,但都比不做任何探测要好15%到27%。这意味着ICWM的收益主要来自“有探测”这件事本身,而不是探测动作的具体设计。这对实际部署来说是个好消息——不需要精心设计探测路径,随机动几下就能获得大部分收益。不同策略之间的细微差异表明,不同方向的运动会暴露系统配置的不同侧面,没有哪一种能覆盖所有情况,但任何一种都能带来显著帮助。

七、ICWM能不能应对视角以外的变化

研究团队还测试了ICWM在两类非摄像头变化情况下的表现,以验证这个方法是否有更广泛的适用性。

第一类是场景语义变化,包括在工作台上摆放与任务无关的干扰物品,以及把桌面换成训练时从未出现过的新材质。在这两种情况下,ICWM相比普通基线依然保持了一定的优势,不过提升幅度比视角变化时要小。研究团队认为这主要是因为训练数据中场景多样性不够充分,而非方法本身的局限。

第二类是机器人形态变化。他们在机械臂的夹爪法兰上安装了不同长度的刚性垫片(20毫米、40毫米、80毫米),从而改变了机械臂实际的运动学参数——也就是说,同样的控制指令现在会产生略微不同的实际位移。面对这种变化,普通基线模型成功率大幅下降,而ICWM通过探测阶段感受到的运动反馈,能够隐式推断出当前夹爪的有效长度,从而保持了更稳定的表现。

为了进一步验证这一点,研究团队还在另一款名叫WindowX的机器人平台上做了测试。他们把机器人的连杆长度分别缩短到原始长度的90%和80%(训练时只用了100%和70%两个极端情况),测试模型对从未见过的中间状态的泛化能力。随着连杆缩短幅度增大,普通基线的成功率从57%腰斩到28%,而ICWM从77%相对温和地降到62%,两者之间的差距反而随着形态变化的增大而扩大——变化越大,ICWM的优势越明显。

八、计算开销——这个方法实用吗

探测阶段需要额外的计算,那么它会不会让机器人反应变慢?研究团队在一张NVIDIA RTX 4090显卡上测量了推理延迟。不加任何上下文时,每步推理需要0.112秒;加入3段探测片段后变为0.165秒;加入5段时变为0.185秒。对于机器人操控任务来说,这个延迟完全在可接受范围内,不会影响控制循环的稳定性。

更重要的是,由于探测上下文在整个任务执行过程中是固定不变的(只要摄像头没动),可以用一种叫“KV缓存”的技术把上下文的中间计算结果存起来,后续每一步推理直接复用,把额外的计算开销降回到接近零基线的水平。探测阶段本身(20次随机动作)在真实机器人上只需要5到6秒,且整个任务执行期间只做一次,代价极小。

九、模型真的在“理解”视角,还是只是记住了图案

研究团队做了几个很有说服力的实验,来检验ICWM是否真的在做系统识别,而不只是表面的模式匹配。

第一个实验是把真实的探测上下文换成来自180度偏转视角的错误探测上下文(“假上下文”)。如果模型只是在忽略上下文、靠自己猜,那么假上下文不应该有什么影响。但结果是,假上下文的表现(平均成功率18.9%)比完全不提供任何上下文(22.0%)还要差。这说明错误的上下文会主动误导模型,而不是被忽视——这意味着模型确实在认真参考上下文内容。正确上下文带来的提升(+13.6%)与错误上下文带来的下降(-12.0%)在量级上高度对称,这种对称性本身就是模型真正依赖上下文的有力证据。

第二个实验是测试一个没有经过ICWM训练的普通行为克隆模型,看它在给定同样的探测片段时能不能也受益。结果却是成功率直接崩到接近零——这证明上下文世界建模的能力不是自然涌现的,必须在训练阶段就显式地引入才能获得。

第三个实验是对模型内部的表示进行可视化分析(使用t-SNE降维技术)。研究团队发现,同一视角下的不同探测上下文在模型内部会形成紧密的聚类,而不同视角之间的聚类则分得很开。这说明模型确实为不同的系统配置建立了不同的内部表示,而且这些表示是稳定且可区分的。

说到底,ICWM做的事情并不神秘,但它的聪明之处在于把一个本来需要大量额外工程设计的问题,用一个极其简洁的思路解决了:与其告诉机器人“你现在处于什么配置”,不如让它在开始工作之前自己去感受一下。这个思路在人类和动物的运动控制中早就存在,只不过以前没人想到把它系统地引入到机器人学习框架里。

实际上,这项研究的意义远不止于帮助机器人适应新摄像头。它所提出的“在正式执行任务前先做任务无关的自主探索”这一框架,可能对整个机器人泛化能力的研究方向都有参考价值。机器人的部署场景千变万化——不同工厂的照明条件不同、不同型号的机器臂有不同的运动特性、不同季节的户外环境差异巨大——任何一个单一的“系统配置”都无法在训练阶段被完全覆盖。ICWM提供的这种“到了新地方先摸摸底再干活”的机制,为解决这类泛化问题提供了一条代价极低的路径。

当然,这项研究也有其局限。目前的实验主要集中在摄像头视角和机械臂形态这两类变化,对于更复杂的场景——比如物体光照条件的剧烈变化、任务本身的根本性变化——是否同样有效,还需要更多验证。训练数据的多样性同样是制约因素:在语义场景变化实验中效果相对有限,部分原因就在于训练数据中场景多样性不足。此外,探测阶段需要机器人在工作区域内自由移动,在高度危险或空间极度受限的环境中,可能需要额外的安全设计。

归根结底,这项研究告诉我们一个朴素的道理:到了新环境,先别急着干活,花几秒钟熟悉一下周围的情况,往往能让后续工作事半功倍。这个道理人人都懂,但让机器人也懂,并且用严格的数学和实验来证明它切实有效,才是这篇论文真正的贡献所在。

Q&A

Q1:ICWM和普通的多视角训练有什么区别,为什么多视角训练不够用?

普通多视角训练是把各种摄像头角度的数据都塞进训练集,希望模型见多识广。但问题是,测试时遇到的新角度永远不会完全出现在训练集里,模型没有办法在推理时主动调整自己。ICWM的不同在于,它给了模型一个在每次部署时“现场感受当前视角”的机会,通过任务前的随机探测动作,让模型实时理解当前的观测-动作对应关系,而不是依赖训练时见过的角度。

Q2:ICWM的探测阶段会不会碰到任务中的物品,破坏任务的初始状态?

研究团队在设计探测阶段时专门考虑了这个问题。探测时的随机目标点是在机器人安全工作区域内采样的,并且明确排除了任务相关物品所在的区域,确保探测过程不会干扰任务的初始摆放状态。机器人也不需要真正到达探测目标点,只需要朝那个方向移动几步,产生足够的视觉-动作对应信息即可。

Q3:ICWM需要重新训练现有的机器人模型吗,还是可以直接加在已有模型上?

ICWM需要在训练阶段就引入探测上下文的机制,不能直接叠加在未经该方式训练的模型上。研究团队的一个关键发现是,把探测片段喂给一个普通行为克隆训练的模型,其成功率会直接崩溃到接近零,说明这种上下文利用能力必须通过专门的训练方式才能获得,无法靠推理时的技巧来弥补。

来源:https://www.163.com/dy/article/L0N2PI680511DTVV.html
上一篇创智穹彻共建具身智能联合实验室签约 下一篇乐奇Rokid首发AIOS+AIUI终结AI眼镜路线之争
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
OpenClaw手机App上线,结果翻车了
科技数码 · 2026-07-01

OpenClaw手机App上线,结果翻车了

OpenClaw 官方宣布,已正式推出 iOS 和 Android 原生移动 App,用户如今可以在手机上使用这款主打“能真正帮你做事”的个人 AI 助手。官方在 X 上给出的定位也很直接:把 Agent 放进口袋里,让用户可以在移动端处理频道消息、任务和回复。从功能上看,OpenClaw 移动端并

优必选CEO周剑:家庭机器人生态核心投入过半精力
科技数码 · 2026-07-01

优必选CEO周剑:家庭机器人生态核心投入过半精力

先说几个核心判断:优必选正在布局一盘长远战略。创始人兼CEO周剑在近期一场媒体沟通会上,直接亮出了公司未来的发展路线——工业、商用、家庭陪伴机器人三条业务主赛道并行推进,现阶段每条线各占约一半精力。一边是已经能够稳定创造收入的工业场景,另一边则是他眼中“最具想象力与未来空间”的家庭陪伴领域。工业人形

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛
科技数码 · 2026-07-01

CPO/NPO/OIO开启封装级光连接价值空间,技术路线尚未收敛

6月30日,申银万国在光连接系列研报中重点指出,MPO光连接器领域的投资机会值得高度关注。通俗来说,随着AI算力集群持续扩张,光互联升级带来的连锁效应——数据中心光纤通道数量、前面板端口密度、机柜内光纤管理复杂度——均在同步攀升。光连接器的角色早已超越传统的低价值标准件,如今它直接决定着链路插损、可

龙岗AR实景剧本游内测体验短板有效破解之道
科技数码 · 2026-07-01

龙岗AR实景剧本游内测体验短板有效破解之道

在今年龙岗区第二届人工智能与机器人发展大会上,区级部门一次性推出了7个AI“龙搭子”。其中,名为“龙导游”的成果成为文商旅融合领域的核心亮点。据南都N视频记者了解,依托“龙导游”打造的全区全域AR实景剧本游“龙岗大陆”,已在今年五一假期发布了内测版本。经过一个月市场验证后,该项目正式启动面向全社会的

南下资金6月30日净买入中芯国际与建滔积层板
科技数码 · 2026-07-01

南下资金6月30日净买入中芯国际与建滔积层板

6月30日,南下资金持续大举买入港股,单日净流入金额高达58 95亿港元。接下来,我们直接盘点哪些个股获得资金青睐、哪些遭到减持: 净买入方面,中芯国际领跑全场,单日吸金19 33亿港元;建滔积层板紧随其后,净买入10 59亿港元;腾讯控股获得7 65亿港元净流入;智谱(02513 HK)也有6 5