上海交大团队:机器人如何从“看客”进阶为“评委”

这项由上海交通大学、东北大学、厦门大学马来西亚分校、香港大学、香港中文大学和星火AI联合完成的研究发表于2026年3月16日,论文编号为arXiv:2603.15600v1,为机器人领域带来了一项突破性进展。
想象一下这样的场景:你正在观看一个朋友做菜,你不仅能看出他正在切菜、炒菜,还能准确判断这道菜完成了百分之多少。这听起来很简单,但对机器人来说却是个巨大的挑战。长期以来,机器人就像是个"看热闹"的观众,能描述眼前发生的事情,却难以准确判断任务的进展程度。
这个问题远比想象中重要。在工厂里,机器人需要知道装配线上的产品完成度;在家庭中,扫地机器人需要判断清洁任务进行到什么程度;在医疗环境中,手术机器人需要实时评估手术进展。但现有的视频理解模型就像一个只会描述但不会评价的解说员,它们能告诉你"机器人正在移动物体",却无法准确判断"这个搬运任务完成了70%"。
研究团队发现了问题的核心所在:现有的视频多模态大语言模型主要通过监督学习训练,它们更像是"被动的观察者",习惯于描述和识别,但缺乏主动评判和推理的能力。就好比一个从未下过厨的人,虽然能认出锅碗瓢盆,甚至能描述厨师的动作,但要让他判断一道菜的完成度,就显得力不从心了。
为了解决这个难题,研究团队开发了一个名为PRIMO R1的7B参数框架。这个名字代表"过程推理诱导监控"(Process Reasoning Induced MOnitoring),其核心思想是将机器人从"被动观察者"转变为"主动评判者"。
PRIMO R1的创新在于采用了强化学习方法,让模型学会生成明确的思维链条。这就像训练一个学生不仅要给出答案,还要详细说明解题思路。模型需要经历三个思考阶段:规划阶段分析任务目标和步骤,观察阶段记录具体的动作变化,推理阶段综合分析并给出进度判断。
更巧妙的是,PRIMO R1采用了一种独特的"时间锚定"策略。传统模型只看视频流,就像只看电影中间片段却不知道开头和结尾。而PRIMO R1同时考虑初始状态图像、过程视频和当前状态图像,这样就能清晰地看到任务从哪里开始,经历了什么过程,现在到了什么程度。这种设计让模型对任务进展有了更准确的感知。
为了验证效果,研究团队构建了PRIMO数据集和基准测试。这个数据集涵盖了从高保真度仿真环境到真实人形机器人的多种场景,包括BEHAVIOR、AgiBot、RoboTwin等仿真平台,以及由来福机器人公司的KUAVO-MY全尺寸人形机器人在真实环境中收集的数据。
实验结果令人印象深刻。在任务进度估计方面,PRIMO R1的平均相对准确度达到82.90%,平均绝对误差仅为15.52%。更重要的是,尽管PRIMO R1只有7B参数,但它的表现超过了72B参数的大型通用模型,准确度提升了9.10个百分点。这就像一个经过专门训练的年轻厨师,在判断菜品完成度方面,竟然比经验丰富但缺乏专门训练的老师傅还要准确。
特别值得关注的是PRIMO R1在"从仿真到现实"转换中的表现。许多模型在仿真环境中表现良好,但一到真实环境就"水土不服"。而PRIMO R1在真实人形机器人环境中仍能保持72.32%的准确度,显示出强大的泛化能力。这种鲁棒性源于其内在的推理机制,而不是简单的模式匹配。
研究还发现了一个有趣的现象:训练模型进行连续的进度推理,竟然意外地提升了它在离散故障检测任务上的表现。在RoboFail基准测试中,PRIMO R1达到了67.0%的准确度,甚至超过了OpenAI的o1模型(61.0%)和GPT-4o(63.0%)。这说明连续进度评估和离散故障检测在某种程度上是相互关联的能力。
在具体的推理过程中,PRIMO R1展现出了类人的思考模式。以"折叠短裤"任务为例,模型首先制定计划:收集下摆、向上折叠、收集上摆、向下折叠、调整整齐。然后在观察阶段,它详细记录机械臂的动作和短裤状态的变化。最后在推理阶段,它发现底部已经成功折叠但顶部尚未完成,因此判断任务完成了约50%。整个过程逻辑清晰,就像一个有经验的人在思考一样。
这种推理能力的提升主要得益于研究团队设计的群体相对策略优化(GRPO)训练方法。与传统的监督学习不同,这种方法让模型在多次尝试中学会自我纠正和改进。模型会同时生成多个答案,然后通过比较这些答案的质量来学习哪种推理路径更有效。这就像让学生做同一道题的多种解法,然后通过比较来找出最佳方案。
研究团队还特别关注了推理链的长度和推理效率之间的平衡。PRIMO R1平均生成359个词的推理过程,推理时间约0.62秒,在保证准确性的同时也满足了实时应用的需求。相比之下,一些模型虽然生成了更长的推理链(比如Cosmos-Reasoning生成1109个词),但准确度反而更低,说明推理的质量比数量更重要。
在不同环境的测试中,PRIMO R1都表现出了一致的优势。无论是在AgiBot的室内环境、BEHAVIOR的复杂任务、RoboTwin的双手操作,还是在真实人形机器人的工厂和服务场景中,模型都能准确评估任务进度。这种跨环境的稳定性对实际应用至关重要。
值得一提的是,研究团队还进行了详细的消融实验,验证了设计选择的合理性。他们发现,同时使用初始状态、过程视频和当前状态这三种输入是必要的。仅使用其中一种或两种输入都会导致性能显著下降。这证实了"时间锚定"策略的有效性。
对于普通人来说,这项研究的意义远超技术本身。随着家庭机器人、服务机器人和工业机器人的普及,我们需要能够理解和评估任务进展的智能系统。PRIMO R1为这一目标提供了重要的技术基础,让机器人不再是盲目的执行者,而是能够思考和判断的智能助手。
从技术发展的角度看,这项研究开辟了一个新的研究方向:如何让AI系统具备类人的过程监督能力。这不仅对机器人领域有重要影响,对自动驾驶、医疗AI、教育AI等领域也有借鉴意义。任何需要理解过程和评估进展的应用场景,都可能从这种方法中受益。
说到底,PRIMO R1的成功在于找到了一种让机器"学会思考"的方法。它不仅能看到发生了什么,还能理解这意味着什么,这标志着AI从感知向认知的重要跨越。这种能力的提升,将为未来的智能机器人开启无数可能,让它们真正成为我们生活和工作中可靠的智能伙伴。
Q&A
Q1:PRIMO R1是如何让机器人学会判断任务进度的?
A:PRIMO R1采用了强化学习方法训练机器人生成明确的思维链条,包括规划、观察和推理三个阶段。同时它使用"时间锚定"策略,同时分析初始状态、过程视频和当前状态,就像人类判断任务进度时会对比开始和现在的状态一样。
Q2:PRIMO R1在实际应用中表现如何?
A:PRIMO R1在多个测试环境中都表现优秀,平均准确度达到82.90%,比72B参数的大型模型还要准确。更重要的是,它在真实人形机器人环境中仍能保持72.32%的准确度,显示出强大的实用性。
Q3:这项技术对普通人的生活会有什么影响?
A:随着家庭机器人和服务机器人的普及,这项技术能让机器人更好地理解和完成日常任务,比如清洁、整理、烹饪等。机器人将能够准确判断任务完成情况,提供更智能、更可靠的服务。
相关攻略
OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。 这显然不是可持续的商
这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、
北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支
如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
热门专题
热门推荐
华硕ROG正式发布2026款枪神、魔霸及魔霸新锐系列游戏本并开启预约。枪神系列分为标准版与超竞版,均搭载酷睿Ultra9处理器,超竞版可选RTX5090显卡并配备光显矩阵屏。魔霸系列采用AMD锐龙处理器,高配可选锐龙99955HX3D与RTX5070Ti显卡。魔霸新锐系列主打性价比,配备RTX5060显卡,面向预算有限的玩家。
内存价格高企,单通道DDR5成为高性价比装机方案,但会降低游戏性能。测试显示,锐龙59600X凭借Zen5大核架构及对内存低延迟的优化,在搭配单条DDR56000内存时,游戏性能损失较小。相比之下,酷睿Ultra200SPLUS系列更依赖高带宽,单通道下性能下滑明显。在多款热门电竞网游实测中,锐龙59600X性能领先,且整机性价比优势显著。
神牛发布ML40系列摄影灯,包含ML40Bi和ML40R两款。ML40Bi售价568元,内置锂电池,支持边充边用及NFC快速连接,侧重便携智能。ML40R售价698元,具备更广色温调节范围,侧重专业色彩控制。两者均采用磁吸设计,兼容丰富附件,满足不同布光需求。
华硕TUFGaming系列推出新款850W白金重炮手氮化镓电源,到手价849元。该电源符合ATX3 1规范,长度150mm,采用全模组设计,配备12V-2×6接口支持600W峰值功率。其获得双白金效率认证与A-噪声认证,内部使用氮化镓元件与长寿电容,搭配135mm静音风扇,并提供8年质保,主打高效、安静与持久稳定。
FalconUSD(USDF)是一种与美元挂钩的稳定币,旨在为Web3生态系统提供可靠的交易媒介和价值储存工具。其运作依赖于储备资产支持和透明审计机制,在DeFi、跨境支付等场景有应用潜力。了解其技术原理、市场定位及潜在风险,有助于理性评估这一新兴数字资产的价值与前景。





