首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
上海交大团队:机器人如何从“看客”进阶为“评委”

上海交大团队:机器人如何从“看客”进阶为“评委”

热心网友
26
转载
2026-03-26


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由上海交通大学、东北大学、厦门大学马来西亚分校、香港大学、香港中文大学和星火AI联合完成的研究发表于2026年3月16日,论文编号为arXiv:2603.15600v1,为机器人领域带来了一项突破性进展。

想象一下这样的场景:你正在观看一个朋友做菜,你不仅能看出他正在切菜、炒菜,还能准确判断这道菜完成了百分之多少。这听起来很简单,但对机器人来说却是个巨大的挑战。长期以来,机器人就像是个"看热闹"的观众,能描述眼前发生的事情,却难以准确判断任务的进展程度。

这个问题远比想象中重要。在工厂里,机器人需要知道装配线上的产品完成度;在家庭中,扫地机器人需要判断清洁任务进行到什么程度;在医疗环境中,手术机器人需要实时评估手术进展。但现有的视频理解模型就像一个只会描述但不会评价的解说员,它们能告诉你"机器人正在移动物体",却无法准确判断"这个搬运任务完成了70%"。

研究团队发现了问题的核心所在:现有的视频多模态大语言模型主要通过监督学习训练,它们更像是"被动的观察者",习惯于描述和识别,但缺乏主动评判和推理的能力。就好比一个从未下过厨的人,虽然能认出锅碗瓢盆,甚至能描述厨师的动作,但要让他判断一道菜的完成度,就显得力不从心了。

为了解决这个难题,研究团队开发了一个名为PRIMO R1的7B参数框架。这个名字代表"过程推理诱导监控"(Process Reasoning Induced MOnitoring),其核心思想是将机器人从"被动观察者"转变为"主动评判者"。

PRIMO R1的创新在于采用了强化学习方法,让模型学会生成明确的思维链条。这就像训练一个学生不仅要给出答案,还要详细说明解题思路。模型需要经历三个思考阶段:规划阶段分析任务目标和步骤,观察阶段记录具体的动作变化,推理阶段综合分析并给出进度判断。

更巧妙的是,PRIMO R1采用了一种独特的"时间锚定"策略。传统模型只看视频流,就像只看电影中间片段却不知道开头和结尾。而PRIMO R1同时考虑初始状态图像、过程视频和当前状态图像,这样就能清晰地看到任务从哪里开始,经历了什么过程,现在到了什么程度。这种设计让模型对任务进展有了更准确的感知。

为了验证效果,研究团队构建了PRIMO数据集和基准测试。这个数据集涵盖了从高保真度仿真环境到真实人形机器人的多种场景,包括BEHAVIOR、AgiBot、RoboTwin等仿真平台,以及由来福机器人公司的KUAVO-MY全尺寸人形机器人在真实环境中收集的数据。

实验结果令人印象深刻。在任务进度估计方面,PRIMO R1的平均相对准确度达到82.90%,平均绝对误差仅为15.52%。更重要的是,尽管PRIMO R1只有7B参数,但它的表现超过了72B参数的大型通用模型,准确度提升了9.10个百分点。这就像一个经过专门训练的年轻厨师,在判断菜品完成度方面,竟然比经验丰富但缺乏专门训练的老师傅还要准确。

特别值得关注的是PRIMO R1在"从仿真到现实"转换中的表现。许多模型在仿真环境中表现良好,但一到真实环境就"水土不服"。而PRIMO R1在真实人形机器人环境中仍能保持72.32%的准确度,显示出强大的泛化能力。这种鲁棒性源于其内在的推理机制,而不是简单的模式匹配。

研究还发现了一个有趣的现象:训练模型进行连续的进度推理,竟然意外地提升了它在离散故障检测任务上的表现。在RoboFail基准测试中,PRIMO R1达到了67.0%的准确度,甚至超过了OpenAI的o1模型(61.0%)和GPT-4o(63.0%)。这说明连续进度评估和离散故障检测在某种程度上是相互关联的能力。

在具体的推理过程中,PRIMO R1展现出了类人的思考模式。以"折叠短裤"任务为例,模型首先制定计划:收集下摆、向上折叠、收集上摆、向下折叠、调整整齐。然后在观察阶段,它详细记录机械臂的动作和短裤状态的变化。最后在推理阶段,它发现底部已经成功折叠但顶部尚未完成,因此判断任务完成了约50%。整个过程逻辑清晰,就像一个有经验的人在思考一样。

这种推理能力的提升主要得益于研究团队设计的群体相对策略优化(GRPO)训练方法。与传统的监督学习不同,这种方法让模型在多次尝试中学会自我纠正和改进。模型会同时生成多个答案,然后通过比较这些答案的质量来学习哪种推理路径更有效。这就像让学生做同一道题的多种解法,然后通过比较来找出最佳方案。

研究团队还特别关注了推理链的长度和推理效率之间的平衡。PRIMO R1平均生成359个词的推理过程,推理时间约0.62秒,在保证准确性的同时也满足了实时应用的需求。相比之下,一些模型虽然生成了更长的推理链(比如Cosmos-Reasoning生成1109个词),但准确度反而更低,说明推理的质量比数量更重要。

在不同环境的测试中,PRIMO R1都表现出了一致的优势。无论是在AgiBot的室内环境、BEHAVIOR的复杂任务、RoboTwin的双手操作,还是在真实人形机器人的工厂和服务场景中,模型都能准确评估任务进度。这种跨环境的稳定性对实际应用至关重要。

值得一提的是,研究团队还进行了详细的消融实验,验证了设计选择的合理性。他们发现,同时使用初始状态、过程视频和当前状态这三种输入是必要的。仅使用其中一种或两种输入都会导致性能显著下降。这证实了"时间锚定"策略的有效性。

对于普通人来说,这项研究的意义远超技术本身。随着家庭机器人、服务机器人和工业机器人的普及,我们需要能够理解和评估任务进展的智能系统。PRIMO R1为这一目标提供了重要的技术基础,让机器人不再是盲目的执行者,而是能够思考和判断的智能助手。

从技术发展的角度看,这项研究开辟了一个新的研究方向:如何让AI系统具备类人的过程监督能力。这不仅对机器人领域有重要影响,对自动驾驶、医疗AI、教育AI等领域也有借鉴意义。任何需要理解过程和评估进展的应用场景,都可能从这种方法中受益。

说到底,PRIMO R1的成功在于找到了一种让机器"学会思考"的方法。它不仅能看到发生了什么,还能理解这意味着什么,这标志着AI从感知向认知的重要跨越。这种能力的提升,将为未来的智能机器人开启无数可能,让它们真正成为我们生活和工作中可靠的智能伙伴。

Q&A

Q1:PRIMO R1是如何让机器人学会判断任务进度的?

A:PRIMO R1采用了强化学习方法训练机器人生成明确的思维链条,包括规划、观察和推理三个阶段。同时它使用"时间锚定"策略,同时分析初始状态、过程视频和当前状态,就像人类判断任务进度时会对比开始和现在的状态一样。

Q2:PRIMO R1在实际应用中表现如何?

A:PRIMO R1在多个测试环境中都表现优秀,平均准确度达到82.90%,比72B参数的大型模型还要准确。更重要的是,它在真实人形机器人环境中仍能保持72.32%的准确度,显示出强大的实用性。

Q3:这项技术对普通人的生活会有什么影响?

A:随着家庭机器人和服务机器人的普及,这项技术能让机器人更好地理解和完成日常任务,比如清洁、整理、烹饪等。机器人将能够准确判断任务完成情况,提供更智能、更可靠的服务。

来源:https://www.163.com/dy/article/KOVRALD90511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步
科技数码
EPFL等机构发现大语言模型的内部思维与人类创造性大脑高度同步

这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、

热心网友
04.22
摩尔线程完成智谱GLM-5.1适配
科技数码
摩尔线程完成智谱GLM-5.1适配

北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支

热心网友
04.15
如何利用SQL进行推理
数据库
如何利用SQL进行推理

如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答

热心网友
04.14
AI看图能力真伪探秘:它是否真是编出来的?
科技数码
AI看图能力真伪探秘:它是否真是编出来的?

一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回

热心网友
04.01
智谱CEO张鹏:追求推理极限,推动长效AI发展
科技数码
智谱CEO张鹏:追求推理极限,推动长效AI发展

雷递网 乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示,智谱曾经历过质疑,经历过挫折,但无数事实反复验证了一个判断——智能上界的提升,是大模型AGI时代唯一的 "第一性 "。张鹏说,

热心网友
04.01

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

66岁老制作人官宣“最后一作”!网友纷纷致敬惋惜
游戏评测
66岁老制作人官宣“最后一作”!网友纷纷致敬惋惜

一位传奇制作人的“最后一舞” 今天,游戏界一位耕耘了四十载的老兵,彼得·莫利纽兹,在社交平台上揭晓了他的“收官之作”——《阿尔比恩之主》。 争议与影响力并存的设计师 彼得·莫利纽兹这个名字,在英国乃至全球游戏史上,都意味着创新与争议的交织。他无疑是业界最具话题性、同时也最具影响力的设计师之一。 故事

热心网友
04.23
《识质存在》御三家画面对比:Switch2版也很能打!
游戏评测
《识质存在》御三家画面对比:Switch2版也很能打!

《识质存在》多平台画面对比:Switch 2的“巧劲”与“妥协” 抽5套《识质存在》steam激活码+北通鲲鹏70旗舰手柄 一场跨越平台的视觉较量 最近,油管上那个以“数毛”闻名的游戏测评频道ElAnalistaDeBits,发布了一则备受关注的对比视频。主角是谁?正是卡普空的新作《识质存在》。视频

热心网友
04.23
马斯克与狗狗币,一场玩笑引发的加密狂欢
web3.0
马斯克与狗狗币,一场玩笑引发的加密狂欢

当埃隆·马斯克敲下“Doge” 你猜怎么着?有时候,撬动数十亿美元市值,只需要一个简单的单词或表情包。当埃隆·马斯克在推特上敲出“Doge”或者发布那只柴犬的魔性表情时,一场围绕狗狗币的狂欢或震荡,往往就此拉开序幕。这个最初源于网络玩笑的加密货币,早已找到了它最重量级的“代言人”。马斯克的影响力,在

热心网友
04.23
《识质存在》小萝莉声优曝光:是个黑人妹子!
游戏评测
《识质存在》小萝莉声优曝光:是个黑人妹子!

《识质存在》好评如潮,配音阵容引关注 卡普空的新作《识质存在》最近正式发售了。市场反响相当热烈,目前本作在Steam平台上的总体好评率高达97%,开局堪称惊艳。 游戏热度之下,配音演员们也纷纷加入庆祝行列。男主角“休”的配音演员发文庆贺时,特别提到了为游戏中可爱角色“戴安娜”配音的演员——Grace

热心网友
04.23
反差拉满!祖国人竟是PS玩家 早年PS游戏广告被扒
游戏评测
反差拉满!祖国人竟是PS玩家 早年PS游戏广告被扒

从青涩玩家到经典反派:祖国人扮演者的形象蜕变 最近,社交媒体上流传的一段视频挺有意思。那是祖国人扮演者早年拍摄的一则Playstation广告,画面里的他一脸青涩,和如今那个深入人心的经典反派形象,简直判若两人。这种强烈的对比,恰恰印证了一个事实:祖国人这个角色,已经被大众公认为影视史上最具代表性的

热心网友
04.23