首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
上海交大团队:机器人如何从“看客”进阶为“评委”

上海交大团队:机器人如何从“看客”进阶为“评委”

热心网友
52
转载
2026-03-26


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这项由上海交通大学、东北大学、厦门大学马来西亚分校、香港大学、香港中文大学和星火AI联合完成的研究发表于2026年3月16日,论文编号为arXiv:2603.15600v1,为机器人领域带来了一项突破性进展。

想象一下这样的场景:你正在观看一个朋友做菜,你不仅能看出他正在切菜、炒菜,还能准确判断这道菜完成了百分之多少。这听起来很简单,但对机器人来说却是个巨大的挑战。长期以来,机器人就像是个"看热闹"的观众,能描述眼前发生的事情,却难以准确判断任务的进展程度。

这个问题远比想象中重要。在工厂里,机器人需要知道装配线上的产品完成度;在家庭中,扫地机器人需要判断清洁任务进行到什么程度;在医疗环境中,手术机器人需要实时评估手术进展。但现有的视频理解模型就像一个只会描述但不会评价的解说员,它们能告诉你"机器人正在移动物体",却无法准确判断"这个搬运任务完成了70%"。

研究团队发现了问题的核心所在:现有的视频多模态大语言模型主要通过监督学习训练,它们更像是"被动的观察者",习惯于描述和识别,但缺乏主动评判和推理的能力。就好比一个从未下过厨的人,虽然能认出锅碗瓢盆,甚至能描述厨师的动作,但要让他判断一道菜的完成度,就显得力不从心了。

为了解决这个难题,研究团队开发了一个名为PRIMO R1的7B参数框架。这个名字代表"过程推理诱导监控"(Process Reasoning Induced MOnitoring),其核心思想是将机器人从"被动观察者"转变为"主动评判者"。

PRIMO R1的创新在于采用了强化学习方法,让模型学会生成明确的思维链条。这就像训练一个学生不仅要给出答案,还要详细说明解题思路。模型需要经历三个思考阶段:规划阶段分析任务目标和步骤,观察阶段记录具体的动作变化,推理阶段综合分析并给出进度判断。

更巧妙的是,PRIMO R1采用了一种独特的"时间锚定"策略。传统模型只看视频流,就像只看电影中间片段却不知道开头和结尾。而PRIMO R1同时考虑初始状态图像、过程视频和当前状态图像,这样就能清晰地看到任务从哪里开始,经历了什么过程,现在到了什么程度。这种设计让模型对任务进展有了更准确的感知。

为了验证效果,研究团队构建了PRIMO数据集和基准测试。这个数据集涵盖了从高保真度仿真环境到真实人形机器人的多种场景,包括BEHAVIOR、AgiBot、RoboTwin等仿真平台,以及由来福机器人公司的KUAVO-MY全尺寸人形机器人在真实环境中收集的数据。

实验结果令人印象深刻。在任务进度估计方面,PRIMO R1的平均相对准确度达到82.90%,平均绝对误差仅为15.52%。更重要的是,尽管PRIMO R1只有7B参数,但它的表现超过了72B参数的大型通用模型,准确度提升了9.10个百分点。这就像一个经过专门训练的年轻厨师,在判断菜品完成度方面,竟然比经验丰富但缺乏专门训练的老师傅还要准确。

特别值得关注的是PRIMO R1在"从仿真到现实"转换中的表现。许多模型在仿真环境中表现良好,但一到真实环境就"水土不服"。而PRIMO R1在真实人形机器人环境中仍能保持72.32%的准确度,显示出强大的泛化能力。这种鲁棒性源于其内在的推理机制,而不是简单的模式匹配。

研究还发现了一个有趣的现象:训练模型进行连续的进度推理,竟然意外地提升了它在离散故障检测任务上的表现。在RoboFail基准测试中,PRIMO R1达到了67.0%的准确度,甚至超过了OpenAI的o1模型(61.0%)和GPT-4o(63.0%)。这说明连续进度评估和离散故障检测在某种程度上是相互关联的能力。

在具体的推理过程中,PRIMO R1展现出了类人的思考模式。以"折叠短裤"任务为例,模型首先制定计划:收集下摆、向上折叠、收集上摆、向下折叠、调整整齐。然后在观察阶段,它详细记录机械臂的动作和短裤状态的变化。最后在推理阶段,它发现底部已经成功折叠但顶部尚未完成,因此判断任务完成了约50%。整个过程逻辑清晰,就像一个有经验的人在思考一样。

这种推理能力的提升主要得益于研究团队设计的群体相对策略优化(GRPO)训练方法。与传统的监督学习不同,这种方法让模型在多次尝试中学会自我纠正和改进。模型会同时生成多个答案,然后通过比较这些答案的质量来学习哪种推理路径更有效。这就像让学生做同一道题的多种解法,然后通过比较来找出最佳方案。

研究团队还特别关注了推理链的长度和推理效率之间的平衡。PRIMO R1平均生成359个词的推理过程,推理时间约0.62秒,在保证准确性的同时也满足了实时应用的需求。相比之下,一些模型虽然生成了更长的推理链(比如Cosmos-Reasoning生成1109个词),但准确度反而更低,说明推理的质量比数量更重要。

在不同环境的测试中,PRIMO R1都表现出了一致的优势。无论是在AgiBot的室内环境、BEHAVIOR的复杂任务、RoboTwin的双手操作,还是在真实人形机器人的工厂和服务场景中,模型都能准确评估任务进度。这种跨环境的稳定性对实际应用至关重要。

值得一提的是,研究团队还进行了详细的消融实验,验证了设计选择的合理性。他们发现,同时使用初始状态、过程视频和当前状态这三种输入是必要的。仅使用其中一种或两种输入都会导致性能显著下降。这证实了"时间锚定"策略的有效性。

对于普通人来说,这项研究的意义远超技术本身。随着家庭机器人、服务机器人和工业机器人的普及,我们需要能够理解和评估任务进展的智能系统。PRIMO R1为这一目标提供了重要的技术基础,让机器人不再是盲目的执行者,而是能够思考和判断的智能助手。

从技术发展的角度看,这项研究开辟了一个新的研究方向:如何让AI系统具备类人的过程监督能力。这不仅对机器人领域有重要影响,对自动驾驶、医疗AI、教育AI等领域也有借鉴意义。任何需要理解过程和评估进展的应用场景,都可能从这种方法中受益。

说到底,PRIMO R1的成功在于找到了一种让机器"学会思考"的方法。它不仅能看到发生了什么,还能理解这意味着什么,这标志着AI从感知向认知的重要跨越。这种能力的提升,将为未来的智能机器人开启无数可能,让它们真正成为我们生活和工作中可靠的智能伙伴。

Q&A

Q1:PRIMO R1是如何让机器人学会判断任务进度的?

A:PRIMO R1采用了强化学习方法训练机器人生成明确的思维链条,包括规划、观察和推理三个阶段。同时它使用"时间锚定"策略,同时分析初始状态、过程视频和当前状态,就像人类判断任务进度时会对比开始和现在的状态一样。

Q2:PRIMO R1在实际应用中表现如何?

A:PRIMO R1在多个测试环境中都表现优秀,平均准确度达到82.90%,比72B参数的大型模型还要准确。更重要的是,它在真实人形机器人环境中仍能保持72.32%的准确度,显示出强大的实用性。

Q3:这项技术对普通人的生活会有什么影响?

A:随着家庭机器人和服务机器人的普及,这项技术能让机器人更好地理解和完成日常任务,比如清洁、整理、烹饪等。机器人将能够准确判断任务完成情况,提供更智能、更可靠的服务。

来源:https://www.163.com/dy/article/KOVRALD90511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

阿里林俊离职首文:AI迈向智能体式思考新阶段
科技数码
阿里林俊离职首文:AI迈向智能体式思考新阶段

AI正在走向“为了采取正确行动而思考”。编译整理|莘歆来源 | 盒饭财经(ID:daxiongfan)头图及封面来源 | 网络及即梦制作在X(推特)上宣布离职后的22天,林俊旸发了一篇长文。3月2

热心网友
03.27
智能化如何主导未来?林俊峪离职后首次撰文深思
科技数码
智能化如何主导未来?林俊峪离职后首次撰文深思

3月26日晚间,前千问大模型技术负责人林俊旸在社交平台发文,在从阿里离职后,他首度发布长文详谈自己对大模型发展路线的理解及对AI下一阶段的预判。林俊旸表示,过去两年重塑了行业对大模型的评估方式与核心

热心网友
03.27
林俊烨离职首谈千问复盘:AI之路的反思与未来指向
AI
林俊烨离职首谈千问复盘:AI之路的反思与未来指向

梦晨 发自 凹非寺量子位 | 公众号 QbitAI林俊旸,离职阿里千问后首次发声。他没有回应离职风波或宣告去向,而是发长文探讨从“推理模型时代的思考”到“智能体时代的思考”的转变。整篇文章谈的是技术

热心网友
03.27
罗福莉:AI自进化或使Token两年内实现百倍增长
科技数码
罗福莉:AI自进化或使Token两年内实现百倍增长

“推理需求在过去一段时间内已经近十倍的增长,今年整体Token增长会不会到100倍?”会议现场。澎湃新闻记者 范佳来 摄3月27日,在2026中关村论坛上,最近外界颇为关注的“AI才女”、小米MiM

热心网友
03.27
林俊灏离职后首度长文:阿里千问负责人谈模型到智能体转折
科技数码
林俊灏离职后首度长文:阿里千问负责人谈模型到智能体转折

3月26日,原阿里通义千问(Qwen)技术负责人林俊旸(Justin Lin)在社交平台上发布了一篇题为“From ‘Reasoning’ Thinking to‘Agentic’ Thinking

热心网友
03.27

最新APP

你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25
诸神皇冠
诸神皇冠
棋牌策略 03-25

热门推荐

猎豹浏览器免安装网页版:在线云端使用入口与教程
电脑教程
猎豹浏览器免安装网页版:在线云端使用入口与教程

猎豹浏览器免安装网页版入口是https: web lemur-browser com,具备界面简洁响应迅速、多端同步无缝衔接、安全防护层级丰富、文档处理能力突出、资源兼容性广泛覆

热心网友
03.27
昆仑万维发布三大世界第一梯队AI模型
科技数码
昆仑万维发布三大世界第一梯队AI模型

据昆仑万维集团消息,3月27日下午,昆仑万维(300418 SZ)旗下天工AI顺利举办“世界模型前沿技术与天工AIGC全家桶大模型生态”专场发布会,携Matrix-Game 3 0、SkyReels

热心网友
03.27
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻
科技数码
杨植麟、张鹏、夏立雪、罗福莉论道大模型:未来一年趋势前瞻

本报(chinatimes net cn)记者石飞月 北京报道大模型未来会走向哪里?OpenClaw的爆火似乎为全行业指明了一个方向,但接踵而至的舆论质疑,又让这个答案变得扑朔迷离。3月27日,在2

热心网友
03.27
Anthropic核心模型意外泄露,网络安全股面临冲击风险
科技数码
Anthropic核心模型意外泄露,网络安全股面临冲击风险

Anthropic一款尚未发布的新AI模型因数据泄露意外曝光,引发市场对AI颠覆网络安全行业的担忧再度升温,网络安全板块股价周五盘前全线下挫。据《财富》杂志报道,Anthropic正在开发并已开始向

热心网友
03.27
Token经济到来,解析互联网大厂的布局与冷思考
科技数码
Token经济到来,解析互联网大厂的布局与冷思考

3月初,腾讯在深圳总部楼下设立“龙虾站”,引发千人排队尝鲜。OpenClaw掀起的“全民养虾”热潮,在短短一个月内让更多人看到了AI Agent深入业务场景的价值,随即推动Token调用量大规模增长

热心网友
03.27