首页 游戏 软件 资讯 排行榜 专题
首页
AI
清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP

清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP

热心网友
38
转载
2026-04-14

首个AIGC机器人大模型VPP问世:让机器人“看懂”未来,听懂人话

人工智能生成内容(AIGC)的浪潮,正从文本、图像、视频,涌向一个更具挑战性的领域——具身智能机器人。最近,来自清华大学叉院ISRLab与北京星动纪元科技的一项合作成果,成了这场浪潮中的焦点。他们推出了全球首个AIGC机器人大模型VPP(视频预测策略),并且这项研究在竞争激烈的ICML 2025上荣获了Spotlight论文奖。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

VPP模型示意图,展示了机器人通过视频预测理解任务

这意味着什么?简单来说,AIGC技术不再只是屏幕里的“魔术”,而是开始驱动物理世界的机器人。VPP的核心突破在于,它让机器人学会了“基于视觉的未来推演”。模型利用海量的互联网视频进行训练,最终使得机器人能够听懂一句简单的自然语言指令,比如“给我盛一碗热腾腾的鸡汤”,就能实时在脑海中预测完成任务所需的步骤画面,并同步驱动身体执行出舀汤、端碗等一系列动作。

要知道,在今年ICML超过12000篇投稿中,只有约2.6%能获评Spotlight,竞争之激烈可见一斑。VPP之所以能脱颖而出,关键在于它巧妙地绕过了传统机器人策略面临的瓶颈。传统方法往往受限于推理速度或特定场景的泛化能力,而VPP创新性地将视频扩散模型的强大视觉理解和生成能力,引入了机器人操作策略的学习中。这就像给机器人装上了一颗能“脑补”后续画面的“大脑”,实现了从理解到执行的实时闭环,策略的适应性和泛化能力自然得到了质的飞跃。

VPP模型两阶段学习框架图解

那么,这颗“大脑”是如何构建的呢?VPP的学习过程分为两个清晰的阶段。第一阶段,它利用视频扩散模型学习预测性的视觉表征,也就是学会理解动态场景的演变规律。第二阶段,再通过名为Video Former和DiT扩散策略的模块,将这种对未来的视觉预测转化为具体的、可执行的动作序列。这种设计带来一个巨大优势:机器人策略的“可移植性”变得极强。一套训练好的VPP模型,能够相对轻松地在不同形态的人形机器人平台上部署和切换,这极大地降低了对单一平台、海量高质量实体操控数据的依赖,为机器人技术的快速商业化落地铺平了道路。

性能如何,数据说话。在权威的Calvin ABC-D基准测试中,VPP的任务完成平均长度达到了4.33,成功率显著超越了现有技术。更令人印象深刻的是其多任务学习能力——在真实环境测试中,VPP已能驾驭超过100种复杂的灵巧操作任务。这充分表明,基于视频预测的范式,不仅是一个优雅的理论构想,更是一个经得起实践检验的、强大的机器人智能解决方案。


来源:http://www.5asj.com/ai/20250508/209.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

像人眼一样看懂世界,机器人的这双“眼睛”全球首发
科技数码
像人眼一样看懂世界,机器人的这双“眼睛”全球首发

全球首发!机器人仿生双眼视觉系统,实现人眼级环境感知与理解 赋予人形机器人稳定行走能力已属不易,而为其配备一双能够像人类一样灵活转动、主动观察并深度理解环境的“眼睛”,则面临着更为艰巨的技术挑战。近期,爱观视觉在全球新品发布会上推出的BinoSense系列产品,标志着这一领域取得了突破性进展。全新发

热心网友
04.14
猛料!字节豆包手机最早找的是荣耀,现在终于谈拢了?
业界动态
猛料!字节豆包手机最早找的是荣耀,现在终于谈拢了?

大厂终于亲自下场了 4月13日,据蓝鲸新闻援引知情人士消息,荣耀正与字节跳动就“豆包手机”相关合作展开接洽。 图源:蓝鲸新闻 关于“豆包手机”,市场其实并不陌生。去年,字节跳动与中兴通讯的合作已经打响了第一枪,推出了搭载豆包手机助手的努比亚M153技术预览版,定价3499元。这款手机的市场反响堪称火

热心网友
04.14
前哨站2新手200关通关攻略
游戏资讯
前哨站2新手200关通关攻略

《前哨站2》新手200关通关攻略:资源获取与补给叠加核心技巧详解 想要快速提升战力、实现怪物瞬秒吗?本攻略将深入解析游戏核心天赋、关键补给选择与高效升级策略,助你轻松通关无压力。 资源体系解析:掌握核心货币机制 游戏中资源主要分为金币、钻石、补给箱与天赋点四大类别。其中有一个至关重要的机制:只有钻石

热心网友
04.14
模仿学习如何赋能灵巧操作?这有一份「2021-2025」全景技术图谱
AI
模仿学习如何赋能灵巧操作?这有一份「2021-2025」全景技术图谱

模仿学习赋能灵巧操作:从理论到落地的全景解读 想让机器人像人一样灵巧地抓取、旋拧、插拔?传统基于模型的方法在复杂接触动力学面前常常力不从心,而纯强化学习又受困于高昂的试错成本。那么,有没有一条更高效的路径?答案是肯定的——模仿学习正成为破解灵巧操作难题的关键钥匙。它绕开了复杂的显式建模和繁琐的奖励设

热心网友
04.14
英伟达推出人形机器人新模型,助力工业革命新篇章
AI
英伟达推出人形机器人新模型,助力工业革命新篇章

英伟达发布GR00T N1 5模型:机器人开发的“效率革命” 在机器人领域,一次关键的“效率革命”正在发生。英伟达首席执行官黄仁勋近日宣布推出全新的人形机器人基础模型——Isaac GR00T N1 5。这不仅是英伟达在机器人开发基础设施上的重要一步,更被其定位为“下一代工业革命的核心构建模块”。这

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Lemonaid-AI音乐生成工具
AI
Lemonaid-AI音乐生成工具

Lemonaid是什么 如果你正为音乐创作寻找得力助手,那么Lemonaid很可能就是答案。它是一款专门面向专业音乐人打造的AI音乐生成工具,核心能力在于自主生成包含完整旋律、和声与节奏的乐曲。无论是想要一段氛围感十足的背景音乐,还是为具体场景定制配乐,它都能提供高度逼真且质量上乘的作品。工具提供了

热心网友
04.14
苹果折叠屏iPhone Ultra关键点汇总:这4个问题你肯定想知道
iphone
苹果折叠屏iPhone Ultra关键点汇总:这4个问题你肯定想知道

苹果也要出折叠屏,传闻已经有几年了,从目前供应链、分析师与知名爆料者释放的信息来看,这款与市面大折都不一样的阔折叠似乎已经蓄势待发,大概率今年下半年就要正式面市。今天我们就来为大家汇总一波,没准儿就有你想知道的消息。 关于苹果折叠屏手机的传闻,已经流传了好几年。如今,综合供应链、分析师以及各路知名爆

热心网友
04.14
《刺客信条4:黑旗 重制版》对手来了!被称为4A级海盗大作
游戏评测
《刺客信条4:黑旗 重制版》对手来了!被称为4A级海盗大作

《刺客信条:黑旗重制版》官宣之际,这款新海盗游戏为何能抢先赢得玩家口碑? 当游戏界的焦点都集中在《刺客信条:黑旗重制版》的正式公布时,一款名为《风启之旅》(Windrose)的开放世界海盗生存建造游戏,却凭借其过硬的品质与独特的玩法融合,悄然在玩家社区中掀起热议。这款由乌兹别克斯坦团队Kraken

热心网友
04.14
腾讯智影-智能视频创作与发布一体化平台
AI
腾讯智影-智能视频创作与发布一体化平台

产品介绍 提到云端智能视频创作,腾讯智影是一个绕不开的名字。这款由腾讯推出的平台,本质上是一个一站式的在线视频工厂,集成了从素材挖掘、剪辑、渲染到最终发布的全链路功能,旨在为用户提供全方位的视频创作解决方案。更吸引人的是,它不仅免费开放,还深度整合了多项前沿AI技术,目标很明确:让视频化表达这件事,

热心网友
04.14
比心被拒小哥回应:不尴尬 尊重Coser 大家当个乐子
游戏评测
比心被拒小哥回应:不尴尬 尊重Coser 大家当个乐子

《王者荣耀世界》线下活动风波:合影互动引争议,职业素养与网络舆论深度探讨 近日,《王者荣耀世界》的一场线下玩家见面会,因台上一次短暂的合影互动,意外成为全网热议的焦点。活动中,一位男粉丝上台与角色扮演者(Coser)合影时,主动做出比心手势以示友好,却未得到身旁Coser的任何回应。男生举着手势在原

热心网友
04.14