清华与星动纪元联合发布首个 AIGC 机器人大模型 VPP
首个AIGC机器人大模型VPP问世:让机器人“看懂”未来,听懂人话
人工智能生成内容(AIGC)的浪潮,正从文本、图像、视频,涌向一个更具挑战性的领域——具身智能机器人。最近,来自清华大学叉院ISRLab与北京星动纪元科技的一项合作成果,成了这场浪潮中的焦点。他们推出了全球首个AIGC机器人大模型VPP(视频预测策略),并且这项研究在竞争激烈的ICML 2025上荣获了Spotlight论文奖。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
这意味着什么?简单来说,AIGC技术不再只是屏幕里的“魔术”,而是开始驱动物理世界的机器人。VPP的核心突破在于,它让机器人学会了“基于视觉的未来推演”。模型利用海量的互联网视频进行训练,最终使得机器人能够听懂一句简单的自然语言指令,比如“给我盛一碗热腾腾的鸡汤”,就能实时在脑海中预测完成任务所需的步骤画面,并同步驱动身体执行出舀汤、端碗等一系列动作。
要知道,在今年ICML超过12000篇投稿中,只有约2.6%能获评Spotlight,竞争之激烈可见一斑。VPP之所以能脱颖而出,关键在于它巧妙地绕过了传统机器人策略面临的瓶颈。传统方法往往受限于推理速度或特定场景的泛化能力,而VPP创新性地将视频扩散模型的强大视觉理解和生成能力,引入了机器人操作策略的学习中。这就像给机器人装上了一颗能“脑补”后续画面的“大脑”,实现了从理解到执行的实时闭环,策略的适应性和泛化能力自然得到了质的飞跃。
那么,这颗“大脑”是如何构建的呢?VPP的学习过程分为两个清晰的阶段。第一阶段,它利用视频扩散模型学习预测性的视觉表征,也就是学会理解动态场景的演变规律。第二阶段,再通过名为Video Former和DiT扩散策略的模块,将这种对未来的视觉预测转化为具体的、可执行的动作序列。这种设计带来一个巨大优势:机器人策略的“可移植性”变得极强。一套训练好的VPP模型,能够相对轻松地在不同形态的人形机器人平台上部署和切换,这极大地降低了对单一平台、海量高质量实体操控数据的依赖,为机器人技术的快速商业化落地铺平了道路。
性能如何,数据说话。在权威的Calvin ABC-D基准测试中,VPP的任务完成平均长度达到了4.33,成功率显著超越了现有技术。更令人印象深刻的是其多任务学习能力——在真实环境测试中,VPP已能驾驭超过100种复杂的灵巧操作任务。这充分表明,基于视频预测的范式,不仅是一个优雅的理论构想,更是一个经得起实践检验的、强大的机器人智能解决方案。
相关攻略
全球首发!机器人仿生双眼视觉系统,实现人眼级环境感知与理解 赋予人形机器人稳定行走能力已属不易,而为其配备一双能够像人类一样灵活转动、主动观察并深度理解环境的“眼睛”,则面临着更为艰巨的技术挑战。近期,爱观视觉在全球新品发布会上推出的BinoSense系列产品,标志着这一领域取得了突破性进展。全新发
大厂终于亲自下场了 4月13日,据蓝鲸新闻援引知情人士消息,荣耀正与字节跳动就“豆包手机”相关合作展开接洽。 图源:蓝鲸新闻 关于“豆包手机”,市场其实并不陌生。去年,字节跳动与中兴通讯的合作已经打响了第一枪,推出了搭载豆包手机助手的努比亚M153技术预览版,定价3499元。这款手机的市场反响堪称火
《前哨站2》新手200关通关攻略:资源获取与补给叠加核心技巧详解 想要快速提升战力、实现怪物瞬秒吗?本攻略将深入解析游戏核心天赋、关键补给选择与高效升级策略,助你轻松通关无压力。 资源体系解析:掌握核心货币机制 游戏中资源主要分为金币、钻石、补给箱与天赋点四大类别。其中有一个至关重要的机制:只有钻石
模仿学习赋能灵巧操作:从理论到落地的全景解读 想让机器人像人一样灵巧地抓取、旋拧、插拔?传统基于模型的方法在复杂接触动力学面前常常力不从心,而纯强化学习又受困于高昂的试错成本。那么,有没有一条更高效的路径?答案是肯定的——模仿学习正成为破解灵巧操作难题的关键钥匙。它绕开了复杂的显式建模和繁琐的奖励设
英伟达发布GR00T N1 5模型:机器人开发的“效率革命” 在机器人领域,一次关键的“效率革命”正在发生。英伟达首席执行官黄仁勋近日宣布推出全新的人形机器人基础模型——Isaac GR00T N1 5。这不仅是英伟达在机器人开发基础设施上的重要一步,更被其定位为“下一代工业革命的核心构建模块”。这
热门专题
热门推荐
Lemonaid是什么 如果你正为音乐创作寻找得力助手,那么Lemonaid很可能就是答案。它是一款专门面向专业音乐人打造的AI音乐生成工具,核心能力在于自主生成包含完整旋律、和声与节奏的乐曲。无论是想要一段氛围感十足的背景音乐,还是为具体场景定制配乐,它都能提供高度逼真且质量上乘的作品。工具提供了
苹果也要出折叠屏,传闻已经有几年了,从目前供应链、分析师与知名爆料者释放的信息来看,这款与市面大折都不一样的阔折叠似乎已经蓄势待发,大概率今年下半年就要正式面市。今天我们就来为大家汇总一波,没准儿就有你想知道的消息。 关于苹果折叠屏手机的传闻,已经流传了好几年。如今,综合供应链、分析师以及各路知名爆
《刺客信条:黑旗重制版》官宣之际,这款新海盗游戏为何能抢先赢得玩家口碑? 当游戏界的焦点都集中在《刺客信条:黑旗重制版》的正式公布时,一款名为《风启之旅》(Windrose)的开放世界海盗生存建造游戏,却凭借其过硬的品质与独特的玩法融合,悄然在玩家社区中掀起热议。这款由乌兹别克斯坦团队Kraken
产品介绍 提到云端智能视频创作,腾讯智影是一个绕不开的名字。这款由腾讯推出的平台,本质上是一个一站式的在线视频工厂,集成了从素材挖掘、剪辑、渲染到最终发布的全链路功能,旨在为用户提供全方位的视频创作解决方案。更吸引人的是,它不仅免费开放,还深度整合了多项前沿AI技术,目标很明确:让视频化表达这件事,
《王者荣耀世界》线下活动风波:合影互动引争议,职业素养与网络舆论深度探讨 近日,《王者荣耀世界》的一场线下玩家见面会,因台上一次短暂的合影互动,意外成为全网热议的焦点。活动中,一位男粉丝上台与角色扮演者(Coser)合影时,主动做出比心手势以示友好,却未得到身旁Coser的任何回应。男生举着手势在原





