首页 游戏 软件 资讯 排行榜 专题
首页
AI
73亿参数模型突破,从视频学习物理操控机器人新范式

73亿参数模型突破,从视频学习物理操控机器人新范式

热心网友
15
转载
2026-03-27


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:LRST

【新智元导读】机器人操控的「数据困境」一直是行业痛点:要让机器人学会精细操作,传统方法需要大量人工标注的动作演示数据,成本高昂、周期漫长。这个瓶颈能否被突破?

大型视频生成模型在海量视频上训练,已经隐式地学会了物理世界的运行规律:物体如何运动、力如何传递、空间关系如何演化。

这些知识与机器人操控所需的物理直觉高度一致。

关键问题是:能否把这些视频模型已经掌握的物理先验,转移到机器人控制上?

中山大学王广润教授给出了一个创新答案:不靠海量动作数据,直接从视频生成模型中「借」物理直觉。从PAR(物理自回归模型)到其进阶版本PhysGen(从预训练视频模型中学习物理),两项工作一脉相承,共享同一套「物理自回归」核心框架,并与英伟达今年2月发布的DreamDojo在核心思路上高度重合——当两条独立探索的路线收敛到同一个方向,这或许意味着某种底层规律正在被揭示。


PAR论文链接:https://arxiv.org/abs/2508.09822

项目主页:https://hcplab-sysu.github.io/PhysicalAutoregressiveModel

论文发表时间:2025年8月13日


PhysGen论文链接:https://arxiv.org/abs/2603.00110

论文发表时间:2026年2月18日

传统方法把「看环境」和「做动作」分成两个任务。

PAR反其道而行之:把视频帧和机器人动作编码成同一种「物理token」,让模型在同一个自回归过程中,既预测「世界接下来会变成什么样」,也同步输出「机器人该做什么动作」,这与人类「眼手协调」的直觉高度吻合。

这样做的好处是:动作不再是孤立的指令序列,而是与环境演化深度绑定的联合预测。


图1:物理token自回归的运作方式:预测未来的帧与动作联合体,与真实环境同步演化

三个技术要点

连续表示,不离散化:帧与动作都用连续向量表达,避免离散量化带来的精度损失

隐式逆运动学:通过特殊的因果掩码设计,让模型在「看到未来画面」后再决定当前动作

高效推理:借鉴LLM的KV-Cache技术,实现实时控制

效果如何?

在ManiSkill基准测试中:

PushCube任务达到100%成功率

总体平均成功率74%,居所有方法第二,仅次于需要大规模动作预训练的RDT(84%)

在PickCube与StackCube任务上,同样超过或接近需要动作预训练的强基准方法

额外引入参数仅30M


图2:ManiSkill基准成功率对比(零动作预训练,媲美SOTA)

PhysGen

对物理自回归路线的深化

PhysGen在2026年2月公开发布,是PAR路线的延续。它完整保留了PAR的核心架构(物理token、连续表示、因果掩码),并在此基础上做了三处关键改进。

三项升级

① 前瞻规划(Lookahead-MTP)让模型每次预测时「多看几步」——同时预测未来3个token,训练时全监督,推理时只执行第一个。这相当于给机器人配了「短期规划能力」。

② 高效训练(LoRA微调)用参数高效的方式微调大模型,训练成本大幅降低——单张A100显卡,60小时内完成训练。

③ 真实世界验证不止在仿真环境,PhysGen在Franka Panda真实机械臂上完成了四项任务测试,包括抓取透明物体这种高难度场景。

效果有多强?

LIBERO仿真基准:


图3:732M参数、在零大规模动作预训练的前提下,Physgen取得平均90.8%成功率

真实世界任务:


图4: 真实机器人实验性能对比

在最考验物理感知的透明物体抓取任务中,PhysGen反超了需要大规模预训练的π0模型——这说明从视频学到的物理直觉,在处理「视觉欺骗性强」的场景时更有优势。

与英伟达DreamDojo的深度同源

今年2月,英伟达发布了DreamDojo——一个基于大规模视频训练的通用机器人世界模型。对比PAR/PhysGen与DreamDojo,会发现两条路线在核心技术理念上惊人一致。

两个系统的本质目标完全一致:预测未来的「物理量」——也就是未来的动作和视频的联合体。

这个设计背后的哲学是:机器人操控不是「先看画面,再决定动作」的串行过程,而是「世界如何演化」与「机器人如何行动」的联合预测问题。动作和视频不是两个独立变量,而是物理世界演化的共同结果。


架构共识:自回归建模

在如何预测这个「未来物理量」的问题上,两个系统不约而同地选择了自回归架构。

为什么是自回归?因为物理世界的演化是序列性、因果性的——当前时刻的状态决定下一时刻的状态,下一时刻又影响再下一时刻。自回归模型天然契合这种「逐步展开」的物理过程。


表示共识:连续空间建模

在如何表达「物理量」的问题上,两个系统都选择了连续表示,而非离散化。

这是一个关键决策:物理世界本质上是连续的(位置、速度、力都是连续量),离散化会引入量化误差,这些误差在长时序预测中会累积放大。连续表示则能保持物理量的原生精度。


训练共识:零动作预训练

两个系统都验证了同一个重要结论:不需要大规模机器人动作数据预训练,就能实现强大的操控能力。

这背后的逻辑是:视频数据本身已经包含了丰富的物理先验(物体运动规律、力学关系、空间推理),这些先验可以直接迁移到机器人控制任务上。


时间线印证

中大团队的PAR在2025年8月公开,PhysGen在2026年3月公开,DreamDojo在2026年2月发布。

三者独立推进,却在四个核心决策上同步收敛:

① 预测目标:未来动作+视频联合体(物理量)② 架构选择:自回归逐步展开(契合物理因果)③ 表示方法:连续空间建模(避免量化误差)④ 训练范式:零动作预训练(视频物理先验迁移)

这不是偶然的相似,而是对同一底层规律的共同发现。

其中最核心的洞察是:

世界模型不是为了「看起来好」,而是为了「指导动作」

这是PAR/PhysGen与传统视频生成模型的根本区别。

传统视频生成模型(如Sora、Runway)追求的是视觉保真度——生成的视频要「看起来真实」、「美观流畅」。

但对于机器人操控而言,世界模型的根本目的不是生成一段视觉上美观的未来视频,而是希望生成的未来视频能对下一步的物理动作起到实质性的前瞻与指导作用。

核心哲学总结

对世界模型的理解,可以归结为一句话:

世界模型的价值不在于生成「好看的视频」,而在于生成「对动作有指导意义的物理预测」。视频只是物理演化的可视化载体,真正重要的是其中蕴含的物理因果关系——这些因果关系决定了「做什么动作会导致什么结果」,而这正是机器人决策的核心依据。

这也是为什么PhysGen能用732M参数超越7B级模型——它没有把算力浪费在「让视频更美」上,而是专注于「让物理预测更准」。

从PAR到PhysGen,正在验证一条清晰的技术路线:把机器人操控问题重新定义为「预测未来物理量」——未来的动作和视频联合体,并用自回归模型在连续空间中逐步展开这个预测过程。

更重要的是,明确了世界模型的根本目的:不是生成视觉上美观的未来视频,而是生成对下一步物理动作有实质指导作用的物理预测。这个理念体现在物理token联合建模、因果掩码逆运动学、前瞻多步规划、真实世界物理挑战验证等一系列设计中,并通过732M参数超越7B级模型的效率,以及透明物体抓取超越π0的效果,得到了实践检验。

而英伟达DreamDojo在预测目标、架构选择、表示方法、训练范式四个核心决策上的同步跟进,则从另一个侧面印证了这一方向的潜力。

作者介绍

王广润系国家海外高层次青年人才基金及华为战略人才基金获得者,中山大学计算机学院青年研究员、博士生导师,拓元智慧首席科学家。华为「天才少年计划」最高级别入选者;曾赴英国牛津大学担任Research Fellow,师从英国皇家科学院院士、皇家工程院院士 Philip H.S. Torr 教授。

主要从事新一代AI架构、大物理模型与世界模型、多模态生成式AI方向研究。获吴文俊人工智能优秀博士论文奖(全国仅9人)、《Pattern Recognition》全球当年唯一最佳论文、全球AI华人新星榜(当年机器学习领域全球仅25人);担任多个CCF A类会议领域主席;在多项国际竞赛中获得金牌;研究成果被图灵奖得主Yann LeCun引用。

参考资料:

https://arxiv.org/abs/2603.00110

来源:https://www.163.com/dy/article/KP2CJBNN0511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

机器人穿针引线的核心技术(智能抓取大解析)
科技数码
机器人穿针引线的核心技术(智能抓取大解析)

张延柏 张延柏近照,AI修饰生成素描画 不久前,我们团队研发的灵巧手完成了一项极具挑战的操作——“穿针引线”。机械指尖稳定地捏住细线,缓缓对准针眼,最终将线顺利穿过。对人类来说,这是一个简单的日常动

热心网友
03.31
打工族养小龙虾:5个低成本副业秘诀
科技数码
打工族养小龙虾:5个低成本副业秘诀

如果你还把人工智能理解成一个更会说话的对话框,那你看到的只是它最温和的一面。真正开始改造办公室生态的,不再只是“会聊天的模型”,而是以OpenClaw为代表的自主智能体。圈内有人叫它“小龙虾”,这名

热心网友
03.30
73亿参数模型突破,从视频学习物理操控机器人新范式
AI
73亿参数模型突破,从视频学习物理操控机器人新范式

新智元报道编辑:LRST【新智元导读】机器人操控的「数据困境」一直是行业痛点:要让机器人学会精细操作,传统方法需要大量人工标注的动作演示数据,成本高昂、周期漫长。这个瓶颈能否被突破?大型视频生成模型

热心网友
03.27
北大首推智能视频助手,多所高校试点应用
科技数码
北大首推智能视频助手,多所高校试点应用

这项由北京大学联合中科院自动化所、清华大学、Adobe等多家机构共同完成的突破性研究,发表于2026年3月的计算机视觉顶级会议论文集(arXiv:2603 20422v1)。有兴趣深入了解的读者可以

热心网友
03.26
AI如何实现类人视频理解:突破机制与技术路径
科技数码
AI如何实现类人视频理解:突破机制与技术路径

这项由东北大学、加州大学圣地亚哥分校、马里兰大学、得克萨斯大学奥斯汀分校以及华盛顿大学联合开展的研究发表于2026年3月,论文编号为arXiv:2603 22281v1。研究团队针对现有视频理解技术

热心网友
03.26

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Incerto Observability
AI
Incerto Observability

Incerto Observability是什么 在监控工具这个领域,我们常常面临一个选择题:是选择功能强大但黑盒化的商业套件,还是拥抱灵活却需要大量自研投入的开源方案?Incerto Observability的出现,似乎提供了一个折中的答案。这款由 Incerto Technologies 开发

热心网友
04.17
灰烬之国手游好玩吗|灰烬之国手游核心玩法、职业选择与新手入门详解
游戏攻略
灰烬之国手游好玩吗|灰烬之国手游核心玩法、职业选择与新手入门详解

《灰烬之国》深度评测:硬核肉鸽与叙事融合,是否值得长期投入? 近期,一款名为《灰烬之国》的 Roguelike 手游在玩家社群中热度显著上升。它尤其吸引了那些钟爱高自由度构筑与强随机性挑战的硬核玩家群体。本作成功地将深度叙事与复杂的玩法系统相结合,那么,它是否值得你投入大量时间进行深入体验?我们来全

热心网友
04.17
insert into select 大数据量插入的性能优化与分批提交方案
数据库
insert into select 大数据量插入的性能优化与分批提交方案

大数据量插入的性能瓶颈分析在数据库操作中,直接使用简单的INSERT语句处理海量数据时,往往会遭遇显著的性能瓶颈。当数据量达到百万甚至千万级别时,单次事务过大、日志写入压力剧增、锁竞争激烈以及网络传输超时等问题会集中爆发,导致插入操作异常缓慢,甚至引发事务回滚或连接中断。其中,数据库的事务日志(如M

热心网友
04.17
《红色沙漠》弓箭爆炸输出流玩法攻略分享
游戏攻略
《红色沙漠》弓箭爆炸输出流玩法攻略分享

《红色沙漠》弓箭爆炸输出流玩法攻略分享 在《红色沙漠》这款游戏中,追求极致伤害与爽快战斗体验的玩家,往往会对弓箭爆炸输出流青睐有加。该流派以其卓越的爆发能力和广泛的适应性,堪称应对各类高难度BOSS与副本的“万金油”选择。其核心魅力在于通过精妙的技能组合,在短时间内倾泻出毁灭性的伤害。如果你渴望掌握

热心网友
04.17
insert into select 入门指南:从基础查询到数据迁移
数据库
insert into select 入门指南:从基础查询到数据迁移

理解 insert into select 的核心概念在数据库操作中,数据的复制与迁移是一项常见任务。insert into select 语句正是为此而生的强大工具。它并非两个独立命令的简单拼接,而是一个将数据查询与数据插入无缝结合的单步操作。其基本语法结构为:INSERT INTO 目标表 (列

热心网友
04.17