游乐游手机版
首页/AI热点日报/热点详情

英伟达清华联合推出Gamma-World 打破多智能体仿真天花板

类型:热点整理2026-06-03
视频世界模型正经历一场深层次的架构变革——从单一视角迈向多智能体协同。过去主流方案大多基于单智能体假设,虽然看似够用,但在多个玩家同时操控、互相观察的复杂虚拟场景中,往往力不从心。为突破这一结构瓶颈,英伟达携手清华大学、多伦多大学及Vector Institute,正式发布了名为Gamma-Worl

视频世界模型正经历一场深层次的架构变革——从单一视角迈向多智能体协同。过去主流方案大多基于单智能体假设,虽然看似够用,但在多个玩家同时操控、互相观察的复杂虚拟场景中,往往力不从心。为突破这一结构瓶颈,英伟达携手清华大学、多伦多大学及Vector Institute,正式发布了名为Gamma-World(γ-World)的全新多智能体世界模型解决方案。

多智能体世界建模的核心难题在哪里?关键在于同时维持时间一致性、跨视角一致性以及交互一致性。此前诸如Solaris等研究虽然在双人协同方面取得一定进展,但暴露出两大致命缺陷:其一,身份编码破坏了置换对称性;其二,全连接注意力机制导致计算量随智能体数量呈平方级暴增。简言之,这条路无法真正扩展到更多主体。

image.png

针对这些结构性不足,Gamma-World从底层逻辑开始重新设计。团队首先提出了一种创新方法——正单纯形旋转智能体编码(Simplex Rotary Agent Encoding)。该方法将所有玩家置于几何空间正单纯形的顶点上,使所有玩家天然等距、地位对等。这套编码不含任何可学习参数,只需随机分配坐标即可生效。更令人瞩目的是,模型无需改动架构,便可实现“用双人数据训练,直接在四人场景中运行”的跨域泛化能力。

在算力方面,传统的两两直接通信模式显然难以支撑。为此,Gamma-World引入了稀疏枢纽注意力机制(Sparse Hub Attention),彻底摒弃了旧有路径,改用一组可学习的枢纽Token作为共享世界状态的压缩中转站。计算成本由此降至线性复杂度。再配合独立的缓存技术,系统成功实现了每秒24帧的实时动作响应推演。换言之,推演过程几乎感觉不到延迟。

在训练阶段,项目采用了三阶段师生蒸馏法。通过双向教师模型引导因果学生模型,成功将多步采样压缩到4步。这样不仅保证了动作的可控性,还有效缓解了自回归推演中常见的误差累积问题。

实验数据提供了非常直观的佐证。在多人Minecraft虚拟环境的记忆、建造等五大类核心场景测试中,Gamma-World相比现有最强模型实现了全面领先。评估视频质量的FVD指标平均降幅超过40%。更值得注意的是,该框架已成功迁移至真实双臂机器人的协同任务,充分验证了其跨场景通用性。这不仅意味着多智能体仿真能力的提升,未来更可能为多臂医疗协同、工厂多机器人调度以及自动驾驶等物理AI领域,提供全新的大规模模拟生成基础设施。

来源:https://news.aibase.com/zh/news/28572

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。