英伟达清华联合推出Gamma-World 打破多智能体仿真天花板_AI热点日报

英伟达清华联合推出Gamma-World 打破多智能体仿真天花板

类型：热点整理2026-06-03

视频世界模型正经历一场深层次的架构变革——从单一视角迈向多智能体协同。过去主流方案大多基于单智能体假设，虽然看似够用，但在多个玩家同时操控、互相观察的复杂虚拟场景中，往往力不从心。为突破这一结构瓶颈，英伟达携手清华大学、多伦多大学及Vector Institute，正式发布了名为Gamma-Worl

视频世界模型正经历一场深层次的架构变革——从单一视角迈向多智能体协同。过去主流方案大多基于单智能体假设，虽然看似够用，但在多个玩家同时操控、互相观察的复杂虚拟场景中，往往力不从心。为突破这一结构瓶颈，英伟达携手清华大学、多伦多大学及Vector Institute，正式发布了名为Gamma-World（γ-World）的全新多智能体世界模型解决方案。

多智能体世界建模的核心难题在哪里？关键在于同时维持时间一致性、跨视角一致性以及交互一致性。此前诸如Solaris等研究虽然在双人协同方面取得一定进展，但暴露出两大致命缺陷：其一，身份编码破坏了置换对称性；其二，全连接注意力机制导致计算量随智能体数量呈平方级暴增。简言之，这条路无法真正扩展到更多主体。

针对这些结构性不足，Gamma-World从底层逻辑开始重新设计。团队首先提出了一种创新方法——正单纯形旋转智能体编码（Simplex Rotary Agent Encoding）。该方法将所有玩家置于几何空间正单纯形的顶点上，使所有玩家天然等距、地位对等。这套编码不含任何可学习参数，只需随机分配坐标即可生效。更令人瞩目的是，模型无需改动架构，便可实现“用双人数据训练，直接在四人场景中运行”的跨域泛化能力。

在算力方面，传统的两两直接通信模式显然难以支撑。为此，Gamma-World引入了稀疏枢纽注意力机制（Sparse Hub Attention），彻底摒弃了旧有路径，改用一组可学习的枢纽Token作为共享世界状态的压缩中转站。计算成本由此降至线性复杂度。再配合独立的缓存技术，系统成功实现了每秒24帧的实时动作响应推演。换言之，推演过程几乎感觉不到延迟。

在训练阶段，项目采用了三阶段师生蒸馏法。通过双向教师模型引导因果学生模型，成功将多步采样压缩到4步。这样不仅保证了动作的可控性，还有效缓解了自回归推演中常见的误差累积问题。

实验数据提供了非常直观的佐证。在多人Minecraft虚拟环境的记忆、建造等五大类核心场景测试中，Gamma-World相比现有最强模型实现了全面领先。评估视频质量的FVD指标平均降幅超过40%。更值得注意的是，该框架已成功迁移至真实双臂机器人的协同任务，充分验证了其跨场景通用性。这不仅意味着多智能体仿真能力的提升，未来更可能为多臂医疗协同、工厂多机器人调度以及自动驾驶等物理AI领域，提供全新的大规模模拟生成基础设施。

来源：https://news.aibase.com/zh/news/28572

Gamm

延伸阅读

补充最近整理过的热点入口。

英伟达清华联合推出Gamma-World 打破多智能体仿真天花板

相关热点

延伸阅读