Genie 3实时交互世界模型实现技术突破

时间：2026-05-28 18:36

Genie 3：世界模型技术的最新突破 2025年8月5日作者：Jack Parker-Holder 与 Shlomi Fruchter 今天，Genie 3 正式亮相——这是一款通用世界模型，能够生成前所未有丰富且多样的可交互环境。只需输入一段文本描述，它即可构建出一个动态世界，用户可以在其中实

Genie 3：世界模型技术的最新突破

2025年8月5日

Genie 3：实时交互世界模型的技术突破

作者：Jack Parker-Holder 与 Shlomi Fruchter

今天，Genie 3 正式亮相——这是一款通用世界模型，能够生成前所未有丰富且多样的可交互环境。只需输入一段文本描述，它即可构建出一个动态世界，用户可以在其中实时探索，以每秒24帧的流畅速度进行交互，并在720p分辨率下保持长达数分钟的环境一致性。

迈向世界模拟的新阶段

过去十多年，该机构一直在模拟环境研究领域引领潮流——从训练智能体玩即时战略游戏，到为开放式学习和机器人技术开发模拟环境。这些工作推动了世界模型的发展：这类AI系统能够利用对世界的认知来模拟世界的方方面面，从而让智能体预测环境如何演变，以及自身行为将如何影响环境。

世界模型也是迈向通用人工智能（AGI）的关键基石——借助它，可以在丰富模拟环境的无限课程中训练AI智能体。去年，团队推出了首批基础世界模型 Genie 1 和 Genie 2，它们能为智能体生成全新环境。同时，通过 Veo 2 和 Veo 3 模型，视频生成领域也持续取得突破，这些模型展现了对直观物理学的深刻理解。

每个模型都在世界模拟的不同能力上实现了进展。而 Genie 3 是首个支持实时交互的世界模型，同时相比 Genie 2，在一致性和真实感方面更进一步。

核心能力

Genie 3 的能力覆盖多个维度：

模拟世界的物理属性

体验水、光照等自然现象，以及复杂的环境交互效果。

模拟自然世界

生成充满活力的生态系统，从动物行为到复杂的植物生命形态。

模拟动画与虚构场景

激发想象力，创造奇幻场景和富有表现力的动画角色。

探索地点与历史场景

打破地理与时间的局限，探索不同地点和过往时代。

推动实时能力的技术前沿

要在 Genie 3 中实现高度可控性与实时交互，需要重大的技术突破。每一帧的自回归生成过程中，模型必须考虑随时间累积的先前轨迹——举个例子，如果用户一分钟后重新访问某个位置，模型必须回溯一分钟前的相关信息。为了实现实时交互，这个计算必须根据新输入的用户指令，每秒执行多次。

长时程环境一致性

为了让AI生成的虚拟世界具备沉浸感，它们必须在长时间内保持物理一致性。然而，自回归生成环境通常比生成整个视频更具技术挑战性，因为不准确性会随时间累积。尽管困难重重，Genie 3 生成的环境在数分钟内基本保持一致，视觉记忆可回溯至一分钟前。

值得注意的是：Genie 3 的一致性是一种涌现能力。其他方法如 NeRF 和 Gaussian Splatting 也能生成一致的可导航3D环境，但它们依赖于显式的3D表示。相比之下，Genie 3 生成的世界更具动态性和丰富性——它是逐帧基于世界描述和用户行为创建的。

可提示的世界事件

除了导航输入，Genie 3 还支持一种更具表达力的基于文本的交互形式，称为“可提示的世界事件”。这项能力让用户能够改变生成的世界，比如切换天气条件，或引入新物体和角色——大大增强了导航控制之外的体验。

这也拓展了反事实（即“假设”）场景的广度，可供从经验中学习的智能体用来处理意外情况。

助力具身智能体研究

为了测试 Genie 3 生成的世界对未来智能体训练的兼容性，团队为最新版本的 SIMA 智能体（一个面向3D虚拟环境的通用智能体）生成了多个世界。在每个世界中，指示智能体追求一组不同的目标，它通过向 Genie 3 发送导航行为来尝试实现这些目标。与其他任何环境一样，Genie 3 并不知晓智能体的目标，而是根据智能体的行为模拟未来。

由于 Genie 3 能够保持一致性，现在可以执行更长的行为序列，实现更复杂的目标。随着向AGI迈进，以及智能体在世界中扮演更重要的角色，这项技术预计将发挥关键作用。

当前局限性

尽管 Genie 3 推动了世界模型的能力边界，但当前局限性仍需正视：

有限的行为空间：虽然可提示的世界事件允许广泛的环境干预，但这些干预不一定由智能体自身执行。智能体能够直接执行的行为范围目前仍受限。

多智能体交互与模拟：在共享环境中准确建模多个独立智能体之间的复杂交互，仍是一个持续的研究挑战。

真实世界地点的精确表示：Genie 3 目前无法以完美地理精度模拟真实世界地点。

文本渲染：清晰可读的文本通常仅在输入世界描述中提供时才能生成。

有限的交互时长：该模型目前支持连续交互数分钟，而非数小时。

责任与安全

从负责任的角度出发，基础技术需要从一开始就深度承诺负责任的开发。Genie 3 的技术创新，尤其是其开放式的实时能力，为安全与责任带来了新的挑战。为了应对这些独特风险并最大化收益，团队与负责任开发与创新团队紧密合作。致力于以放大人类创造力、同时限制意外影响的方式开发业界领先的模型。在继续探索 Genie 潜在应用的同时，Genie 3 作为有限研究预览版发布，向一小部分学术研究者和创作者提供早期访问权限。