无需引擎大模型实时生成“我的世界”每秒20帧零延迟可交互已开源

时间：2026-07-01 16:13

无需游戏引擎，大模型Oasis实时生成《我的世界》风格画面，根据玩家操作预测下一帧，每秒20帧零延迟。采用Transformer架构与Sohu芯片加速，生成一帧仅需47毫秒，实现交互式AI生成，已开源。

这款AI游戏能够根据玩家的操作实时预测下一帧画面，甚至连传统游戏引擎都无需使用。

这个酷似《我的世界》的界面，正是名为Oasis的AI游戏本身。

尽管外观相似，但两者的运行原理截然不同。Oasis的图像并非通过渲染生成，而是由AI实时绘制。它会根据玩家的键盘输入即时生成新帧，每次游戏都会探索到不同的地图场景。

这种可交互的世界模型，一个模型就是一个完整的游戏。每秒20帧且零延迟的生成效率，让众多业内人士惊叹不已。FlashAttention作者Tri Dao也感慨，随着模型推理成本快速降低，未来大量娱乐内容将由AI生成。

目前，Oasis的代码和500M参数的模型权重已开源，作者也同步推出了在线体验版本。

无需游戏引擎，大模型即是游戏

在Oasis问世之前，已有团队利用类似技术开发出基于大模型的FPS射击游戏。

如今，Oasis将这一技术路线直接拓展到了开放世界游戏领域。

Oasis在线版本提供了多种地图风格供玩家选择，需要排队体验，但等待时间不长，每次排到可游玩五分钟。

进入游戏后，画面会显示游戏界面、操作说明以及剩余体验时间。

根据之前选择的地图风格，游戏中的AI引擎能够实时生成丰富多样的画面。

此外，模型还内置了对现实世界的理解，例如在绘制时能够识别并遵循光照等物理规律。

生命值、饥饿度等常见游戏机制也都具备，玩家可以通过食物来恢复体力。

游戏世界也并非空洞无物，在角色设定方面，Oasis中安排了大量动物和NPC。

不过……为什么它们都挤在一起？

当然，这些动物并非简单的贴图，玩家可以像在《我的世界》中一样与动物进行互动。

当时间耗尽或手动退出时，系统会提供完整的游戏过程视频记录，玩家可以选择下载保存。

不过，Oasis的画面质量仍有很大的提升空间。也有用户反馈了一致性问题：只要转一圈，周围的世界就会完全改变。

但至少它在响应速度方面表现出色，也为未来的实时AI画面生成树立了一个标杆。

那么，Oasis研发团队究竟采用了哪些技术呢？

生成一帧仅需47毫秒

Oasis由位于美国加州的初创公司Decart打造，该公司成立于2023年。为了让模型高效运行，Decart选择与名为Etched的芯片初创公司合作研发。

Etched由哈佛辍学生Gavin Uberti在2022年创立，并于今年获得1.2亿美元的A轮融资。今年六月，Etched推出了专为Transformer设计的4nm AI芯片Sohu，号称一张芯片可媲美20张A100。

根据宣传，Sohu运行700亿参数的Llama 3时，每秒吞吐量可达50万tokens，相当于1秒就能生成21个人一天的全部对话。

当然，Sohu之所以拥有极快的速度，代价之一是它只能运行Transformer架构，而无法支持CNN、RNN等其他神经网络。因此，为了充分利用Sohu的速度优势，Decart团队为Oasis选择了Transformer作为基础架构。

具体来说，Oasis所采用的模型由空间自动编码器和潜在扩散主干两部分组成。两者均基于Transformer构建，其中自动编码器采用ViT架构，主干网则运用了许多视频生成模型（包括Sora）所使用的DiT。Decart还对Transformer架构进行了改进，在空间注意层之间穿插了额外的时间注意层，从而提供来自前一帧的上下文信息。

此外，与Sora等双向模型不同，Oasis生成帧的过程是自回归的，因此能够根据玩家输入实时调整后续帧，从而实现用户与世界的实时交互。

Decart介绍，如果用H100运行Oasis，在360P画质下可达每秒20帧；而使用Sohu时，相同帧率下画质可提升至4K。实际测试显示，Oasis生成一帧画面仅需47毫秒。

当然，除了速度，对Oasis这样的游戏场景而言，保持时间稳定性同样至关重要。但在自回归模型中，错误会不断累积，即使微小的缺陷也可能引发雪球效应。为解决这一问题，Decart团队引入了动态噪声机制。该机制会在第一次扩散前向传递中注入噪声以减少误差累积，并在后续传递中逐渐消除噪声，从而使模型能够捕捉并保留高频细节。