这款AI游戏能够根据玩家的操作实时预测下一帧画面,甚至连传统游戏引擎都无需使用。
这个酷似《我的世界》的界面,正是名为Oasis的AI游戏本身。
尽管外观相似,但两者的运行原理截然不同。Oasis的图像并非通过渲染生成,而是由AI实时绘制。它会根据玩家的键盘输入即时生成新帧,每次游戏都会探索到不同的地图场景。
这种可交互的世界模型,一个模型就是一个完整的游戏。每秒20帧且零延迟的生成效率,让众多业内人士惊叹不已。FlashAttention作者Tri Dao也感慨,随着模型推理成本快速降低,未来大量娱乐内容将由AI生成。
目前,Oasis的代码和500M参数的模型权重已开源,作者也同步推出了在线体验版本。
无需游戏引擎,大模型即是游戏
在Oasis问世之前,已有团队利用类似技术开发出基于大模型的FPS射击游戏。
如今,Oasis将这一技术路线直接拓展到了开放世界游戏领域。
Oasis在线版本提供了多种地图风格供玩家选择,需要排队体验,但等待时间不长,每次排到可游玩五分钟。
进入游戏后,画面会显示游戏界面、操作说明以及剩余体验时间。
根据之前选择的地图风格,游戏中的AI引擎能够实时生成丰富多样的画面。
此外,模型还内置了对现实世界的理解,例如在绘制时能够识别并遵循光照等物理规律。
生命值、饥饿度等常见游戏机制也都具备,玩家可以通过食物来恢复体力。
游戏世界也并非空洞无物,在角色设定方面,Oasis中安排了大量动物和NPC。
不过……为什么它们都挤在一起?
当然,这些动物并非简单的贴图,玩家可以像在《我的世界》中一样与动物进行互动。
当时间耗尽或手动退出时,系统会提供完整的游戏过程视频记录,玩家可以选择下载保存。
不过,Oasis的画面质量仍有很大的提升空间。也有用户反馈了一致性问题:只要转一圈,周围的世界就会完全改变。
但至少它在响应速度方面表现出色,也为未来的实时AI画面生成树立了一个标杆。
那么,Oasis研发团队究竟采用了哪些技术呢?
生成一帧仅需47毫秒
Oasis由位于美国加州的初创公司Decart打造,该公司成立于2023年。为了让模型高效运行,Decart选择与名为Etched的芯片初创公司合作研发。
Etched由哈佛辍学生Gavin Uberti在2022年创立,并于今年获得1.2亿美元的A轮融资。今年六月,Etched推出了专为Transformer设计的4nm AI芯片Sohu,号称一张芯片可媲美20张A100。
根据宣传,Sohu运行700亿参数的Llama 3时,每秒吞吐量可达50万tokens,相当于1秒就能生成21个人一天的全部对话。
当然,Sohu之所以拥有极快的速度,代价之一是它只能运行Transformer架构,而无法支持CNN、RNN等其他神经网络。因此,为了充分利用Sohu的速度优势,Decart团队为Oasis选择了Transformer作为基础架构。
具体来说,Oasis所采用的模型由空间自动编码器和潜在扩散主干两部分组成。两者均基于Transformer构建,其中自动编码器采用ViT架构,主干网则运用了许多视频生成模型(包括Sora)所使用的DiT。Decart还对Transformer架构进行了改进,在空间注意层之间穿插了额外的时间注意层,从而提供来自前一帧的上下文信息。
此外,与Sora等双向模型不同,Oasis生成帧的过程是自回归的,因此能够根据玩家输入实时调整后续帧,从而实现用户与世界的实时交互。
Decart介绍,如果用H100运行Oasis,在360P画质下可达每秒20帧;而使用Sohu时,相同帧率下画质可提升至4K。实际测试显示,Oasis生成一帧画面仅需47毫秒。
当然,除了速度,对Oasis这样的游戏场景而言,保持时间稳定性同样至关重要。但在自回归模型中,错误会不断累积,即使微小的缺陷也可能引发雪球效应。为解决这一问题,Decart团队引入了动态噪声机制。该机制会在第一次扩散前向传递中注入噪声以减少误差累积,并在后续传递中逐渐消除噪声,从而使模型能够捕捉并保留高频细节。
未来,Decart团队将针对远处物体模糊、不确定对象的时间一致性等问题展开研究,逐步提升Oasis的游戏体验。
