自2010年正式发布以来,《我的世界》全球累计销量已突破3亿份,成功超越《俄罗斯方块》,跃升为有史以来最畅销的电子游戏。这一数据本身就足以说明其无与伦比的影响力与受众基础。

《我的世界》游戏画面
高度密集的真人玩家互动机制,再加上极高的开放度与自由度,使《我的世界》如今成为众多AI公司竞相探索的绝佳试验田。
你可能还记得,此前OpenAI曾训练出一个机器人玩家——利用大量人类游戏视频预训练了一个神经网络,使其学会了制作“金刚石”工具。这一过程涉及约24000个游戏操作步骤,即使是熟练玩家也需要20分钟以上才能完成。
上个月发生了更令人震撼的事情。一款名为Oasis的“游戏”,借助OpenAI的开源数据集,几乎一比一复刻了《我的世界》的界面。但关键区别在于:Oasis不依赖任何游戏引擎或手工编写的代码——它的每一帧画面,都由AI模型实时生成。

Oasis游戏界面展示丨Etched
Oasis这个名字来源于欧内斯特·克莱恩的科幻小说《头号玩家》,更多人认识它是因为2018年斯皮尔伯格执导的电影改编版。在小说中,Oasis是一个虚构的游戏世界,人们为了逃避混乱的现实而长时间沉浸其中。如今,Oasis已成为“打造虚实难辨体验”的代名词。以此命名,开发者的雄心不言而喻。问题是,这款号称“世界上第一款可玩AI生成游戏”的作品,实际体验究竟如何?
不像绿洲,反倒更像《盗梦空间》
先说结论:你现在就可以通过浏览器免费体验Oasis。但请相信我——你很难坚持玩下去,或者说,根本无法正常游玩。
操作方式上,Oasis与《我的世界》类似:包括行走、跳跃、破坏方块、打开库存、使用物品。它也理解一些较为复杂的游戏机制,例如建筑搭建、光照物理、库存管理、对象交互等。

放置非立方体块的操作演示

模型能够理解光照物理效果

与动物互动的场景

通过进食恢复生命值
但区别在于,Oasis的每一帧都由AI实时生成。虽然“AI生成游戏”听起来很具冲击力,但本质上,它与Sora、Runway使用的技术相似,都依赖于基于Transformer架构的扩散模型。

图中展示了基于DiT的潜在扩散主干架构、基于ViT的变分自编码器、加速的轴向、因果、时空注意力机制,以及克服长序列模型发散问题的新策略丨Etched
那些文生视频产品(比如Sora)的“提示词”是文本,可一次性生成60秒视频。而Oasis的“提示词”是玩家的键盘和鼠标操作,以及前一帧画面,然后据此生成下一帧。换句话说,Oasis也是一帧一帧地生成画面,只是借助模型架构与推理技术的进步,让延迟尽可能降低——低到画面连贯起来,从而产生“可交互、可操作”的效果。这其实与早期动画的原理类似:静止图像以一定频率变化,因视觉暂留效应,人眼便感觉画面动了起来。

《运动中的马》系列摄影,Eadweard Muybridge,1879年
发布大约3天内,Oasis的用户数就突破了100万。汹涌而来的玩家导致服务器一度崩溃,直到现在也时常出现连接中断的问题。

79小时内Oasis玩家数量增长趋势丨Decart
暂且不提服务器不稳定以及10分钟的时间限制,单从游戏体验来说,Oasis基本仍处于“不可玩”的状态。玩家很快就会发现,随着时间推移,游玩Oais会变成一种劣质版《盗梦空间》的体验——敲碎一个砖块或转动视角,地图就可能完全变成另一副模样。
问题出在其自回归生成方式上:每一帧都会累积微小的错误,随着时间推移,这些错误像滚雪球一样越滚越大,画面很快就与原始图像南辕北辙。如何用AI生成一个连续且一致的世界、克服“幻觉”问题,这其实是整个AI行业都在面对的共性难题。
为了改善这一点,开发人员采用了一种名为“动态噪声”的技术。简单来说,他们在生成每一帧的早期阶段,刻意向图像添加一些随机噪声,以防止错误积累。随着AI模型对图像进行细化,这种人工噪声逐渐被去除,从而保持画面与前一帧的一致性。但开发者坦承,第一个版本主要用于研究和概念验证,表明AI模型具备这种潜力——但与那些视频生成工具一样,他们目前还无法解决生成连续画面的根本性难题。
下一步,造芯片,挑战英伟达
Oasis的开发者是以色列初创公司Decart和硅谷芯片设计公司Etched。Etched开发了一款名为Sohu的专用AI芯片,将Transformer架构直接固化在芯片中。目前,Oasis以480p的分辨率运行在英伟达的H100 GPU上。Etched声称,Sohu的性能将是H100的20倍,能够以4K分辨率处理1000亿参数的大模型。

Etched宣称,Sohu芯片的性能可达H100的20倍丨Etched
当然,Sohu的开发还处于早期阶段,Etched的说法目前无法得到证实。纽约大学电气和计算机工程教授Siddharth Garg就提出了质疑——考虑到当今顶级GPU在AI方面的专业化程度,他对“仅通过更智能或更专业的设计就能实现10倍性能提升”持怀疑态度。
Dean Leitersdorf毕业于以色列理工学院,2022年结识了哈佛毕业生Robert Wachen。受OpenAI启发,Wachen于2022年联合创立了Etched,Leitersdorf则在2023年联合创立了Decart。在他们的设想中,Etched会像英伟达一样构建下一代硬件,Decart则像OpenAI一样开发运行在硬件上的模型。
Leitersdorf表示,他们的目标是开创一个生成式体验的新时代。“你的屏幕可以变成一个门户——进入一个无需编码、可以即时更改的虚构世界。”

“你的屏幕可以变成一个门户——进入某个无需编码、可以即时更改的虚构世界。”丨Oasis
就像大语言模型跨越了复杂的人类语言体系,让机器学会用自然语言与我们交流一样,Oasis试图克服视觉障碍,学会像人类一样观察世界、理解世界的运行机制,并以符合我们视觉和交互习惯的方式呈现环境。Leitersdorf称,这类模型可用于需要交互式视频的各种场景,例如娱乐、教育工具,甚至AI驱动的创意媒体。目前,红杉资本已领投Decart 2100万美元的种子轮融资,用真金白银表达了对这一愿景的认可。
