还记得去年火爆AI圈的DeepMind Genie 3世界模型吗?这项突破性研究首次向世界展示了神经网络如何真实模拟物理环境。最近,技术博主anandmaj仅用一个月时间就复现了Genie 3的核心功能,开发出精简版TinyWorlds——一个仅300万参数却能实时生成可交互像素游戏世界的微型模型,支持生成《Pong》《索尼克》《塞尔达》和《毁灭战士》等经典游戏场景。

世界模型的革命性突破
世界模型本质上是通过神经网络生成连续视频帧来模拟现实环境的AI系统。DeepMind在Genie 3上展示了惊人的"涌现能力":
- 精确的交互响应:按键操作会实时改变画面视角
- 环境一致性:离开场景后再返回,之前的变化依然存在
- 物理拟真度:水面倒影等细节处理自然逼真
以往研究认为构建世界模型必须依赖标注数据或3D建模,但Genie 3证明:只要训练数据足够庞大,原始视频就足以让模型自主掌握环境规律,就像大语言模型自然习得语法一样。关键突破在于动作分词器的设计——它能自动推断未标注视频中的动作标签,使模型可以利用海量互联网视频资源。

TinyWorlds的技术创新
为验证这一理念的普适性,anandmaj构建了包含多类经典游戏视频的训练集:
- 《Pong》:双人对战始祖级游戏
- 《索尼克》:横版平台动作游戏
- 《塞尔达》:上帝视角冒险游戏
- 《毁灭战士》:第一人称射击游戏

模型架构亮点
核心的时空变换器通过三种机制处理视频数据:
- 空间注意力层:分析单帧画面内的像素关系
- 时间注意力层:捕捉帧与帧之间的动态变化
- 前馈网络:提取并融合高级视觉特征
在解码策略上,团队放弃了扩散模型转而采用自回归架构,因其具备:
- 更快的推理速度,适合实时交互
- 更高的训练效率
- 更简洁的代码实现

训练过程与成果
系统包含三个核心组件:
- 视频分词器:采用FSQ量化技术压缩视频数据
- 动作分词器:自动生成帧间动作标签
- 动力学模型:预测未来帧内容的核心引擎

尽管模型规模微小,但已能生成可交互的游戏世界:
- 驾驶《Pole Position》的赛车
- 探索《塞尔达》的开放地图
- 在《毁灭战士》的3D迷宫中冒险

项目代码已开源:https://github.com/AlmondGod/tinyworlds
完整技术讨论:https://x.com/Almondgodd/status/1971314283184259336
