DeepMind世界模型复刻成功:300万参数实现游戏实时交互
还记得去年火爆AI圈的DeepMind Genie 3世界模型吗?这项突破性研究首次向世界展示了神经网络如何真实模拟物理环境。最近,技术博主anandmaj仅用一个月时间就复现了Genie 3的核心功能,开发出精简版TinyWorlds——一个仅300万参数却能实时生成可交互像素游戏世界的微型模型,支持生成《Pong》《索尼克》《塞尔达》和《毁灭战士》等经典游戏场景。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
世界模型的革命性突破
世界模型本质上是通过神经网络生成连续视频帧来模拟现实环境的AI系统。DeepMind在Genie 3上展示了惊人的"涌现能力":
- 精确的交互响应:按键操作会实时改变画面视角
- 环境一致性:离开场景后再返回,之前的变化依然存在
- 物理拟真度:水面倒影等细节处理自然逼真
以往研究认为构建世界模型必须依赖标注数据或3D建模,但Genie 3证明:只要训练数据足够庞大,原始视频就足以让模型自主掌握环境规律,就像大语言模型自然习得语法一样。关键突破在于动作分词器的设计——它能自动推断未标注视频中的动作标签,使模型可以利用海量互联网视频资源。

TinyWorlds的技术创新
为验证这一理念的普适性,anandmaj构建了包含多类经典游戏视频的训练集:
- 《Pong》:双人对战始祖级游戏
- 《索尼克》:横版平台动作游戏
- 《塞尔达》:上帝视角冒险游戏
- 《毁灭战士》:第一人称射击游戏

模型架构亮点
核心的时空变换器通过三种机制处理视频数据:
- 空间注意力层:分析单帧画面内的像素关系
- 时间注意力层:捕捉帧与帧之间的动态变化
- 前馈网络:提取并融合高级视觉特征
在解码策略上,团队放弃了扩散模型转而采用自回归架构,因其具备:
- 更快的推理速度,适合实时交互
- 更高的训练效率
- 更简洁的代码实现

训练过程与成果
系统包含三个核心组件:
- 视频分词器:采用FSQ量化技术压缩视频数据
- 动作分词器:自动生成帧间动作标签
- 动力学模型:预测未来帧内容的核心引擎

尽管模型规模微小,但已能生成可交互的游戏世界:
- 驾驶《Pole Position》的赛车
- 探索《塞尔达》的开放地图
- 在《毁灭战士》的3D迷宫中冒险

项目代码已开源:https://github.com/AlmondGod/tinyworlds
完整技术讨论:https://x.com/Almondgodd/status/1971314283184259336
热门专题
热门推荐
加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这
微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿
稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D
基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一
PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票





