这项来自哈萨克斯坦DreamForge AI Lab的研究以技术报告形式发布于2026年6月,论文编号为arXiv:2606.30292,作者隶属于DreamForge AI Lab,感兴趣的读者可以通过该编号查阅完整原文。

你有没有玩过这样的游戏——画面里的一切都是真实的电影感,树叶在风中颤抖,光线打在地面上有真实的阴影,你往左走,整个世界就跟着向右流动。现在,有一群研究者在做一件更疯狂的事:他们不想让你在一个程序员预先写好的游戏世界里移动,而是想让AI在你玩的时候,实时地"画"出你眼前的每一帧画面——就像你走到哪里,AI就把那里的景象现场创作出来,而不是提前存好的。这,就是"世界模型"这个概念的核心。
DreamForge AI Lab发布的这份报告,描述了他们做到这件事的方式,以及做到什么程度、还差什么。他们把这个系统叫做DreamForge-World 0.1 Preview,一个版本号里带着"预览"二字的诚实系统——他们并没有宣称做出了完美的东西,而是清清楚楚地告诉你:这是目前能做到什么,下一步打算解决什么问题。
一、什么是"世界模型",为什么这件事很难
要理解这项研究的意义,先得弄清楚"世界模型"究竟在解决什么难题。
把普通的AI视频生成比作一个画家提前画好一幅画然后给你看,那么世界模型要做的事就完全不同——它更像是一个即兴表演的魔术师,你每做一个动作,他就在你面前现场变出对应的画面,而且上一秒的画面还得和这一秒的画面衔接得天衣无缝。你往前走了几步,背景就要对应地近了一些;你转身回头,刚才身后的场景就得还在那里,不能凭空变样。
这里有两个核心难题同时存在。第一个难题是速度:普通的AI视频生成可以花几分钟慢慢渲染一段视频,但世界模型不行,它必须以每秒十几帧的速度不停地生成新画面,否则你就会感觉到明显的卡顿,根本没法玩。第二个难题是记忆:AI生成的每一帧都会变成下一帧的"参考记忆",就像你在脑子里记住走过的路一样。但AI自己生成的画面并不完美,每积累一点小误差,几分钟后这些误差就会叠加起来,导致画面质量越来越差,或者你转身回来时发现场景已经面目全非。
目前业内顶尖的系统,比如谷歌DeepMind的Genie系列、Matrix-Game 3.0、WorldPlay等,都在努力解决这两个问题,其中记忆问题尤为关键——这些系统花了大量精力去建立"持久空间记忆",让AI真的能记住你曾经去过的地方长什么样。
DreamForge的这个团队选择了一条不同的路。他们没有追求顶级的画面质量,也没有先去解决记忆难题,而是问了自己一个更务实的问题:用消费级显卡、用较少的训练数据、用相对低的开发成本,能把这件事做到什么程度?
二、站在巨人的肩膀上:聪明地拼积木而不是从头造砖
DreamForge团队的核心思路,可以用"聪明地拼积木"来形容。他们没有从零开始训练一个全新的AI模型——那需要海量的算力和数据,是大公司才能玩的游戏。相反,他们找到了几块已经造好的、质量很高的积木,然后把它们以独特的方式组合在一起。
第一块积木叫做LongLive 1,这是由英伟达实验室团队基于一个叫做Wan2.1的开源视频生成模型改造出来的系统。你可以把Wan2.1理解为一个擅长生成短视频的AI,而LongLive 1对它进行了改造,让它能够做"流式续写"——也就是不断地生成下一帧、下一帧、再下一帧,就像一台永不停歇的摄像机。LongLive 1有几个关键的技术设计,包括"KV缓存重用"(可以理解为AI把之前算过的结果存下来,下次不用重新算,从而节省时间)、"短窗口注意力"(AI每次只重点关注最近的几帧,而不是从头看到尾,这样速度更快)、以及"帧锚点"机制(在画面开头固定一个参考点,防止后续画面漂移太远)。这些设计让LongLive 1在速度上已经相当出色。
第二块积木叫做Matrix-Game 2.0的动作控制模块。这是另一个研究团队开发的系统,专门解决如何把玩家的键盘和鼠标操作转化为AI生成画面的变化——你按下"W"键往前走,AI就要把画面往前推;你移动鼠标往左看,AI就要把视角往左转。Matrix-Game 2.0在大约1200小时的游戏操作录像上训练了这个控制模块,它知道当玩家做出某个动作时,画面应该怎么变化。
DreamForge的做法是:先把LongLive 1适配到游戏画面风格,再把Matrix-Game 2.0的控制模块"移植"进来,然后花少量时间做针对性的微调,让这两块积木能够协同工作。这个过程中,他们只用了64小时的精选游戏视频作为训练数据——相比之下,Matrix-Game 2.0用了1200小时,谷歌的Genie用了30000小时。这个差距非常悬殊,但也正是DreamForge想要证明的:通过聪明的方法组合,能用更少的数据达到可用的效果。
三、一步一步地让AI学会"看着玩家做事"
在具体的技术实现上,团队按照顺序走了几个关键步骤,每一步都有清晰的目的。
第一步,他们在LongLive 1的基础上训练了一个"骨干LoRA"。LoRA是一种高效的微调方法,可以把它理解为给一个已经训练好的AI模型穿上一件"定制外套"——不改变模型的核心结构,只在外层加一些调整参数,让模型的输出风格变化。这件外套的参数规模设为64阶(rank-64),相对较高,能承载更多的风格调整。通过这个步骤,原本擅长生成各种风格视频的LongLive 1,开始专注于生成游戏风格的画面。训练数据来自三个来源:NitroGen数据集的游戏视频、GameGen-X的开放世界游戏数据集,以及团队自己手工收集的高质量素材。这个阶段还没有加入玩家控制,纯粹是让AI"熟悉游戏世界的样子"。
第二步,加入动作控制。团队将Matrix-Game 2.0的动作控制模块的权重直接移植到LongLive 1的Diffusion Transformer(一种特定的AI模型架构)上,然后做短暂的微调,让移植过来的控制模块能和已经适配好的游戏风格骨干协同工作。所谓"残差动作通路",可以理解为:玩家的操作信号作为一个独立的输入渠道,叠加在AI生成画面的过程中,就像在烹饪的食谱上额外加了一份实时调味——基础的烹饪方式不变,但玩家的每个操作都会微调最终的味道。
第三步,针对第一人称和第三人称两种视角,分别训练了两个独立的高阶LoRA。这一点很有意思,因为第一人称视角(你就是那个在世界里走动的角色)和第三人称视角(你从外面看着一个角色在世界里走动)对AI来说是完全不同的任务。第一人称的难点是让镜头运动感觉自然,如同真人在走路时的视角晃动;第三人称的难点则更复杂,需要同时协调角色的移动、镜头的跟随、背景的视差变化(近处的东西移动快,远处的移动慢)等多个因素。强行用一个控制器覆盖两种视角会导致两边都不好,所以团队选择分别训练,各自为政,在最终使用时根据玩家选择的视角切换对应的控制模块。训练过程中还用到了一个叫做"Depth Anything 3"的深度估计模型,专门帮助AI理解场景中不同物体之间的远近关系,从而让视角控制更加稳定。
四、如何让AI接受图片和视频作为游戏的起点
解决了控制问题之后,团队还想让系统更灵活:不只是从文字描述开始一个游戏会话,还能从一张图片或者一段视频继续下去。
LongLive 1本身是一个"文字生成视频"的系统,它的原始接口只接受文字描述。DreamForge要做的,是让它也能接受图片和视频作为开始。他们的解决方案相当直接:把输入的图片或视频通过模型自带的VAE编码器(可以把VAE理解为一个"压缩打包机",把画面转换成AI内部能处理的数字格式)处理成和AI内部生成的内容完全相同格式的"历史记录",然后把这段历史记录插到生成序列的最前面,AI就会认为这些已经发生过的画面是自己生成的,然后从这里继续往后生成。
这种方式的好处是不需要另外训练一个专门的图生视频模型,直接利用已有的框架就能实现。代价是:图片或视频只能锚定起点,一旦AI开始自主生成后续内容,后续的稳定性完全依赖于自回归(auto-regressive,就是AI不断用自己生成的内容作为下一步的参考)历史的质量。
五、把所有这些拼起来能看到什么——六个用户可见的能力
最终,DreamForge-World 0.1 Preview对用户暴露出六个可以实际体验到的能力,它们不是彼此独立的模块,而是共同运行在同一个自回归生成循环里。
最基础的是纯文字启动模式,用户输入一段文字描述,比如"一片废土上的战后城市,黄昏时分",AI就会从这个描述开始生成世界,然后玩家可以通过键盘和鼠标在这个世界里移动和探索。多模态入口则扩展了这个起点,玩家可以提供一张截图或者一段视频片段作为起点,AI从这个视觉状态继续往后生成,而不是凭空从文字开始。
键盘和鼠标控制是最核心的交互能力,玩家的每个按键和鼠标移动都会影响下一帧的生成结果。双视角支持让系统同时拥有第一人称和第三人称两种控制模式,分别调用不同的控制模块,尽量保证两种视角下的体验都合理。
中途重新设定提示词是一个特别有趣的功能——在游戏进行中,玩家可以改变文字描述,AI会在保留当前视觉历史的前提下,朝新的描述方向发展。报告里给出了一个具体的例子:一个正在进行中的海岸场景,玩家在文字框里输入"海啸",AI就在接下来的画面里逐渐生成了海浪涌来的景象,整个转变过程不需要重新启动会话。最后,系统支持分钟级别的持续生成,在大约一分钟的时间窗口内,生成质量相对稳定,这是目前最适合体验的交互时长。
六、速度和内存表现:消费级显卡能跑到多快
报告非常详细地列出了系统在不同硬件和精度设置下的实际运行速度,这些数据是以端到端的实际吞吐量来测量的,包含了AI推理、画面解码和传输等所有环节的开销,不是孤立的模型速度。
系统提供两条解码路径。默认路径使用Wan2.1原配的VAE解码器,在一块RTX 4090显卡上,以bf16精度运行时大约能达到每秒10帧,以fp8精度(一种更激进的压缩方式,能用更少的内存存储权重)运行时能达到约12帧,内存占用分别约为9GB和5GB。在更高端的H100服务器显卡上,同样条件下分别能达到约15帧和17帧。
第二条路径使用一个叫做LightTAEW 2.1的更轻量级解码器,这是一个专门为Wan系列模型设计的快速解码方案。使用这条路径后,RTX 4090在bf16精度下能达到约12帧,在fp8精度下能达到14至15帧,内存分别降至约8GB和4GB。H100则能达到约18帧和19帧。轻量解码器让系统在一块消费级的RTX 4090显卡上以fp8精度运行时,达到了14到15帧每秒的流畅度,内存占用仅约4GB,这对于一个实时AI世界生成系统来说是相当紧凑的。
推理栈在LongLive 1原有的基础上做了多项针对实时交互的优化:加入了异步流式处理(让画面生成和显示两个过程并行进行,不互相等待),实施了KV缓存量化(对AI内部存储的中间计算结果进行压缩,减少内存占用),并且引入了一种叫做"Deep Forcing"的训练无关缓存管理方式,用来减少长时间运行后AI输出质量下滑的速度。
七、诚实地说出它还做不到什么
这份报告让人印象深刻的一点,是它对自身局限的坦率描述。
最核心的缺失是持久空间记忆。目前的系统没有维护一张"已经生成过的世界地图"。你在一个场景里往前走了一段,然后转身往回走,AI会重新合成那个区域的画面,而不是还原你之前看到的样子。报告用一个具体的例子说明这个问题:玩家在一个有树木的场景里旋转镜头,转回来之后,原本空旷的位置出现了之前不存在的树,场景结构也发生了变化。这是当前系统最明显的体验缺陷,也是业内几乎所有具备持久记忆的系统(如Matrix-Game 3.0、WorldPlay、Infinite-World等)正在重点攻克的核心问题。
第二个局限是长时间运行后的画面退化。系统支持分钟级别的连续生成,但AI每次用自己生成的画面作为下一步的参考,累积误差会越来越大。报告展示了一个具体的退化案例:随着时间推移,画面出现了明显的颜色过饱和和纹理细节模糊,虽然在更晚的帧里颜色有所恢复,但精细的纹理细节损失是不可逆的。
第三个局限是控制精度。键盘和鼠标的操作确实影响着AI生成的画面,但这种影响并不像真正的游戏引擎那样精确。激进的镜头移动(比如快速旋转)有时会让画面出现不稳定,第三人称视角的控制比第一人称更容易出问题。整体延迟是实时的,但还不到传统游戏那种几乎无感的响应速度。此外,系统目前不支持声音生成,不支持多个AI角色同时交互,也无法可靠地与场景中的持久物体发生物理互动。
八、用64小时的数据,和用30000小时的系统站在同一个舞台上
在训练数据规模上,报告做了一个非常直白的比较。DreamForge的整个系统,包括骨干LoRA训练和两阶段动作控制模块训练,总共使用了64小时精选的游戏和控制视频。Matrix-Game 2.0使用了约1200小时的有交互标注的数据,是DreamForge的约18.8倍。谷歌的Genie使用了30000小时经过筛选的平台跳跃游戏视频,是DreamForge的约468.8倍。
这个对比并不是在说DreamForge的效果比这些系统更好——恰恰相反,在画面质量、记忆能力、控制精度等多个维度上,顶尖系统都领先很多。这个对比想说明的是:在大幅压缩训练数据规模的前提下,通过聪明地组合现有开源模型、进行针对性的迁移和微调,能够构建出一个覆盖多项交互能力的可用预览系统。这对于资源有限的小团队或研究者来说,提供了一条相对可行的路径。
九、接下来要做什么,以及这个系统现在能用吗
目前,DreamForge-World 0.1 Preview是一个预览版本,团队并未开源模型权重,也没有提供公开的体验入口。DF-World 0.5是团队规划中的下一个版本,如果许可、安全和工程条件允许,有可能会公开发布。
在技术路线上,团队接下来最优先的目标是持久空间记忆,候选方向包括潜在记忆检索(让AI能"回忆"它之前生成过的空间状态)、相机感知记忆(把摄像机的位置和朝向信息纳入记忆系统)、闭环训练(让AI在有意识地走回头路的场景下训练)、以及在自己生成的历史上做自我训练。除了记忆,团队还在探索更大的视频骨干模型、更强的动作控制架构、改进双视角稳定性、将多模态输入从仅用于初始化扩展到可在运行过程中持续更新,以及为生成画面加入同步的实时音频。
说到底,DreamForge这个团队做的事情,与其说是在和谷歌、腾讯这样的大公司争最好的效果,不如说是在回答一个不同的问题:这件事的门槛到底有多低?一个小团队、一块消费级显卡、64小时的数据,能走到哪一步?
从结果来看,他们确实走到了一个值得记录的位置:实时、可控、支持多种输入方式、双视角、能在中途改变世界的样子——即便画面在一两分钟后开始退化,即便转头回来场景就变了,这套东西在很短的时间窗口内运行时,已经能给人一种"AI在实时为你创造世界"的真实感受。
这意味着什么?它意味着这项技术并没有那么遥远。当记忆问题被解决,当控制精度进一步提高,当更大的骨干模型被更高效地适配,每个普通人都有可能在自己的电脑上,用文字或一张图片描述一个世界,然后真的走进去。
有兴趣深入了解技术细节的读者,可以通过arXiv编号2606.30292查阅DreamForge AI Lab发布的完整技术报告。
Q&A
Q1:DreamForge-World 0.1 Preview和真正的游戏有什么本质区别?
A:传统游戏的世界是程序员预先写好的,AI世界模型是在你玩的时候实时"画"出来的,没有固定的地图。好处是世界理论上可以无限生成,坏处是目前AI的记忆不可靠,转身回来场景就可能变了,而且控制精度远不如真正的游戏引擎。
Q2:DreamForge-World 0.1 Preview为什么只用64小时数据,比其他系统少那么多?
A:因为他们没有从头训练模型,而是直接借用了LongLive 1这个已经训练好的视频生成模型的能力,再把Matrix-Game 2.0的控制模块移植进来,只需要少量数据做针对性微调,大量的基础能力来自已有的开源模型。
Q3:DreamForge-World 0.1 Preview现在在哪里可以用?
A:目前DreamForge AI Lab没有开放公开体验,也没有开源模型权重,这个版本是内部预览状态。团队计划推出DF-World 0.5作为下一个版本,是否公开发布取决于许可和安全条件。
