KAIST与Naver联手让AI游戏记住玩家探索路径

时间：2026-05-29 07:23

最近读到一项很有意思的研究，来自韩国科学技术院（KAIST AI）与Na ver AI Lab。今年5月，他们以预印本形式发布了一篇论文，编号arXiv:2605 22718。简单来说，这篇论文解决了一个让所有关注AI生成内容的人都会兴奋的问题——如何让AI生成的虚拟世界拥有“长久的记忆”。不知道你

最近读到一项很有意思的研究，来自韩国科学技术院（KAIST AI）与Na ver AI Lab。今年5月，他们以预印本形式发布了一篇论文，编号arXiv:2605.22718。简单来说，这篇论文解决了一个让所有关注AI生成内容的人都会兴奋的问题——如何让AI生成的虚拟世界拥有“长久的记忆”。

不知道你有没有过这样的游戏体验：在一个房间里探索了半天，走出去转了一圈，回来发现房间里的一切都变了样，或者整个房间的布局都陌生了。这种割裂感会让人瞬间出戏，觉得这个游戏世界是“假的”，是随时在变的临时舞台，而不是一个有连续性的、值得探索的真实空间。

对由人工智能实时生成的互动虚拟世界来说，这恰恰是悬而未决的核心难题。AI生成游戏场景、虚拟环境甚至机器人训练空间，依赖一种叫“自回归视频扩散模型”的技术来实时绘制每一帧画面。这种技术就像一位即兴表演的画家，根据你的动作现场作画，速度极快，但问题在于，它记不住几分钟前自己画了什么。当你原路返回，这位画家已经忘了之前的作品，只好重新画一遍——结果当然是另一幅画。

KAIST和Na ver的研究团队提出的WorldKV框架，就是专门解决这个“AI世界失忆症”的，而且不需要对原有AI模型做任何重新训练。这项研究的思路和方法，值得每一个关心AI、游戏或虚拟现实的人认真琢磨。

一、AI画家的记忆危机：为什么虚拟世界会“忘事”

要搞懂这个问题，得先看看这类AI系统的工作方式。现代实时互动世界模型，有点像连载漫画作者，每次根据读者的反应（也就是玩家的操作）画下一格内容，同时把画过的存进一个“草稿本”里备用。这个草稿本在AI领域叫作“KV缓存”——KV是“键值”（Key-Value）的缩写，可以理解为AI在处理每一帧时留下的“印象笔记”。

麻烦在于，草稿本的容量是有限的。实时生成要求AI每秒处理好几帧画面，每一帧都会往草稿本里塞新内容。时间一长，草稿本就会爆满。怎么办？系统只能把最旧的记录抹掉，腾出位置。这就是所谓的“滑动窗口推理”——AI只能看到最近一小段时间内的记录，更早的内容被永久删除。

这种做法保住了实时运转的速度，代价却是彻底丢掉了长期记忆。当玩家在AI生成的森林里向右转、向左转，再次向右转时，AI已经忘了第一次向右时那片树林长什么样，只好重新生成一片。于是树的种类、光线、布局全变了。这种“漂移”和“幻觉”让AI生成的世界飘忽不定，根本谈不上是“持久世界”。

反过来，如果完全不清除，让草稿本无限膨胀呢？研究团队称之为“全KV缓存注意力”。理论上能保住所有记忆，但代价同样惊人。在LingBot-World-Fast这个14B参数的大模型上，每帧画面会产生大约1560个“记录单元”，跑一分钟就能积累几十万个单元。草稿本很快就会撑爆GPU显存，就算是最顶级的B200显卡，180GB的容量也扛不住。更要命的是，草稿本越大，AI每次“翻阅”花费的时间就越长，生成速度从最初的每秒8.87帧直线掉到每秒3.61帧，实时运行彻底成了奢望。

研究团队在实验中发现了一个很有意思的现象：Matrix-Game-2.0这个模型本来只在很短的片段上训练，记忆窗口只有6帧。但当研究者强行让它看到全部历史记录时，它居然能成功复现之前生成的场景。这说明AI的记忆潜力其实已经藏在它的参数里了，问题只是如何在不超载的前提下，让它用上这份记忆。

二、图书馆的智慧：WorldKV如何重新设计记忆系统

既然草稿本不能无限大，也不能随意抹掉，那最合理的思路是什么？研究团队的答案是：建一个图书馆。

在图书馆里，你不需要把所有书都摊在桌上。需要哪本，就去书架上取。平时这些书安静地待在架子上，不占你的工作台；一旦需要查阅某个方向的记录，图书馆员会迅速找出最相关的几本书送到你手边。

WorldKV就是按这个逻辑设计的，由两个相互配合的部件组成：世界检索（World Retrieval）和世界压缩（World Compression）。

世界检索解决的是“什么时候取哪本书”的问题。当AI的草稿本（活动窗口）满了，需要淘汰最旧的记录时，WorldKV不是直接删掉，而是把它们搬到“书架”上——也就是GPU或CPU的独立内存区域里存起来，并且给每一份记录贴上“位置标签”，记录它生成时的摄像机姿态或玩家操作方向。

之后，当玩家的视角开始靠近某个之前探索过的区域时，系统会根据当前的摄像机朝向，在书架上查找“位置标签”最接近的那几份记录，把它们取回来，暂时放回AI的活动窗口。这样，AI就能“回忆”起那个方向的场景长什么样，并据此生成一致的画面。整个过程不需要重新运行AI来“重建”记忆，而是直接复用当时生成的原始记录——效率极高，而且不改动模型本身的任何参数。

研究团队还分析了AI在不同动作下的“注意力地图”——也就是AI在生成当前画面时，对历史上哪些记录投入了最多的关注。他们用11个连续动作片段做实验，让AI沿着“右转→停止→左转→停止→右转”的轨迹运动，观察每一步的注意力分布。结果非常清晰：当摄像机向左转时，AI的注意力很自然地集中到了之前向右看时生成的那些记录上，因为那些记录描述的方向与当前相反，正好对应了“回看”的感觉；当摄像机再次朝向初始视角时，AI会重点关注最开始的那几帧；当摄像机第二次向右转时，注意力又跑到了之前向左转时的那批记录上。这个规律在Matrix-Game-2.0和LingBot-World-Fast两个完全不同的模型上都清晰呈现，说明“按视角方向检索历史记录”是一个普遍有效的策略。

这个设计是模块化的，检索策略也不限于摄像机朝向。研究团队同时测试了另一种方式：直接计算当前AI处理的“查询向量”与书架上各份记录之间的相关性得分，取分数最高的几份。这种“基于注意力的检索”不依赖任何外部坐标，在某些场景下也能很好工作，只是整体表现略逊于摄像机方向检索。

三、压缩师的秘诀：如何把书的厚度减半又不损失内容

解决了“取什么书”的问题，还有另一个麻烦：书架本身也是有限的。在LingBot-World-Fast模型上，每3帧画面产生的记录，在所有Transformer层加在一起，大约占用3.4GB的存储空间。按这个速度，一分钟运行会产生超过200GB的历史记录，远远超过任何现有GPU的存储上限。

世界压缩就是为解决这个问题设计的。它的核心思路来自一个很朴素的观察：视频中相邻的几帧，内容往往高度相似。如果摄像机在缓慢右转，那第1帧、第2帧、第3帧的大部分画面是重叠的，只有边缘出现少量新内容。把这三帧的记录全部存下来，大量信息其实是重复的。

研究团队把每个3帧片段的第1帧称为“锚点帧”，然后计算第2帧和第3帧中每个记录单元与锚点帧记录单元的“余弦相似度”——这是一种衡量两个向量“长得有多像”的数学工具，可以理解为“内容重叠度”。相似度越高，说明这个单元与锚点帧高度重叠，属于冗余信息；相似度越低，说明包含了锚点帧没有的新内容，比如摄像机转过去后才露出来的那片新区域。

世界压缩的做法是：保留锚点帧的全部记录，同时只保留第2帧和第3帧中相似度最低的那25%的记录单元，丢掉其余75%的高度重叠内容。这样一来，原来需要存3帧的记录，现在只需要存约1.5帧的等量数据——体积直接减半，书架能放的书也翻了一倍。

这种压缩不是把书的某一章撕掉，而是把重复的段落删掉，只留下真正独特的内容。研究团队在论文中展示的可视化结果清楚呈现了哪些位置的记录单元被保留：在摄像机向左或向右转时，被保留的单元集中在画面边缘新出现的区域；在摄像机向后退时，不仅新露出的场景边缘被保留，连画面中旋转的风车叶片也因为动态变化被标记为“低相似度”而得以保存。这说明基于键值相似度的压缩方式，能自动识别视频中的动态变化区域，而不只是几何上的新内容。

压缩在每个片段被“搬上书架”时只执行一次，并且对每一层Transformer网络独立操作——因为不同层次的“印象”重点不同，需要分别处理。当某份压缩记录被从书架取出复用时，每一层只看属于自己的那批保留单元，不会混淆。

四、活动窗口的精细分区：一张有条不紊的工作台

WorldKV对AI草稿本（活动注意力窗口）的组织方式同样值得细说。研究团队把总共18帧的活动窗口划分成四个功能明确的区域，就像一张被精心规划的工作台。

最前端的3帧是“锚点区”，存放的是场景最开始的那批记录。这些记录代表了整个世界的“基准外观”，好比一张地图上的出发点，帮助AI始终知道这个世界最初长什么样。紧跟在后的9帧是“检索区”，这里存放的是从书架上取回来的历史记录——根据当前视角最相关的那几份。再往后3帧是“近期区”，存放的是刚刚生成的最近几帧画面，确保AI对当前场景有连续感知。最后3帧是“去噪区”，也就是AI当前正在生成的新一批画面。

这四个区域各司其职：锚点区负责长期稳定性，检索区负责精准回忆，近期区负责短期连续性，去噪区负责当前生成。整个设计让AI在任何时刻都能同时看到“世界的起点”、“当前最相关的历史记录”和“最近发生了什么”，从而生成既连贯又一致的新画面。

五、实验室里的赛跑：WorldKV与各路方案的正面较量

为了严格评估WorldKV的效果，研究团队构建了一套专门的测评基准，包含60个场景与运动轨迹配对，覆盖室内、室外、城市、自然等多种视觉环境。每个场景都设计了包含至少一次“回头”动作的长时间轨迹——玩家会探索一个区域，离开，然后返回原地，这样就能直接比较AI“第二次来到同一地点”时生成的画面与“第一次来时”生成的画面有多相似。评估指标包括PSNR（信噪比，越高越好）、SSIM（结构相似度，越高越好）、LPIPS（感知相似度，越低越好）和FID（分布距离，越低代表整体风格越一致）。

在LingBot-World-Fast这个14B大模型上，原生的全KV缓存注意力方案本来提供了不错的记忆效果，但运行速度只有每秒2.36帧，远低于实时要求。WorldKV在保持与全KV缓存相近的记忆质量（LPIPS从0.441微升至0.455，PSNR从15.901微降至15.660）的同时，把速度提升到了每秒4.78帧，接近原生滑动窗口的5.05帧，基本实现了实时运行。滑动窗口方案因为没有记忆，各项指标大幅落后（LPIPS高达0.581，PSNR只有12.184）。

在Matrix-Game-2.0这个专门在短片段上训练的1.3B小模型上，结果更让人意外。全KV缓存方案不仅速度慢（每秒7.82帧），记忆质量还比WorldKV差——全KV的LPIPS为0.529，PSNR为13.748，而WorldKV分别达到0.462和14.101，反而更好，而且速度高达每秒16.25帧。原因在于，这个模型是在短序列上训练的，当它被迫处理越来越长的历史记录时，那些来自“训练分布之外”的远古记录反而会干扰它，产生累积误差。WorldKV通过只检索相关记录、剔除不相关记录，帮模型专注于真正有用的历史信息，反而得到了更好的效果。

研究团队还与两个专门为长期记忆训练过的对比模型做了比较：WorldPlay（8B参数）和Yume-1.5（5B参数）。这两个模型都经过专门的记忆模块训练，属于“有备而来”的选手。结果显示，LingBot-World-Fast加上WorldKV在LPIPS、PSNR和FID三项指标上均超过了这两个对比模型，SSIM基本相当，且运行速度更快——而这一切都是在不做任何训练的前提下实现的。Matrix-Game-2.0加上WorldKV则与两个对比模型基本持平或略有差距。

六、细节决定成败：压缩比如何影响记忆质量

研究团队还对世界压缩的参数设置做了系统的消融实验，也就是通过改变某个参数、观察结果变化，来理解每个设计选择的价值。

第一组实验调整的是“片段内压缩比”，也就是每个3帧片段最终保留多少帧等量的数据。从只保留锚点帧（相当于保留1.0帧），到完全不压缩（保留3.0帧），研究者测试了多个中间值。结果显示，只保留锚点帧的效果最差，说明非锚点帧中确实存在锚点帧没有的独特信息，不能全部丢弃。保留1.5帧（即本文的默认设置）表现良好，保留更多数据带来的收益边际递减。这说明75%的非锚点内容确实是冗余的，压缩方案合理。

第二组实验调整的是“片段间覆盖范围”，也就是在同等注意力窗口预算下，到底是存更多压缩过的片段，还是存更少但完整的片段。结果表明，把6个片段压缩后放入原本只能容纳3个完整片段的空间，比直接用3个完整片段效果更好——历史覆盖范围更广，对记忆质量的贡献超过了压缩带来的轻微信息损失。但把9个片段压缩到同等空间时，效果反而下降，说明过度压缩（每个片段只剩锚点帧）会损失太多独特信息。

另一组实验专门测试了检索片段数量与记忆质量的关系。随着检索片段数量从1增加到7，LPIPS、PSNR和SSIM在两个模型上总体呈改善趋势，证实了更广泛的历史覆盖对记忆有益。这也从另一个角度支持了世界压缩的设计初衷：压缩不只是为了省空间，更是为了让有限的注意力窗口能塞进更多的历史片段，从而提升记忆质量。

七、通用性验证：在第三个模型上的“不请自来”测试

为了进一步证明WorldKV不是只为特定模型“定制”的，研究团队把它应用到了Inspatio-World这个完全不同的模型上——这是一个将输入视频转换为新视角序列的4D世界模型，原本对新生成内容没有任何长期记忆机制。实验结果显示，加上WorldKV之后，Inspatio-World也能在多次回头时保持场景的一致性，全程不需要任何微调。这证明了WorldKV作为一个训练无关框架的普适性。

八、当前局限与未来方向：诚实面对还没解决的问题

研究团队在论文中也坦承了WorldKV目前的几个局限。首先，WorldKV是一个推理时的记忆管理方法，它的上限受制于底层世界模型的生成质量。如果AI本身在超长序列上会产生视觉漂移，WorldKV无法从根本上消除这种问题，只能尽量减少不必要的记忆干扰。其次，CPU离线存储虽然能把VRAM占用压到很低，但每次从CPU读取数据送到GPU的传输延迟，目前还会破坏实时生成的流畅度——如何加速这个传输过程是一个重要的未来研究方向，解决之后才能实现真正“无限时长、有界显存”的实时世界生成。此外，检索算法本身还有很大的改进空间，研究团队目前主要依赖摄像机姿态相似度，未来可以探索更复杂的语义匹配或注意力预测方法。

说到底，WorldKV做的事情，就是给一位能力出色但记性欠佳的AI画家，配备了一个精心整理的专用图书馆，并且雇了一位懂得在恰当时机取出恰当档案的图书管理员。画家的绘画能力本身没有变，但它现在能“翻阅”到真正需要的参考资料，而不是被一堆无关或重复的旧稿子淹没。

这对普通用户意味着什么？或许在不久的将来，AI驱动的互动游戏或虚拟旅行应用，就可以在不需要超级计算机的情况下，真正实现“你去过的地方，回来还是原来的样子”——无论是那条街角的咖啡馆，还是森林深处的石头小屋。这种持久性不仅仅是视觉上的舒适感，更是建立真实沉浸感的基础，也是让AI世界模型真正走向实用的关键一步。

对AI在游戏、机器人训练或虚拟现实领域的应用感兴趣的读者，可以进一步思考：当AI生成的世界拥有了可靠的长期记忆，它能支撑什么样的新型交互体验？记忆本身是否会成为AI世界模型的“智识”基础，让它的反应不再只是局部刺激的即时响应，而是基于对整个世界历史的真正理解？这些问题，值得随着这一领域的发展持续关注。想深入了解技术细节的读者，可以通过论文编号arXiv:2605.22718查阅完整原文。

Q&A

Q1：WorldKV需要对原来的AI世界模型重新训练吗？
A：不需要。WorldKV是一个完全训练无关的推理时框架，直接运行在现有模型之上，不修改任何模型参数，也不需要微调或蒸馏，可以直接插入到基于KV缓存的自回归世界模型中使用。

Q2：世界压缩会不会损失重要的画面细节？
A：研究显示，将每个3帧片段压缩至约1.5帧等量数据时，几乎不损失视觉质量，有时甚至优于未压缩方案。这是因为压缩保留了最具独特性的内容，剔除了大量冗余的重叠信息，让注意力窗口能容纳更多历史片段，反而提升了整体记忆覆盖范围。

Q3：WorldKV在小模型和大模型上效果一样好吗？
A：在14B的LingBot-World-Fast上，WorldKV接近全KV缓存的记忆质量同时速度提升约2倍；在1.3B的Matrix-Game-2.0上，WorldKV甚至超过了全KV缓存的记忆质量，因为该小模型在超出训练分布的长序列上容易产生误差累积，WorldKV的选择性检索有效避免了这一问题。

来源：https://www.163.com/dy/article/KU22TB020511DTVV.html

AIST

上一篇新能源车巨头密集利好股价直线拉升 下一篇纽约大学研究同一AI模型因训练方式不同表现天差地别

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。