加州大学圣地亚哥分校揭示世界模型说谎原因与解决方案_AI热点日报

加州大学圣地亚哥分校研究发现，世界模型会产生感知幻觉、动作边缘化幻觉和场景发散幻觉，根源在于训练数据覆盖不足。团队开发了三种实时检测信号，并提出覆盖感知训练与好奇心驱动数据收集两种干预方案，有效降低幻觉，提升模型泛化能力。

先说几个核心判断。世界模型，听起来很酷，对吧？给它一张画面、一个动作，它就能像预言家一样“想象”出下一秒。这项技术被寄予厚望，用在游戏、机器人、甚至自动驾驶上——AI不需要真的去撞墙，就能在脑海里模拟无数次，找到最优解。但最近的一项研究给这个美好的愿景泼了一盆冷水：这些世界模型，很可能会“说谎”——也就是产生严重的幻觉问题。

这可不是小毛病。它们会在你毫无察觉的情况下，生成一个看起来无比流畅、真实，却完全违背物理规律的画面。一个球明明出界了，它能“脑补”出一个球神奇传送回球场的画面；一个从未见过的迷宫，它会悄悄替换成一个自己眼熟的布局。最危险的是，这些错误不会让系统崩溃，它们以一种“自信而流畅”的方式出现，让人防不胜防——这正是视频预测模型中幻觉现象的典型表现。

加州大学圣地亚哥分校的团队决定好好查一查：这些幻觉到底从哪来？能不能提前预知？又该怎么根治？这项研究为AI物理模拟的可靠性提供了关键洞察。

让我们从一个更直观的场景切入。

一、先造一个够用的“练习场”：MMBench2数据集

要研究幻觉，首先得有一个足够大、足够多样、足够真实的“犯罪现场”。已有的数据集要么太小，要么没有标准答案，要么场景太单一，根本不够看。

于是，团队动手创建了一个全新的数据集，叫MMBench2。这个规模相当惊人：65,600条轨迹数据，相当于427小时的视频，总计2300万帧画面。这些数据覆盖了210个不同的控制任务，从机器人手臂抓香蕉，到游戏角色跑迷宫，再到跷跷板平衡、双足行走……场景之丰富，堪称一个微型的AI“联合国”，为世界模型幻觉分析提供了坚实基础。

这210个任务横跨十个完全不同的领域，包括经典的物理仿真控制套件DMControl、机器人操作环境Meta-World和ManiSkill3、物理引擎MuJoCo、2D物理游戏Box2D，甚至还有大家熟悉的雅达利游戏。每个任务的控制维度从1维到16维不等，有的简单到只需前后左右，有的则需要同时控制十几个关节。

数据集的另一个亮点是“多样性”。大多数训练数据都来自表现优异的“专家策略”，相当于只拿职业棋手的棋谱来教AI下棋，缺少犯错过程。MMBench2则刻意收集了多种行为：有专家策略的高质量数据，有完全随机乱来的数据，有全程按零输入的“无操作”数据，还有基于好奇心驱动的探索数据，以及最特别的——真实人类亲自操作的数据，共1400条。

为了测试模型的泛化能力，团队在210个任务中划定了两个区域：200个作为训练集，另外10个被完全封存，作为测试模型“见到从未见过的场景时会怎样”的专用试炼场。

二、造一个够大的世界模型来研究

有了数据，下一步是训练一个足够强大的世界模型，以便观察幻觉的发生规律。团队选择了一个被称为Dreamer 4的先进架构作为基础，并训练出一个拥有3.5亿参数的视觉世界模型——这是目前研究视频预测模型幻觉的典型规模。

这个世界模型由两个核心模块串联构成，整个工作流程就像是一套“压缩—预测—还原”的流水线。

第一个模块叫做“视频分词器”，它的任务是将一张完整的画面压缩成一段紧凑的“概念编码”。一张224x224的图片被切割成256个小方块，然后由编码器将这些方块与64个可学习的“查询向量”一起处理，最终把整张图的视觉信息压缩成一个紧凑表示。这个过程就像把一本书压缩成几页摘要——大部分核心信息都保留了，但不常见的细节可能会被模糊处理。解码器则负责根据这份摘要重新还原出一张图片。

训练这个分词器的方式很有意思：每次训练时，系统会随机遮住图片中0%到90%的方块，然后要求模型仅凭剩余的可见方块重建出被遮住的部分。这种训练方式迫使模型学会理解图像的深层结构，而不仅仅是死记硬背像素。

第二个模块是“动力学模型”，这是整个世界模型的“推理引擎”，参数量高达2.5亿。它的任务是：给定当前的视觉编码和即将执行的动作，预测下一时刻的视觉编码。这个模型采用了一种叫“快捷流匹配”的训练技术，使得推理时只需要4步就能生成下一帧，速度很快。

整个训练过程分两步走：先在200个任务的全量数据上预训练分词器，再在冻结分词器的基础上预训练动力学模型。此外，研究团队还在模型上附加了两个额外的“读数头”：一个奖励预测头，一个行为克隆头。

三、幻觉的三张面孔

这是整篇研究最核心的部分。团队系统分析了世界模型在哪些地方会出错，并将所有幻觉现象归纳为三种截然不同的类型，每一种都对应着“压缩—预测—还原”流水线中的不同环节。

第一种幻觉叫做感知幻觉，问题出在第一步——压缩环节。当模型遇到一个从未见过的场景时，编码器会把这个陌生场景强行映射到它记忆中最相似的已知场景上。解码后，迷宫的整体风格可能对了，角色位置可能对了，但墙壁布局却变成了一个完全不同的已见过的迷宫。这就好比你向一个只去过北京和上海的人描述杭州西湖，他脑海中浮现的可能是颐和园的景色——大致类似，但细节全错。

第二种幻觉叫做动作边缘化幻觉，问题出在动力学预测环节——模型忽视了动作指令的存在。正常情况下，如果你告诉世界模型“向左走”，它预测的下一帧画面应该明显反映出“向左走”的效果。但发生这种幻觉时，模型的预测几乎不受动作指令影响，无论你输入什么动作，它都在预测一个“最平均、最可能”的未来。换句话说，这个世界模型退化成了一个普通的视频生成器——它能生成流畅的视频，但失去了“可控性”这一核心价值。

第三种幻觉叫做场景发散幻觉，这是在长序列预测环节出现的问题。当模型连续预测多个时间步时，每一步的小误差都会叠加到下一步。场景发散幻觉特指那些特别离谱的失真，比如在乒乓球游戏中，球明明已经出界得分了，模型却在下一帧预测球神奇地传送回了球场中央继续比赛。

为了验证这三种幻觉，团队还展示了对比案例。一个见过类似场景的模型能正确重建迷宫布局，遇到全新布局的模型则把它替换成了已知的旧布局；正常模型的预测画面能清楚反映用户的操作，幻觉模型的画面则完全看不出动作的影响；正常情况下即使有轻微误差累积也维持着合理的物理画面，而发散幻觉则出现了球瞬移等荒谬事件。

四、为什么会幻觉？根源是“见识不够”

在揭示了三种面孔后，研究团队提出了一个统一的解释框架：这三种幻觉本质上都是同一件事造成的——训练数据在某些区域的覆盖不足。

用一个直观的比方来理解：你要训练一个厨师学生学会做各种菜。如果培训材料里做宫保鸡丁的案例有100个、做麻婆豆腐的有80个、但做新疆大盘鸡的只有3个，那么这位学生在遇到大盘鸡时就会手足无措——他可能会把它做成一道“融合版辣子鸡”，看起来像那么回事，但口味完全不对。

感知幻觉对应的是分词器在某些视觉场景上的覆盖不足；动作边缘化幻觉对应的是动作条件过渡数据的覆盖不足；场景发散幻觉则对应着轨迹中特定状态区域的覆盖不足。模型在那些偏僻的状态空间角落里没有足够的训练样本，预测的可信度极低，各种奇怪的错误就会冒出来。

团队通过可视化实验漂亮地证实了这一点。他们将不同任务中的数据分布绘制成“状态密度图”（类似于热力图），同时绘制了模型幻觉程度的分布图。两张图几乎是互补的镜像：数据越稀疏的区域，幻觉越严重；数据越密集的区域，预测越准确。

五、三种信号，提前预知幻觉

发现了根源还不够，团队更进一步：他们开发了三种无需额外训练、无需任何标注标签就能在运行时实时预测幻觉的信号。这就像给世界模型安装了一套“自我诊断系统”，让它能在说谎之前先发出警报。

第一种信号叫“分词器往返残差”。它的工作原理很直接：动力学模型预测出下一时刻的视觉编码之后，先用解码器把它还原成图像，再用编码器把这张图像重新压缩一次，看看两次编码之间的差距有多大。如果预测出了一个视觉上不合理的画面，解码出来的图像就会偏离分词器的“舒适区”，重新编码后的结果会和原始预测相差很远，产生一个大的“残差”。

第二种信号叫“流不稳定性”。动力学模型使用的流匹配技术在生成预测时会经历多个中间步骤。如果模型对当前的场景和动作条件非常确定，它的预测会在这些步骤中保持稳定。但如果条件信息给的信号不够强烈——比如训练数据中动作覆盖不足——模型在每一步之间的目标预测就会来回摇摆，犹豫不决。

第三种信号叫“跨种子方差”。流匹配生成过程从随机噪声开始，不同的随机起点理论上应该最终收敛到同一个“正确”的预测结果。如果在同一场景和同一动作条件下，用不同的随机种子运行多次，结果却大相径庭，说明模型对这个情况的“认知”极不确定，这正是场景发散幻觉即将发生的前兆。

在实际使用时，团队还发现一个问题：场景中运动越剧烈，这三个信号就越容易被“虚假地”拉高。为了消除这种干扰，他们设计了一种归一化处理——用场景的实际运动幅度去除信号值，得到“运动归一化版本”，使其更加精确可靠。

为了验证这三个信号确实有预测能力，团队在9000个保留的测试序列上做了严格的相关性分析。结果显示，三个信号与实际的预测误差之间的斯皮尔曼相关系数均约为-0.80，这是一个相当强的负相关。此外，在针对两种二元幻觉标签的分类准确率测试中，三个信号的表现也都超过了0.87，远优于简单基线指标。

六、如何治好幻觉：两条路径

找到了病根，检测到了病症，接下来就是治疗。团队提出了两种互补的干预方案，分别针对“训练时”和“运行时”两个阶段。

第一条路径叫“覆盖感知训练”。既然幻觉来自数据覆盖不足，那么调整训练时采样数据的方式就能直接填补这些空白。原有的训练数据采样方式是按帧数均匀采样——帧数多的任务自然获得更多训练机会。这导致了严重的不均衡：某些游戏因为每局时间很长，一个任务就能贡献上百万帧，而某些短任务每局只有25帧，在整个数据集中的存在感微乎其微。把采样方式改成“按任务均匀采样”之后，每个任务获得的训练机会大体相当，那些原本被淹没的稀有任务也有了足够的曝光量。

这个看起来极为简单的改动带来了令人惊喜的结果。对分词器和动力学模型分别做额外训练后，重建图像质量提升了0.44 dB，动作敏感度提升了0.29，多步预测质量提升了0.88 dB，三个幻觉信号全部显著下降。这是用完全相同的数据、仅仅改变了采样策略就获得的免费提升。

第二条路径叫“针对性数据收集”，适用于模型面对全新环境的情况。当面对10个完全未见过的测试任务时，仅靠重新采样是不够的——那些任务在训练数据中根本不存在。这时，幻觉预测信号就有了第二个用途：充当“好奇心奖励”，引导AI主动去探索那些它最不确定的区域，主动收集最有价值的新数据。

具体做法是：在新任务的环境中运行时，让AI用世界模型在脑海中想象多条可能的行动轨迹，然后用信号给每条轨迹打分，选择幻觉风险最高的那条轨迹实际执行。这样，AI就会倾向于主动走向那些它最陌生、模型最容易出错的区域，并把这些稀缺的经验数据收集回来用于微调。

团队将这种好奇心驱动的数据收集与其他几种方案进行了直接对比。结果非常有说服力：以专家策略收集的50条轨迹微调后，模型在10个未见任务上的归一化得分达到0.362；用好奇心驱动收集的50条轨迹微调后，模型得分达到了0.325，约为专家策略的90%，却完全不需要任何预先设计的任务特定专家策略。相比之下，随机策略只能达到0.228，零输入策略只有0.163。如果把所有类型的数据组合在一起，效果还能进一步提升至0.390，超过了单独使用专家策略的表现。

七、还要过“分词器”这一关

研究还顺带探讨了一个实际工程中会遇到的问题：能不能直接用现成的、在海量网络视频上训练好的通用视频分词器来替代专门训练的分词器？毕竟训练一个分词器需要相当多的计算资源。

团队将自己训练的分词器与四个通用方案进行了比较。结果显示出了有趣的对立：在已见任务上，自己训练的专用分词器表现远优于所有通用分词器；但在未见任务上，情况翻转了——未经微调的专用分词器在未见任务上的表现极差，而通用分词器则稳定得多，因为它在更广泛的互联网视频数据上训练，具有更强的泛化能力。一旦对专用分词器进行针对性微调，情况又翻转回来：微调后的专用分词器在未见任务上再次超越所有通用方案。

这个发现给出了一个实践性的工程建议：通用分词器是一个很好的“保底方案”，尤其是当没有条件收集新任务数据时；但只要有哪怕少量的目标领域数据用于微调，专用分词器的表现就会更好。

八、研究局限与未来展望

研究团队对自己工作的边界做了清醒的表述。这项研究在3.5亿参数规模的模型上取得了可靠的结论，但更大规模的模型是否遵循同样的规律，目前还是一个开放问题。此外，所有实验都在计算机仿真环境中进行，真实世界中的机器人任务还面临传感器噪声、部分可观测性等额外挑战。另外，训练大型世界模型的计算成本相当可观——仅预训练阶段就需要消耗8块顶级GPU运行约38天。

说到底，这项研究最引人深思的地方在于它对“幻觉问题”的重新定性。它改变了一个在AI领域普遍存在的直觉：当模型出错时，人们习惯性地认为这是架构不够大、算法不够好的问题，解决方案是继续堆叠更多参数。但这项研究给出了一个不同的答案：至少对于世界模型的幻觉问题，根源不在于模型本身，而在于数据的覆盖范围。

这意味着，与其花大量资源设计更复杂的模型，不如把注意力放在“让模型见识足够广”上——通过更聪明的采样策略、更有针对性的数据收集，用相对低廉的成本就能获得可观的性能提升。那个好奇心驱动探索的结果尤其令人印象深刻：一个从未见过某个任务的模型，仅靠自主探索收集50条轨迹，就能达到有人类专家示范90%的性能水平。这背后有一个更深的含义：知道自己不知道什么，并主动去填补空白，或许比单纯知道更多事情更有价值。

对于未来想要部署世界模型的研究者和工程师来说，这项研究提供了几个可以直接使用的工具：三个轻量级的幻觉检测信号，一个无需额外数据的免费训练改进方案，以及一套针对新环境的高效数据收集框架。有兴趣深入了解实现细节的读者，可以通过 arXiv:2606.27326v1 获取完整论文，项目的数据集、代码、模型权重以及一个可交互的世界模型浏览器界面也已在 nicklashansen.com/mmbench2 上公开。

Q&A

Q1：世界模型的幻觉和大语言模型的幻觉有什么区别？

A：大语言模型的幻觉是生成了事实错误的文字，比如编造了不存在的历史事件。世界模型的幻觉则是生成了物理规律错误的视频画面，比如预测球在出界后神奇传送回来。世界模型的幻觉危害更大，因为这些错误预测会直接输入给机器人或游戏AI来指导它们的行动决策，错误的预测会导致错误的真实行为。

Q2：MMBench2数据集的“未见任务”是做什么用的？

A：在MMBench2的210个任务中，有200个用于训练世界模型，另外10个被完全封存，从不参与训练。这10个未见任务专门用来测试世界模型在完全陌生环境中的表现，相当于用一套从未见过的考题来测试模型的真实泛化能力，而不是死记硬背的能力。研究团队正是通过这10个未见任务来评估好奇心驱动探索的效果。

Q3：好奇心驱动数据收集怎么做到不需要人类示范就能接近专家水平？

A：好奇心驱动的核心思路是让AI主动去探索它最不确定的区域，也就是世界模型幻觉风险最高的地方。它用自己训练好的世界模型在脑海中模拟多条轨迹，专门选择那些让模型最困惑的轨迹去真实执行，从而收集到最有价值的新数据。这种方式不需要知道任务目标是什么，只需要知道“哪里最陌生”，所以也不需要任何人类示范。50条轨迹就能达到专家水平的90%，正是因为这种精准的“哪里弱补哪里”策略。