清华大学等顶尖高校联合研发沉浸式世界模拟器

时间：2026-06-15 12:50

AnchorWorld由清华大学、华中科技大学等机构联合提出，通过混合视角训练与锚视图机制，解决了现有交互式世界模型在全身动作控制与场景空间一致性上的缺陷，实现了更稳定的第一人称沉浸式虚拟模拟。

戴上VR头显，进入虚拟世界后，你举起手臂、环顾四周，期待着什么？自然是希望眼前的世界如同现实一般，随你每一个动作实时响应——迈步向前时，脚下的地板应缓缓逼近；侧过头时，墙角的书柜从视野边缘慢慢滑入。更进一步，如果角落里站着一个人，你的大脑会下意识预期：等我转过去，他应该还在那里，甚至已经起身活动，就像真实生活一样。

然而，现有的AI视频生成技术在这方面长期表现不佳。要么只能通过键盘方向键控制视角，要么仅靠文字描述触发场景变化，根本无法模拟真实人类如何用整个身体去感知和互动世界。更糟的是，这些系统生成的世界像一块随用随生的泡沫——走到哪，生成到哪，对那些尚未走到但理应存在的角落，完全没有概念。

这正是AnchorWorld试图攻克的核心难题。它的名称中的“锚”字恰如其分：设计思路就是在虚拟世界中提前打下若干“锚点”，让整个世界在你移动时不会随机漂移，而是稳稳扎根。当你走近时，所有景象都如你所预期。

这项由清华大学、华中科技大学、快手科技（Kling团队）、香港科技大学和武汉大学联合完成的研究（论文编号：arXiv:2606.07326），发表于2026年6月，为虚拟现实与具身智能领域带来了全新思路。

一、现有技术卡在哪里？

要理解AnchorWorld的价值，需要先摸清现有技术的瓶颈。

大多数“交互式世界模型”本质上是一个能接受指令并生成连续视频的系统。你给一张起始图片、一段指令，它就一帧一帧往后生成画面。问题在于，“指令”往往非常粗糙——要么是键盘方向键（向前、向后、左转、右转），要么是一句文字描述（“往厨房走”）。这种控制方式就像用口头命令指挥一个不懂空间感的机器人，大方向或许正确，但身体与环境之间复杂的空间关系，它根本无法把握。

一些更贴近真实情况的新研究开始引入手部姿态甚至全身动作作为控制信号，方向是对的。但随即暴露另一个问题：第一人称视频里，大多数时候根本看不到完整的人体！你戴着头显向前走，摄像头拍到的是面前的世界，你的腿、躯干都不在画面中。这导致AI想从第一人称视频中学习“身体动作和视觉画面之间的关系”，就像只能看到水面波纹却看不到石头的学生，要凭水纹推断投入了多大的石头——信号太稀疏，学不扎实。

与此同时，“世界状态”的问题同样棘手。现有方法通常仅靠一张初始图和历史画面维持场景连贯性，走到新地方时那片区域全靠感觉生成，毫无提前约束。这意味着绕一圈回来，墙上的画可能换了颜色，房间里的人可能凭空消失。对于真正意义上的世界模拟来说，这是不可接受的。

AnchorWorld的设计正是针对这两个缺口：第一，让系统更好地理解全身动作与视觉画面的关系；第二，为世界中的特定位置提前“预设状态”，让系统知道那里有什么、会发生什么。

二、第一视角的困境怎么破？混合视角训练法

AnchorWorld解决第一个问题的方式，有点像培养优秀演员：先在第三人称视角下大量观察真实的人体动作，再把这些知识迁移到第一人称视角。

具体来说，研究团队采用了一种“混合视角训练”策略。系统首先在大量普通第三人称视频（即传统上能看到整个人体的那种视频）上训练。在这个阶段，AI可以清晰地看到整个人体如何运动——脚怎么迈、手怎么摆、身体重心如何转移；更重要的是，它能看到这些动作与周围环境的关系：这个人走过去，脚踩到了地毯，手伸向桌子，身体旋转之后视线落在了窗户上。

为了这一阶段，团队使用了自家内部整理的20万条单人动作视频，外加一个基于虚幻引擎（Unreal Engine）生成的合成数据集MultiCamVideo中的10.1万条视频，规模相当可观。

完成第三人称训练后，系统再迁移到第一人称视频训练。此时，AI虽然在屏幕上看不到完整人体，但已在第三人称阶段建立了“身体动作→视觉变化”的空间映射能力，可以把这套经验应用过来——哪怕现在只看得到双手，它依然能猜到身体其他部分在做什么，并据此生成合理的画面变化。

这套训练方法用到的真实第一人称数据，主要来自Ego-Exo4D和LEMMA两个公开数据集。它们的特别之处在于同时录制了同一场景的第一人称和第三人称画面，就像电影拍摄时主机与监控机同步录制。这让系统可以将“我看到的世界”与“别人看到的我”对应起来学习，弥补了单纯使用第一人称数据时的信息缺失。

为了描述人体动作，AnchorWorld使用了一个叫SMPL-X的标准人体参数模型，把人体拆解成22个主要关节，每个关节用六个数字描述（三个位置，三个旋转方向）。之所以不用手部关节，是因为现有第一人称视频数据集在手部估计上质量不够可靠——手太常被遮挡或跑出画面。

三、身体姿态怎么“注入”到视频生成里？空间姿态注意力机制

有了人体动作数据，下一步是把它真正地“告诉”AI视频生成系统。这里有一个技术上的精妙设计。

AnchorWorld将视频生成底层模型选定为Wan（一个基于“流匹配”技术的扩散模型），然后加入了一个称为“空间姿态注意力”的模块。这个模块的工作方式可以理解为：把人体动作信息和摄像机运动信息，在每一帧上都紧挨着视频画面的信息摆放，让三者在同一“会议室”里同时讨论——画面里的每一块区域，都能直接参考对应时刻的人体姿态和摄像机角度，从而生成空间上完全匹配的视觉内容。

更关键的是，系统用同一套“投影”逻辑来处理第三人称和第一人称两种情况。不管摄像机是架在旁边看全身，还是装在头顶往前看，处理方式都是一样的——把三维空间里的人物动作，按照当前摄像机的位置和角度，投影到二维画面上。这样一来，两种视角的训练可在同一框架下进行，知识可以流通。

四、“锚点”是什么？给世界打上坐标的关键设计

现在来到AnchorWorld最有特色的部分：锚视图（Anchor View）系统。

假设你正在体验一个虚拟客厅。沙发上有个人。你从厨房走进来，初始视角只看到桌子和电视，沙发完全不在视线里。但当你转过身走近沙发时，你当然期望他还在那里。更进一步，如果那人在你看不见的时候已经站起来走向电视，等你走到时，你应该看到他已经站着而非坐着。

传统系统对这类“期望”完全没有约束能力，因为沙发区域在你走过去之前根本不存在于任何参考帧中。AnchorWorld的锚点机制就是为了解决这个问题。

一个“锚视图”由三样东西组成。第一样是一张RGB图片，拍摄的是那个位置的场景——比如沙发区域的照片，里面有沙发和坐着的人。第二样是这张照片在三维世界坐标系中的位置和角度，用一套六维数字描述（三个位置，三个朝向），专业上叫6-DoF位姿。第三样是一段文字描述，告诉系统这个区域会发生什么变化——比如“那个人从沙发上站起来，走向电视”。

系统工作时，会把锚视图的图片信息和正在生成的视频帧信息放在一起，通过特殊的位置编码（3D RoPE）告诉系统哪些是“锚点画面”、哪些是“正在生成的当前帧”。同时，每个锚点的三维位姿信息也被注入进去，让系统知道这些锚点分别位于何处，以及与当前视角的相对位置关系。

至于那段文字描述的“动态变化”，系统通过一种叫“遮蔽交叉注意力”的方式来处理：每段文字描述只和它对应的那个锚点画面以及当前生成的视频帧“对话”，不会干扰其他锚点。这保证了不同位置的变化可以独立发生，互不串扰。

五、四个阶段循序渐进的训练流程

AnchorWorld的训练分四个阶段，每个阶段建立在前一个阶段能力的基础上，就像盖楼一样。

第一阶段：第三人称动作训练。系统在大量第三人称视频上，学习全身动作和视觉画面的对应关系，建立基本的投影能力和空间感。这一阶段用了30000步训练，总计消耗600个GPU小时（相当于25张高端显卡连续运行整整一天）。

第二阶段：第一人称动作训练。系统切换到第一人称数据，把第一阶段学到的空间感迁移到头戴式视角下，学习第一人称下的画面生成规律。这一阶段用了15000步和300个GPU小时。

第三阶段：静态锚视图定制训练。系统学习如何利用提前提供的锚点图片和位姿，在生成视频过程中保持对场景的空间一致性。重点是“走到哪，锚点所在位置的场景应该是什么样”，用了10000步和253个GPU小时。

第四阶段：动态锚视图演化训练。在第三阶段基础上加入“动态数据”——那些锚视图里有人在做事情的视频和对应文字描述。系统学习在保持空间一致性的同时，让锚点区域按文字描述的方式发生变化。也是10000步和253个GPU小时，但混合了静态数据和10000条筛选出的动态场景数据。

整个训练在16块NVIDIA 80G显卡上进行，学习率固定为0.0001，使用AdamW优化器。推理时，每次生成77帧视频，分辨率为480p，需50个去噪步骤，引导强度设为5。

六、实验结果：AnchorWorld在各项测试中表现如何？

研究团队构建了四套测试集来全面评估AnchorWorld，并与多个基线方法进行了比较。参与比较的方法包括PlayerOne（专门做第一人称世界模拟，分部位学习控制）、PlayerOne-Scene（PlayerOne加AnchorWorld的锚点注入机制）、CaM-UE（在虚幻引擎数据上训练的场景一致性模型），以及CaM-Ego（CaM在第一人称数据上重新训练的版本）。

第一套测试：在第一人称数据中留出100个测试序列，场景静态，主要测动作控制和场景一致性。评估指标涵盖多个维度：场景一致性用GIM匹配像素数（越高越接近真实画面）、CLIP-V（语义相似度）、PSNR、SSIM（像素精度）和LPIPS（感知相似度）衡量；动作控制则通过MegaSaM工具从生成视频中估计摄像机轨迹，再和真实轨迹对比。AnchorWorld在所有指标上都达到最优：GIM为4493.4，CLIP-V为0.885，PSNR为16.06，SSIM为0.578，LPIPS为0.470，绝对平移误差(ATE)为0.112，相对平移误差(RTE)为0.029，相对旋转误差(RRE)为3.145，均好于各基线。

第二套测试：在虚幻引擎生成的CineScene数据集上，涵盖100个序列，场景依然静态。这套数据更接近“合成影视场景”风格，视觉质量高、场景变化丰富。由于摄像机内参不一致，只评估GIM像素匹配和CLIP-V，以及RRE。AnchorWorld的GIM达到4555.1，RRE为1.656，是所有方法中旋转误差最小的，说明在大幅视角变化下方向准确性保持最佳。

第三套测试：动态场景——100个包含明显人物活动的第一人称序列，除场景一致性和动作准确度外，还额外测了文字引导的演化效果，使用VideoAlign-TA指标（衡量生成视频和文字描述的语义匹配程度）。AnchorWorld的优势最为突出：GIM为4634.6，CLIP-V为0.899，PSNR为16.37，SSIM为0.555，LPIPS为0.486，ATE为0.048，RTE为0.013，VideoAlign-TA高达0.717，远高于第二名CaM-Ego的0.385和PlayerOne-Scene的0.449。这说明AnchorWorld在“按文字描述让场景中的人物对应变化”这件事上，有了质的提升。

视觉化对比同样鲜明。PlayerOne生成的画面里，人物动作常常不准确，比如文字要求往左走，结果画面里可能往右偏；CaM-Ego只能控制视角，无法控制身体动作；PlayerOne-Scene虽加入了锚点，但因动作控制不够精准，场景一致性也打了折扣。AnchorWorld的结果在动作准确性和场景稳定性两方面保持了最高水准。

七、视野外的世界，AI也能推算出来吗？

AnchorWorld最令人印象深刻的能力验证之一，是对“视野之外场景演化”的处理。

研究团队设计了这样一组测试：锚视图里有一个人，一开始不在玩家视野范围内，玩家需要进行某个方向的转头动作后，他才会出现在画面里。文字描述设定他“从沙发上站起来”。

关键在于：玩家什么时候转头，会看到他处于什么状态？如果早点转头（比如第25帧），那人应该还坐着或刚开始起身；如果晚点转头（比如第60帧），那人应该已经站起来了。这不是简单的“等你看他，他才开始行动”，而是整个世界在持续流动，锚点区域的时间状态要和视频整体进度保持一致。

实验结果显示，AnchorWorld确实做到了这一点——通过修改人体动作序列来改变玩家转头时机，生成的视频里人物状态就会相应变化：早看到他还坐着，晚看到他已站起。这意味着系统在生成视频时，内部维持着一个对整个世界状态随时间演化的推断，而不只是被动地“看到什么生成什么”。

八、翻转世界来测空间感

另一个有趣的测试叫“空间位姿感知测试”。研究团队把人体姿态和锚点位姿同时做了水平翻转（像照镜子），但保持锚点图片本身不变。

当翻转后的位姿导致人的行走方向和锚点位置“出现视野重叠”时，生成的视频会自然地包含锚点图片里的场景细节；当翻转后导致二者“视野不重叠”时，生成的视频里就不会出现那些细节，而是自然地生成另一侧的场景内容。

这说明系统真的在用空间位姿来判断“我走到哪里、能看到什么”，而不是简单地把锚点图片内容粘贴进去。

九、有哪些做不好的地方？

研究团队对于系统的局限性保持了坦率的态度。

现阶段，AnchorWorld只能处理较短的视频片段（77帧），对于长时间的世界探索还无法支持。长时间的探索需要更强的“长期记忆机制”，让系统能记住很久以前走过的地方，这在技术上还待突破。

训练数据的覆盖范围也限制了系统的泛化能力。现有数据主要集中在少数几种室内场景，对于户外、大型开放空间等情况，泛化效果不可预知。

动态场景的多样性同样受限。由于第一人称数据集通常只从固定几个第三人称视角录制同一段活动，文字描述只能对所有锚点用同一段描述（不能让不同锚点演化出不同故事），且主要集中于人物活动，环境中的自然动态（如窗外飘落的树叶、窗帘被风吹动）还没被纳入训练。

技术细节上，系统使用的VAE（图像压缩工具）空间压缩比例是16倍，导致精细纹理有一定损失——比如自行车辐条、书架上的文字等细密结构，在生成视频中可能保持不够精准。快速头部转动时画面模糊的问题，也因为训练数据中本身就有大量运动模糊帧，系统不可避免地学到了这种模式。

归根结底，AnchorWorld是一套在有限资源和有限数据下，尽可能把“具身世界模拟”做得更完整、更可控的尝试。它的核心贡献在于提出了一套可行的架构，把“人体动作控制”和“世界状态定制”这两条线同时纳入一个统一框架，并通过扎实实验证明这条路确实走得通。对于正在研究虚拟现实、具身智能和视频生成的研究者来说，这套思路提供了相当清晰的参考。而对于未来有一天真正走进那个AI构建的沉浸式世界的普通用户来说，这项工作让那个世界又往“活得像真的”这个目标近了一步。

一个值得持续追问的问题是：当AI能够持续、稳定地模拟一个“活的世界”，而不只是生成几秒钟的短片段时，我们是否就走到了虚拟与现实难以分辨的边界？那个边界，可能比我们以为的要近得多。

Q&A

Q1：AnchorWorld是什么技术，和普通的AI视频生成有什么区别？

A：AnchorWorld是一套专门用于第一人称视角世界模拟的框架。普通AI视频生成只是根据文字或图片生成一段视频，而AnchorWorld可以接受完整的人体三维动作作为控制信号，同时在世界中预设“锚点”——提前指定某个位置的场景内容和变化规律。当用户的视角转过去时，那个位置会按照预设的内容和演化规律呈现，而不是随机生成。

Q2：AnchorWorld的“锚点”训练数据从哪里来，普通的视频能不能用？

A：锚点数据主要来自Ego-Exo4D和LEMMA两个数据集，它们的特点是同时录制了同一场景的第一人称和多个第三人称画面，让系统可以将不同视角的内容对应起来学习。普通单视角视频缺乏这种同步的多视角配对，无法直接用于锚点系统的训练。文字演化描述则由Qwen3-VL-32B-Instruct大语言模型自动标注生成。

Q3：AnchorWorld可以用来做什么实际应用？

A：短期来看，AnchorWorld对VR体验制作、具身AI训练环境构建和影视预览制作有直接价值——可以在不真实拍摄的情况下，生成有完整人物动作和稳定场景的第一人称视频。长期来看，如果这套技术进一步发展至支持长时间实时交互，它将是构建沉浸式虚拟现实世界和训练智能机器人的重要基础工具。完整论文（编号arXiv:2606.07326）可在arXiv上查阅。

来源：https://www.163.com/dy/article/KVAGQ5K40511DTVV.html

清华大学

上一篇美团京东抖音等60家平台企业参会禁止全网最低价等误导性话术 下一篇小鹏MONA M03第十三次OTA全量推送新增效率泊车风格

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。