李飞飞发布世界模型重大更新：单GPU实时生成3D场景

时间：2025-10-17 15:17

当OpenAI的奥特曼还在到处买显卡、买算力，来支撑他的Sora 2视频生成模型。李飞飞的实验室The World Labs，用一张显卡就能运行一个世界。他们今天发布了一项名为RTFM的新技术，一个

当业界巨头还在忙于采购显卡、扩充算力来支持他们的Sora 2视频生成模型时，李飞飞的The World Labs实验室正在用另一种思路重新定义现实。他们仅用一张显卡，就构建出了可供探索的数字世界。团队刚刚发布了一项名为RTFM的创新技术，这套实时世界生成模型正在突破想象力的边界。

与传统图像生成工具不同，RTFM不仅能从单张图片生成可供自由漫步的3D场景，更重要的是实现了在单个H100 GPU上的流畅运行，真正做到了实时生成与交互。

目前，RTFM研究预览版已经开放体验，并提供了可实际操作的Demo演示。

RTFM体验地址：https://rtfm.worldlabs.ai/

令人惊喜的是，这个Demo被命名为FRAMEBOY——结合复古风格的界面设计，瞬间唤起了我们对经典Game Boy游戏机的时代记忆。

眼前这个光影交错、反射细节丰富且实时变化的世界，某种程度上不正是我们儿时梦想中的游戏场景吗？

超越静态生成，实现动态交互

RTFM的核心突破在于能够实时生成可供用户交互的视频内容。系统从一张静态图片起步，通过实时渲染技术构建出完整的3D探索场景。

与传统模型相比，RTFM能够学习并呈现出极其复杂逼真的视觉效果。无论是光滑大理石地面的倒影细节、阳光照射下物体的自然阴影，还是透过玻璃看到的景象，模型都能精准地模拟出真实世界的视觉效果。

RTFM不依赖传统的图形学编程，而是让模型通过对海量视频数据进行端到端学习，持续优化生成的视觉效果。

支撑这一能力的，是RTFM设计团队提出的三大核心原则。

效率优先：将未来拉近现实

计算需求始终是世界模型发展的主要瓶颈。无论是像Sora这样的AI生成视频，还是Google尚未正式上线的Genie 3，都意味着巨大的算力挑战。

相关研究表明，要实时生成4K 60fps的交互视频流，AI模型每秒需要处理的tokens数量约等于一本《哈利·波特》的文字总量。

而在超过一小时的交互过程中，要保持生成内容的连贯性，需要处理的上下文将超过1亿个token。这对当前的计算基础设施而言，既不够现实，也难以承受。

李飞飞团队的目标是"在今天的硬件上，运行明天的模型，并提供最高保真度的预览体验。"

通过对架构、模型蒸馏和推理过程的极致优化，以及整个系统的重新设计，RTFM成功实现了仅使用单个H100 GPU就能进行交互式帧率推理，实现实时生成。

可扩展性：从视频模型到世界模型

传统3D引擎依赖三角网格、高斯点云和体素渲染等显式结构，完全基于复杂的计算机图形学知识。每个物体都需要建模、上材质、打光、烘焙阴影。这与我们之前介绍的混元3D世界采用的方法类似，它们主打的是实现3D全管道的生成效果。

The World Labs选择了完全不同的技术路线。RTFM不会构建任何显式的3D模型，而是使用了类似Sora的"自回归扩散Transformer"架构，直接从视频帧序列中学习世界规律。

举例来说，模型不再需要知道"这是一堵墙"或"那是一盏灯"，而是通过成千上万段视频的学习，理解什么是"空间感"，学会从输入的2D图像序列中预测出下一个新的视角画面。

与生成3D资产的路线不同，RTFM能够更好地利用不断增长的数据和算力，从而实现无限扩展。

持久性：让世界保持一致

大部分视频生成模型存在一个天然缺陷——它们没有记忆。即便现在的Sora能一次性生成25秒的震撼画面，但视频生成结束后，世界就终结了，无法提供持续的交互体验。

如果要记住所有场景，计算负担势必随着探索的深入而无限累积。

RTFM尝试解决的正是让生成的世界具备持续存在的能力。它引入了一个名为"空间记忆"的机制，为生成的每一帧画面都赋予了在3D空间中的精确"姿态"。

在生成新画面时，模型会采用一种"上下文杂耍"的技术，只调用新画面附近位置的帧作为参考，而非全局内容。

这使得RTFM能够让我们反复进入这个世界，离开再回来，而不会增加计算负担。

目前，RTFM的Demo体验时间只有3分钟，时限过后它还是会忘记这个世界。我在那个Demo里面拖动左右两个摇杆玩了很久，想起李飞飞之前说过，空间智能应该是AGI的下一个方向。

未来是否真的有机会，让现实世界与虚拟世界之间产生明确的联系，当前世界模型需要加载的内容还有太多。

毕竟，即便单个H100 GPU售价也大约在25000美元以上。但是当算力的价格下降，当算法再快一点；我们或许能看到，真正意义上的世界模型"大更新"照进现实的那一天。

AI原生产品日报频道具前科

来源：https://www.huxiu.com/article/4793313.html

创新观点大模型李飞飞 3d

上一篇程序员用AI批量写歌：业余时间创作爆款音乐的赚钱思路 下一篇二代接班首年营收1700亿，揭秘新掌门变革之路

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时，同比增长5 0%。充换电服务业用电增速高达48 8%，信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市联体风扇售价429元

追风者冰川360S25液冷散热器售价429元，三联一体风扇便捷安装，冷头小体积纯铜底座噪音18dB，风扇转速300-2000RPM、风量75CFM、静压2 96mmAq，五年质保漏液包赔。

科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映，GooglePlayServices后台耗电异常，电量占比最高达99 97%，远超正常水平，严重影响续航。目前故障原因不明，谷歌尚未发布官方声明。

科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足盼新CEO改进

罗永浩批评苹果iOS27创新不足，称仅有双iPhone同号、音量分离等数十项细节改进，认为库克时代缺乏突破性创新，股市虽好但消费者只能被迫接受挤牙膏式升级。

科技数码 · 2026-06-29

年国产车出口710万辆，两家车企销量破百万

2025年国产汽车出口总量达710万辆，同比增长21%。奇瑞以134万辆居首，比亚迪105万辆次之，上汽乘用车出口占比60%最高，长城出口51万辆。吉利、长安等主流品牌同步增长，小鹏、零跑等新兴品牌海外拓展加速。