首页 游戏 软件 资讯 排行榜 专题
首页
科技
李飞飞发布世界模型重大更新:单GPU实时生成3D场景

李飞飞发布世界模型重大更新:单GPU实时生成3D场景

热心网友
97
转载
2025-10-17

当业界巨头还在忙于采购显卡、扩充算力来支持他们的Sora 2视频生成模型时,李飞飞的The World Labs实验室正在用另一种思路重新定义现实。他们仅用一张显卡,就构建出了可供探索的数字世界。团队刚刚发布了一项名为RTFM的创新技术,这套实时世界生成模型正在突破想象力的边界。

与传统图像生成工具不同,RTFM不仅能从单张图片生成可供自由漫步的3D场景,更重要的是实现了在单个H100 GPU上的流畅运行,真正做到了实时生成与交互。

目前,RTFM研究预览版已经开放体验,并提供了可实际操作的Demo演示。

RTFM体验地址:https://rtfm.worldlabs.ai/

令人惊喜的是,这个Demo被命名为FRAMEBOY——结合复古风格的界面设计,瞬间唤起了我们对经典Game Boy游戏机的时代记忆。

眼前这个光影交错、反射细节丰富且实时变化的世界,某种程度上不正是我们儿时梦想中的游戏场景吗?

超越静态生成,实现动态交互

RTFM的核心突破在于能够实时生成可供用户交互的视频内容。系统从一张静态图片起步,通过实时渲染技术构建出完整的3D探索场景。

与传统模型相比,RTFM能够学习并呈现出极其复杂逼真的视觉效果。无论是光滑大理石地面的倒影细节、阳光照射下物体的自然阴影,还是透过玻璃看到的景象,模型都能精准地模拟出真实世界的视觉效果。

RTFM不依赖传统的图形学编程,而是让模型通过对海量视频数据进行端到端学习,持续优化生成的视觉效果。

支撑这一能力的,是RTFM设计团队提出的三大核心原则。

效率优先:将未来拉近现实

计算需求始终是世界模型发展的主要瓶颈。无论是像Sora这样的AI生成视频,还是Google尚未正式上线的Genie 3,都意味着巨大的算力挑战。

相关研究表明,要实时生成4K 60fps的交互视频流,AI模型每秒需要处理的tokens数量约等于一本《哈利·波特》的文字总量。

而在超过一小时的交互过程中,要保持生成内容的连贯性,需要处理的上下文将超过1亿个token。这对当前的计算基础设施而言,既不够现实,也难以承受。

李飞飞团队的目标是"在今天的硬件上,运行明天的模型,并提供最高保真度的预览体验。"

通过对架构、模型蒸馏和推理过程的极致优化,以及整个系统的重新设计,RTFM成功实现了仅使用单个H100 GPU就能进行交互式帧率推理,实现实时生成。

可扩展性:从视频模型到世界模型

传统3D引擎依赖三角网格、高斯点云和体素渲染等显式结构,完全基于复杂的计算机图形学知识。每个物体都需要建模、上材质、打光、烘焙阴影。这与我们之前介绍的混元3D世界采用的方法类似,它们主打的是实现3D全管道的生成效果。

The World Labs选择了完全不同的技术路线。RTFM不会构建任何显式的3D模型,而是使用了类似Sora的"自回归扩散Transformer"架构,直接从视频帧序列中学习世界规律。

举例来说,模型不再需要知道"这是一堵墙"或"那是一盏灯",而是通过成千上万段视频的学习,理解什么是"空间感",学会从输入的2D图像序列中预测出下一个新的视角画面。

与生成3D资产的路线不同,RTFM能够更好地利用不断增长的数据和算力,从而实现无限扩展。

持久性:让世界保持一致

大部分视频生成模型存在一个天然缺陷——它们没有记忆。即便现在的Sora能一次性生成25秒的震撼画面,但视频生成结束后,世界就终结了,无法提供持续的交互体验。

如果要记住所有场景,计算负担势必随着探索的深入而无限累积。

RTFM尝试解决的正是让生成的世界具备持续存在的能力。它引入了一个名为"空间记忆"的机制,为生成的每一帧画面都赋予了在3D空间中的精确"姿态"。

在生成新画面时,模型会采用一种"上下文杂耍"的技术,只调用新画面附近位置的帧作为参考,而非全局内容。

这使得RTFM能够让我们反复进入这个世界,离开再回来,而不会增加计算负担。

目前,RTFM的Demo体验时间只有3分钟,时限过后它还是会忘记这个世界。我在那个Demo里面拖动左右两个摇杆玩了很久,想起李飞飞之前说过,空间智能应该是AGI的下一个方向。

未来是否真的有机会,让现实世界与虚拟世界之间产生明确的联系,当前世界模型需要加载的内容还有太多。

毕竟,即便单个H100 GPU售价也大约在25000美元以上。但是当算力的价格下降,当算法再快一点;我们或许能看到,真正意义上的世界模型"大更新"照进现实的那一天。

AI原生产品日报频道具 前科
来源:https://www.huxiu.com/article/4793313.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Sound Blaster音频中心回归!模块化AI音效仅2300元起
电脑教程
Sound Blaster音频中心回归!模块化AI音效仅2300元起

10月30日消息,创新科技通过推出全新的模块化音频中心Sound Blaster Re:Imagine,将经典的Sound Blaster品牌带回公众视野。这款设备专为管理多音频设备的用户设计,旨在

热心网友
10.30
OpenAI布局投行业务:内部项目与战略目标全解析
科技
OpenAI布局投行业务:内部项目与战略目标全解析

据业内消息,OpenAI正在进行一个秘密项目“水星(Mercury)”,以帮助其人工智能模型学习构建金融模型,以取代初级银行家们来完成一些繁重工作。据悉,OpenAI的这个项目已经吸引了100多名前

热心网友
10.22
OpenAI推出全新浏览器:让一让,Chrome
科技
OpenAI推出全新浏览器:让一让,Chrome

北京时间10月22日凌晨,没等来传闻中的Gemini 3,等来了OpenAI正式发布首款AI浏览器ChatGPT Atlas。简单来说,这是一个把ChatGPT“塞进”浏览器的产品,你在任何网页上都

热心网友
10.22
OpenAI推出首款AI浏览器,如何改变上网方式?
科技
OpenAI推出首款AI浏览器,如何改变上网方式?

就在刚刚,OpenAI正式发布了首个浏览器ChatGPT Atlas。过去十来年,Chrome基本上是大家上网的标配入口。但如果现在有一款AI浏览器直接内置了ChatGPT,还自带记忆和Agent能

热心网友
10.22
英伟达800V直流方案发布:功率芯片厂商迎来新机遇
科技
英伟达800V直流方案发布:功率芯片厂商迎来新机遇

在OCP全球峰会上,英伟达(NVIDIA)聚焦于千兆瓦级AI工厂的未来发展,带来一系列前沿技术与创新成果展示,其中800V直流(VDC)技术成为一大亮点,引领数据中心能源架构变革。相较于传统415或

热心网友
10.21

最新APP

Melon Sandbox国际
Melon Sandbox国际
休闲益智 10-31
拳击大作战
拳击大作战
体育竞技 10-31
愤怒的小鸟2国际服
愤怒的小鸟2国际服
休闲益智 10-31
海岛奇兵腾讯
海岛奇兵腾讯
棋牌策略 10-31
海岛奇兵昆仑
海岛奇兵昆仑
棋牌策略 10-31

热门推荐

哪家车企最爱买自家车?这5家销售榜上有名
科技
哪家车企最爱买自家车?这5家销售榜上有名

“金九银十”是车市传统销售旺季,也意味着车企还有最后的70天时间来冲销量,汽车销售的压力可想而知。所以,你的朋友圈是不是也被汽车销售的宣传信息刷屏了?有的晒新车型续航数据,有的推限时购车福利,有的发

热心网友
10.31
盈透递表赴港上市,盈利能力究竟怎么样?
科技
盈透递表赴港上市,盈利能力究竟怎么样?

港股造车新势力有望迎来一位“国家队”选手。乘着港股涨势如虹的浪头,东风集团旗下高端新能源汽车品牌——岚图在国庆假日期间悄然向香港联交所递交IPO申请,拟以“介绍上市”方式开启资本化进程。这意味着,若

热心网友
10.31
PIX Moving曹雨腾:无人驾驶产品新思路,专注增量价值创造
科技
PIX Moving曹雨腾:无人驾驶产品新思路,专注增量价值创造

PIX Moving联合创始人兼COO曹雨腾2018年,PIX Moving 第一次以黑客马拉松的方式,汇聚了来自全球30多位天才工程师,在7天的协作中完成车辆线控Hack、开源自动驾驶架构,为降低

热心网友
10.31
NFT入门指南:从创建到交易,普通人如何玩转NFT?
web3.0
NFT入门指南:从创建到交易,普通人如何玩转NFT?

NFT,即非同质化代币,是记录在区块链上的独特数字资产。它为数字艺术、音乐等作品提供了独一无二的所有权证明,让普通人也能轻松进入这个全新的收藏和创作领域。

热心网友
10.31
富士康机器人进厂打工,为英伟达生产AI服务器
AI
富士康机器人进厂打工,为英伟达生产AI服务器

10 月 29 日消息,据路透社今日报道,全球最大电子产品制造商、英伟达主要 AI 服务器供应商富士康宣布,将在休斯顿工厂投用人形机器人,专门用于生产英伟达 AI 服务器。今年 6 月有消息称,富

热心网友
10.31