首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
英伟达开源Lyra 2.0:探索生成式3D世界的核心技术框架

英伟达开源Lyra 2.0:探索生成式3D世界的核心技术框架

热心网友
34
转载
2026-05-20

Lyra 2.0是什么

你是否想过,仅凭一张静态照片,就能构建出一个可以自由漫步、深度探索的宏大三维虚拟世界?这听起来仿佛是科幻电影里的场景,但英伟达最新发布并开源的Lyra 2.0框架,正将这一愿景转变为触手可及的现实。

简而言之,Lyra 2.0是一个开创性的、可探索的生成式三维世界构建框架。其核心流程设计精妙:从一张图像出发,融合了相机轨迹控制视频生成与前馈式三维重建技术,通过一个高效的“检索-生成-更新”迭代循环,逐步构建出大规模、可持久漫游的三维场景。该系统具备独特的“空间记忆”能力——它会为每一帧画面建立独立的3D几何缓存,用于空间信息的检索与关联,同时引入了创新的自增强训练策略,有效抑制了长时间序列生成中常见的“时间漂移”现象,从而实现了数百帧的长程三维一致性生成。最终,Lyra 2.0不仅能生成视频,更能将结果重建为高保真的3D高斯溅射(Gaussian Splatting)和表面网格模型,并直接导出到NVIDIA Isaac Sim等物理仿真引擎中,为机器人训练等具身智能应用提供了一个高度真实、可交互的虚拟环境。

Lyra 2.0 – 英伟达开源的可探索生成式 3D 世界框架

Lyra 2.0的主要功能

  • 长程三维一致性视频生成:用户可自定义相机运动路径,系统便能沿此轨迹生成长达数百帧的连续漫游视频。即使视角发生剧烈变化或重新访问已探索过的区域,场景结构与外观也能保持高度一致。
  • 空间记忆检索机制:系统为每一帧建立独立的3D几何缓存(如深度图、点云),形成一个动态增长的空间记忆库。当需要生成新视角时,它能智能检索出与目标视角最相关的历史帧作为生成条件。
  • 抗时间漂移生成能力:通过独特的自增强训练策略,模型在自回归推理过程中学会了主动识别并纠正误差累积,显著避免了颜色、几何形状在长序列生成中逐渐“失真”或“漂移”的问题。
  • 交互式三维场景探索器:提供了直观的图形化界面(GUI),可实时可视化累积的点云。用户可以像玩第一人称游戏一样,自由规划相机轨迹,既能重访旧地,也能勇敢探索未知区域。
  • 高效前馈三维重建:生成的视频序列可以通过一个经过专门微调的前馈模型,快速、高质量地重建为3D高斯溅射(Gaussian Splatting)和表面网格(Mesh)。
  • 仿真资产一键导出:重建出的三维资产可以直接导出到NVIDIA Isaac Sim等主流物理仿真引擎中,无缝衔接机器人导航、物体抓取等交互式训练任务。
  • 加速推理版本:项目贴心地提供了基于分布匹配蒸馏技术优化的4步去噪学生模型,推理速度相比原版模型提升约13倍,大幅降低了计算门槛和使用成本。

Lyra 2.0的技术原理

  • 生成式重建新范式:它创新性地结合了相机控制视频扩散模型(保障视觉真实感)和前馈三维重建技术,成功将“单张图片+相机轨迹”这一组合,转化为可直接渲染的三维输出。
  • 几何路由与外观合成解耦:这是其核心设计精髓。系统维护的每帧三维缓存(深度和点云)仅负责历史帧检索和建立密集的三维对应关系,扮演“空间导航仪”的角色。实际的像素合成工作,仍交由强大的视频扩散模型的生成先验来完成。这种解耦设计,有效规避了传统三维渲染中伪影的传播难题。
  • 规范坐标扭曲注入:具体如何利用历史帧?系统会将检索到的历史帧,通过其深度信息“扭曲”到目标视角,生成规范坐标图和深度图。经过位置编码和多层感知机(MLP)处理后,这些精确的几何对齐信号被注入到DiT模型的自注意力层中,指导新帧的生成。
  • 自增强抗漂移训练策略:为了让模型在推理时更加稳健,训练时特意给历史隐变量添加噪声,然后让模型尝试通过单步去噪来恢复干净目标。这相当于对模型进行了“抗干扰训练”,迫使其在条件不完美时也能做出准确判断,从而缩小了训练与推理之间的数据分布差异。
  • FramePack上下文压缩技术:为了在有限算力下记住更长的历史信息,Lyra 2.0采用了可变核的patchification技术对时间上下文进行压缩:对近期的帧保留更多细节(细粒度),对远期的帧则进行信息概括(粗粒度)。从而在固定的计算预算内,有效扩展了上下文窗口的长度。
  • 微调前馈重建模型:其三维重建模块基于Depth Anything v3进行了改进,优化了在高分辨率下对高斯点云密度的预测。关键在于,该模块在Lyra 2.0自身生成的数据上进行了针对性微调,因此对生成式模型可能产生的特定伪影具有更强的鲁棒性,能产出更干净、连贯的三维模型。

如何使用Lyra 2.0

  • 克隆项目仓库:首先,从GitHub官方仓库拉取代码,并严格遵循README文件的指引,配置好Python环境及相关依赖库。
  • 下载预训练模型:从Hugging Face平台或项目页面获取预训练好的Lyra 2.0模型权重文件。
  • 准备输入素材:准备一张清晰的场景图像作为起点,如需风格引导,可以附加相应的文本提示词。
  • 启动交互探索器:运行交互式GUI程序,加载你的输入图像,并开始规划你想要的相机漫游轨迹。
  • 启动迭代生成循环:系统将启动“检索-生成-更新”的自动化循环,从空间记忆中智能查找相关信息,并逐段生成长程三维视频。
  • 执行三维重建:视频生成完毕后,调用微调好的前馈模型,将视频序列转换为3D高斯溅射(Gaussian Splatting)表示。
  • 提取表面网格:运行项目提供的脚本,可以从3DGS表示中进一步提取出表面网格(Mesh),还支持分层稀疏网格的提取,以满足不同精度的应用需求。
  • 导出与部署:最后,将得到的三维资产导入NVIDIA Isaac Sim等物理仿真引擎,即可用于具身智能训练或其他虚拟仿真应用。

Lyra 2.0的关键信息和使用要求

  • 项目定位:这是英伟达推出的开源可探索生成式三维世界框架,核心目标是支持从单张图像迭代构建出持久、可漫游的大规模三维场景。
  • 核心技术:底层基于Wan 2.1 VAE + DiT架构的视频扩散模型,采用“检索-生成-更新”的自回归循环。其两大创新在于:通过每帧独立三维几何缓存解决“空间遗忘”问题;通过自增强训练策略抑制“时间漂移”。
  • 输入与输出:输入需要一张RGB图像,可选文本提示和自定义相机轨迹;输出则是长程的、相机控制视频。该视频可进一步重建为三维高斯溅射(Gaussian Splatting)与表面网格,并支持导出至物理仿真引擎。
  • 性能优化:项目提供了基于分布匹配蒸馏的4步加速模型,推理速度提升显著,约为原版模型的13倍。
  • 硬件环境:需要配备NVIDIA GPU,推荐使用显存容量较高的显卡,以支持长视频生成与三维重建等计算密集型任务。CUDA环境是必需的。
  • 软件依赖:主要包括PyTorch、diffusers、transformers、FramePack、Depth Anything V3、OpenVDB等关键库,具体版本请严格参照项目仓库中requirements.txt文件的规定。

Lyra 2.0的核心优势

  • 全局空间持久性:得益于独立的每帧几何缓存和智能的可见性检索机制,它彻底解决了长程三维生成中的“空间遗忘”难题。这意味着,即使相机绕行一周再回到原点,场景结构依然能保持完美一致。
  • 长期视觉稳定性:自增强训练策略效果显著,能有效抑制自回归过程中误差的累积。与基线模型相比,它在数百帧的生成中,颜色漂移和几何畸变都得到了大幅减少,画面稳定性极高。
  • 高质量三维输出:其前馈重建模型专门针对生成式数据进行了优化微调,能够容忍轻微的多视图不一致性,最终产出干净、连贯、实用的三维高斯溅射与网格模型。
  • 高度交互可控:整个过程并非一次性、不可控的“黑盒”生成。用户能够实时规划任意长度的相机轨迹,系统则渐进式地扩展场景,赋予了创作者极高的控制自由度和创作灵活性。

Lyra 2.0的项目地址

  • 项目官网:https://research.nvidia.com/labs/sil/projects/lyra2/
  • GitHub仓库:https://github.com/nv-tlabs/lyra
  • HuggingFace模型库:https://huggingface.co/nvidia/Lyra-2.0
  • arXiv技术论文:https://arxiv.org/pdf/2604.13036

Lyra 2.0的同类竞品对比

维度 Lyra 2.0 GEN3C Wonderland
技术路线 视频生成 + 前馈三维重建,解耦几何路由与外观合成 视频生成 + 全局三维表示条件生成,紧耦合设计 相机控制视频扩散 + 专用前馈网络预测三维高斯溅射
记忆机制 每帧独立三维缓存,仅用于信息路由与对应关系建立 累积全局点云/深度渲染图作为生成条件 无显式空间记忆,依赖视频模型自身时间上下文
长程一致性 支持数百帧大视角变化与区域重访,抗时间漂移能力强 受限于全局三维表示质量,误差易被放大 视角覆盖有限,长程一致性未作为重点解决
交互方式 显式相机轨迹规划 + 可选文本提示 显式相机轨迹 + 三维条件控制 显式相机轨迹控制
输出格式 三维高斯溅射 + 表面网格,支持物理引擎导出 视频与三维输出 三维高斯溅射
训练数据 DL3DV真实场景长视频,采用自增强策略 未公开详细训练方案 未公开详细训练方案
推理效率 提供4步蒸馏模型,速度提升约13倍 标准扩散采样 标准扩散采样

Lyra 2.0的应用场景

  • 具身智能与机器人仿真:为机器人导航、物体操作等复杂训练任务,快速生成高度可交互的室内外三维虚拟环境,能有效替代成本高昂、周期漫长的真实场景数据采集。
  • 虚拟世界与游戏开发:在游戏制作或元宇宙场景搭建中,可以从单张概念艺术图快速生成可自由漫游的关卡或场景原型,极大地加速前期美术设计和创意验证流程。
  • 建筑与室内设计可视化:基于设计师提供的平面图或效果图,快速生成三维漫游视频,让客户能够沉浸式地预览空间布局、光照和材质效果,显著提升沟通与决策效率。
  • 影视预演与动画制作:为导演和视觉预览团队提供强大工具,能够将静态的概念设计图迅速转化为动态的场景漫游动画,用于镜头规划、节奏测试和早期创意决策。
来源:https://ai-bot.cn/lyra-2-0/
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

2026年国外手机AI工具排行榜前十名盘点
AI资讯
2026年国外手机AI工具排行榜前十名盘点

2026年的手机AI工具市场,早已不是简单的语音助手或聊天机器人。它们正深度融入工作流,成为跨应用、跨场景的智能中枢。根据近期全球主流测评机构的数据、开发者社区的调用量统计以及真实用户反馈,我们梳理出当前海外市场最具代表性的十款手机AI工具。它们覆盖了从语音处理、内容生成到图像理解与智能协作等核心能

热心网友
05.18
年轻人孤独催生秒回师职业月入过万
业界动态
年轻人孤独催生秒回师职业月入过万

最近,一则关于“00后”月薪9000元却每月花费5000元购买“秒回师”服务的新闻登上了热搜,让这个新兴职业走进了大众视野。在快节奏的现代生活中,独居、高压、社交圈狭窄已成为许多年轻人的常态。普通社交的滞后性与不确定性,让“被及时听见”本身,变成了一种稀缺资源。 于是,付费的“秒回师”应运而生。从2

热心网友
05.17
Ask Jeeves搜索服务正式关闭,AI工具崛起成主因
AI资讯
Ask Jeeves搜索服务正式关闭,AI工具崛起成主因

AskJeeves搜索引擎于1997年上线,凭借自然语言提问功能一度流行。2006年更名为Ask com后未能扭转颓势,最终因无法与新一代AI工具竞争而宣布永久关闭。其告别页面感谢了开发团队和用户,并称“Jeeves的精神将永远延续”。

热心网友
05.14
复旦大学DIVE技术突破AI工具使用瓶颈实现跨领域智能适配
AI资讯
复旦大学DIVE技术突破AI工具使用瓶颈实现跨领域智能适配

2026年3月,一项由复旦大学与MiniMax公司联合完成的突破性研究(论文编号arXiv:2603 11076v1)正式发布。研究团队提出了一种名为DIVE的全新技术,旨在从根本上解决AI智能体在切换不同工具和任务时普遍存在的“水土不服”问题。 当前的AI智能体,某种程度上像一位只会使用特定品牌工

热心网友
05.14
2026年AI矢量绘图工具Recraft的独特优势与超越之道
AI资讯
2026年AI矢量绘图工具Recraft的独特优势与超越之道

在AI矢量图形生成领域,2024年迎来了一个关键的技术转折点。如果你正在寻找一款能够实现高精度控制、并能直接应用于商业项目的高效工具,那么Recraft的突破性进展绝对值得深入研究。它的核心优势,已经超越了单纯“生成美观图像”的范畴,而是聚焦于几个更为硬核的专业维度:精准的长文本理解与渲染、原生的S

热心网友
05.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

AI文档助手理想编审选择指南
AI教程
AI文档助手理想编审选择指南

人工智能的浪潮正席卷每个角落,智能办公工具无疑是其中备受瞩目的弄潮儿。以自然语言处理和机器学习为内核的AI文档助手,承诺用高效与精准重塑我们的文字工作。但一个值得玩味的问题随之浮现:它究竟是一场碘伏传统的革命性创新,还是更像一位得力的职业伙伴? AI文档助手的革命性创新 不得不说,AI文档助手的出现

热心网友
05.20
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式
AI资讯
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式

2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策

热心网友
05.20
雷蛇鸣潮达妮娅联名外设系列将于2026年5月20日正式发售
科技数码
雷蛇鸣潮达妮娅联名外设系列将于2026年5月20日正式发售

雷蛇与《鸣潮》联名的达妮娅主题外设系列将于2026年5月20日推出,涵盖无线鼠标、机械键盘、电竞椅和超大鼠标垫四款产品。系列兼顾轻量化设计、高性能硬件与角色主题元素,致力于为玩家打造兼具操作性能与沉浸氛围的全方位游戏体验。

热心网友
05.20
极限竞速地平线6评测 开放世界赛车游戏进化详解
科技数码
极限竞速地平线6评测 开放世界赛车游戏进化详解

《极限竞速:地平线6》登陆Xbox与PC平台,首次将舞台设定于日本。本作画质显著提升,以丰富细节呈现东京霓虹、樱花林与山间晨雾。玩法上重构开局身份,玩家需从普通访客逐步成长为传奇车手,并引入庄园系统与探索乐趣。游戏对硬件性能要求较高,但借助DLSS4等技术可实现画质与流畅度的平衡。

热心网友
05.20
AI表格制作教程:零基础一键生成动态数据图表
AI教程
AI表格制作教程:零基础一键生成动态数据图表

人工智能正改变传统表格制作方式,通过自然语言指令自动生成表格与图表,显著提升工作效率。人机协作虽带来便利,确保数据准确性仍是关键。未来更智能的预测功能值得期待,但使用者仍需掌握数据分析基本功,以充分释放数据价值。

热心网友
05.20