游乐游手机版
首页/科技数码/文章详情

如视用三维几何规则填补大模型视频空间认知缺失

时间:2026-07-02 10:24
近年来,AI视频生成技术发展迅猛,在画质、时长与生成速度上不断实现突破。然而,行业内始终存在一个难以规避的核心痛点:三维几何一致性缺失。许多AI视频从单个画面看,细节精致、光影流畅,但镜头一旦发生移动,场景漂移、物体错位、空间失真与画面穿帮等问题便会接踵而至。这也是传统AI视频长期被局限于“观赏品”

近年来,AI视频生成技术发展迅猛,在画质、时长与生成速度上不断实现突破。然而,行业内始终存在一个难以规避的核心痛点:三维几何一致性缺失。许多AI视频从单个画面看,细节精致、光影流畅,但镜头一旦发生移动,场景漂移、物体错位、空间失真与画面穿帮等问题便会接踵而至。这也是传统AI视频长期被局限于“观赏品”定位,难以真正落地到产业实际应用场景的根本原因。

究其根源,其实不难理解——当前主流AI视频模型大多基于2D扩散架构,本质上仅具备像素级画面生成能力,却缺乏对三维空间的认知。它无法理解真实场景中物体的实际大小、相对距离与空间坐标,只能凭借文本提示“脑补”画面内容。结果便是单帧画面尚可,一旦镜头运动,整体空间逻辑便容易崩塌。

要解决这一行业共性难题,关键不在于追求画质的极致,而在于让AI真正理解三维空间,并遵循物理运行逻辑。针对长时序漫游视频中容易出现空间错乱的问题,如视依托自研空间大模型Argus,突破传统2D生成的局限,采用真实三维几何数据作为硬性约束,有效抑制AI幻觉,确保生成视频的每一帧都保持稳定、可靠的空间逻辑。

如视这一视频生成能力的核心逻辑,与主流模型“凭空想象场景”的生成模式截然不同——它让所有视频帧共享一个精准的三维几何骨架。在生成过程中,画面的纹理风格、光影效果与细节质感可以灵活迭代变化,但底层的空间结构、物体位置与场景尺度始终保持恒定。这样一来,从源头上便抑制了AI幻觉所引发的空间错乱问题。无论镜头如何运动、视角如何切换,场景的整体结构与物体间的相对位置都不会凭空改变,真正实现了动态视频在物理空间上的逻辑自洽。

给扩散模型“装上3D眼镜”,从根源解决空间穿帮

如视的解题思路清晰且精准:摒弃纯文本、纯像素的二维生成逻辑,将真实三维几何信息深度注入视频生成全流程,为扩散模型构建起三维空间认知能力。简单来说,扩散模型负责画面纹理、材质光影与细节质感的精细化生成;而底层的空间结构、尺度比例与物体位置关系,全部由真实三维几何数据严格约束。两个模块协同工作,兼顾画面美观度与空间真实性。具体落地分为两大核心技术路径:

1. 全景视频扩散模型 + 几何注入

该方案在传统扩散模型中新增专属几何约束模块,将精准的三维结构信息作为核心附加条件,与文本提示词共同指导视频生成全过程。几何数据的来源具备双重保障:既可通过如视空间大模型Argus实时推理输出高精度空间数据,也可依托如视自研3D激光扫描仪伽罗华P4采集的真实场景点云数据,从源头确保几何信息的真实性与精确度。

基于此方案生成的全景视频,所有帧统一绑定同一套三维几何骨架,帧与帧之间的空间结构高度一致、无偏差,AI幻觉问题得到显著抑制。同时,由于几何数据自带绝对尺度参数,生成的视频不再仅仅是视觉画面,而是具备可测量、可复刻的真实空间属性——这可以说是当前行业内几何一致性最强、最符合“物理AI”核心要求的视频生成方案。

2. 起止帧约束+修复式生成

该方案主打精准可控的镜头生成逻辑。用户首先指定视频的起止帧,分别完成高精度3D重建,生成完整的场景网格模型与三维点云结构;随后,通过智能插值算法推演生成镜头运动轨迹上所有中间帧的几何骨架;最后,由扩散模型完成骨架的纹理补全、细节填充与光影优化。整套方案的核心优势在于:起止帧的画面、视角与位置完全由用户把控,能够精准实现“指定起始视角、终点视角”的镜头漫游生成,适配多样化的定制场景需求。

当AI视频懂空间,从“好看工具”升级为“实用工具”

一旦视频生成真正具备了几何一致性,它便不再局限于“好看的工具”,而是进化为“有用的工具”。几个明确的应用方向已经清晰可见:

  • 具身智能仿真数据生成:生成带有精确几何标注的ego-centric视频,用于训练机器人的空间理解、导航规划及场景表征模型。
  • 物理AI动态化:将已有的静态3D重建结果作为输入,生成该场景在不同时间、不同条件下的动态视频,用于模拟推演。
  • VR内容生产:在几何正确的空间骨架内生成第一人称视角视频,内容创作者无需手动建模即可获得结构准确的虚拟空间。
  • 影视与建筑预演:以起止帧构图作为输入,自动生成镜头运动路径上的所有中间画面。

两大独家核心底牌,构筑行业技术壁垒

目前,多数AI视频厂商仅聚焦于2D扩散模型的算法迭代优化,所实现的仅仅是像素层面的画面升级,难以搭建高精度、高稳定性的三维约束生成体系。而如视依托近十年的行业深耕,积累了两大难以复刻的底层核心能力,成为其几何一致视频生成技术的坚实支撑。

数据基础:5800万真实空间数字化资产

近十年来,如视始终深耕真实空间数字化领域,依托自研激光雷达扫描设备与高精度三维重建算法,持续对线下真实空间进行规模化、高精度数字化采集。截至2026年3月,如视已完成超过5800万真实空间的数字化采集,覆盖总面积突破48亿平方米,搭建起全球规模领先的真实三维空间数据库。

\

数据库场景覆盖住宅、工厂、商场、博物馆、办公园区等全品类线下空间,每一组空间数据均包含精准的几何结构、绝对尺度参数与真实纹理细节。这些数据为视频生成的几何约束、空间推理与场景还原提供了海量、真实、多样的底层支撑,与通用模型使用的虚拟训练数据截然不同,具备极强的真实性与实用性。

空间理解模型:Argus 1.0

2025年11月,如视依托海量真实三维空间数据,正式发布了全球首款支持全景图输入的空间大模型Argus 1.0。该模型能在毫秒级速度下,精准推理出图像对应的绝对尺度相机位姿、深度图与三维点云。它能够为AI视频扩散生成管线提供稳定、实时、高精度的几何约束输入源,让每一段视频、每一帧画面的空间结构都有真实三维数据兜底,从算法层面保障了几何一致性的落地效果。

视频生成的终局:真实可信优于极致好看

未来AI视频行业无疑仍将在画质清晰度、生成时长与渲染速度上持续竞争升级,但行业的核心差距终将脱离“视觉优劣”的浅层维度,转向“空间真伪”的深层维度。真正具备产业价值、可落地复用的AI视频系统,其核心能力一定是拥有三维空间理解能力,并尊重物理世界的运行逻辑。

如视跳出了行业通用的“跳过三维重建、直接像素生成”的捷径,坚持先完成真实空间的高精度几何还原,再将三维空间能力转化为视频生成的硬性约束。这种不追求速成、立足底层空间逻辑的技术路线,让AI视频不再是单纯的视觉假象,而是每一帧都经得起空间、尺度与物理规则检验的真实世界复刻。这,也正是未来物理AI视频生成的核心发展方向。

来源:https://www.itbear.com.cn/html/2026-07/1422814.html
上一篇讯飞AI眼镜多语种翻译,让出境游语言不再难 下一篇若愚科技获国内首家轮式人形机器人防爆资质
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。