如视用三维几何规则填补大模型视频空间认知缺失

时间：2026-07-02 10:24

近年来，AI视频生成技术发展迅猛，在画质、时长与生成速度上不断实现突破。然而，行业内始终存在一个难以规避的核心痛点：三维几何一致性缺失。许多AI视频从单个画面看，细节精致、光影流畅，但镜头一旦发生移动，场景漂移、物体错位、空间失真与画面穿帮等问题便会接踵而至。这也是传统AI视频长期被局限于“观赏品”

究其根源，其实不难理解——当前主流AI视频模型大多基于2D扩散架构，本质上仅具备像素级画面生成能力，却缺乏对三维空间的认知。它无法理解真实场景中物体的实际大小、相对距离与空间坐标，只能凭借文本提示“脑补”画面内容。结果便是单帧画面尚可，一旦镜头运动，整体空间逻辑便容易崩塌。

要解决这一行业共性难题，关键不在于追求画质的极致，而在于让AI真正理解三维空间，并遵循物理运行逻辑。针对长时序漫游视频中容易出现空间错乱的问题，如视依托自研空间大模型Argus，突破传统2D生成的局限，采用真实三维几何数据作为硬性约束，有效抑制AI幻觉，确保生成视频的每一帧都保持稳定、可靠的空间逻辑。

如视这一视频生成能力的核心逻辑，与主流模型“凭空想象场景”的生成模式截然不同——它让所有视频帧共享一个精准的三维几何骨架。在生成过程中，画面的纹理风格、光影效果与细节质感可以灵活迭代变化，但底层的空间结构、物体位置与场景尺度始终保持恒定。这样一来，从源头上便抑制了AI幻觉所引发的空间错乱问题。无论镜头如何运动、视角如何切换，场景的整体结构与物体间的相对位置都不会凭空改变，真正实现了动态视频在物理空间上的逻辑自洽。

给扩散模型“装上3D眼镜”，从根源解决空间穿帮

如视的解题思路清晰且精准：摒弃纯文本、纯像素的二维生成逻辑，将真实三维几何信息深度注入视频生成全流程，为扩散模型构建起三维空间认知能力。简单来说，扩散模型负责画面纹理、材质光影与细节质感的精细化生成；而底层的空间结构、尺度比例与物体位置关系，全部由真实三维几何数据严格约束。两个模块协同工作，兼顾画面美观度与空间真实性。具体落地分为两大核心技术路径：

1. 全景视频扩散模型 + 几何注入

该方案在传统扩散模型中新增专属几何约束模块，将精准的三维结构信息作为核心附加条件，与文本提示词共同指导视频生成全过程。几何数据的来源具备双重保障：既可通过如视空间大模型Argus实时推理输出高精度空间数据，也可依托如视自研3D激光扫描仪伽罗华P4采集的真实场景点云数据，从源头确保几何信息的真实性与精确度。

基于此方案生成的全景视频，所有帧统一绑定同一套三维几何骨架，帧与帧之间的空间结构高度一致、无偏差，AI幻觉问题得到显著抑制。同时，由于几何数据自带绝对尺度参数，生成的视频不再仅仅是视觉画面，而是具备可测量、可复刻的真实空间属性——这可以说是当前行业内几何一致性最强、最符合“物理AI”核心要求的视频生成方案。

2. 起止帧约束+修复式生成

该方案主打精准可控的镜头生成逻辑。用户首先指定视频的起止帧，分别完成高精度3D重建，生成完整的场景网格模型与三维点云结构；随后，通过智能插值算法推演生成镜头运动轨迹上所有中间帧的几何骨架；最后，由扩散模型完成骨架的纹理补全、细节填充与光影优化。整套方案的核心优势在于：起止帧的画面、视角与位置完全由用户把控，能够精准实现“指定起始视角、终点视角”的镜头漫游生成，适配多样化的定制场景需求。

当AI视频懂空间，从“好看工具”升级为“实用工具”

一旦视频生成真正具备了几何一致性，它便不再局限于“好看的工具”，而是进化为“有用的工具”。几个明确的应用方向已经清晰可见：

具身智能仿真数据生成：生成带有精确几何标注的ego-centric视频，用于训练机器人的空间理解、导航规划及场景表征模型。
物理AI动态化：将已有的静态3D重建结果作为输入，生成该场景在不同时间、不同条件下的动态视频，用于模拟推演。
VR内容生产：在几何正确的空间骨架内生成第一人称视角视频，内容创作者无需手动建模即可获得结构准确的虚拟空间。
影视与建筑预演：以起止帧构图作为输入，自动生成镜头运动路径上的所有中间画面。

两大独家核心底牌，构筑行业技术壁垒

目前，多数AI视频厂商仅聚焦于2D扩散模型的算法迭代优化，所实现的仅仅是像素层面的画面升级，难以搭建高精度、高稳定性的三维约束生成体系。而如视依托近十年的行业深耕，积累了两大难以复刻的底层核心能力，成为其几何一致视频生成技术的坚实支撑。

数据基础：5800万真实空间数字化资产

近十年来，如视始终深耕真实空间数字化领域，依托自研激光雷达扫描设备与高精度三维重建算法，持续对线下真实空间进行规模化、高精度数字化采集。截至2026年3月，如视已完成超过5800万真实空间的数字化采集，覆盖总面积突破48亿平方米，搭建起全球规模领先的真实三维空间数据库。

数据库场景覆盖住宅、工厂、商场、博物馆、办公园区等全品类线下空间，每一组空间数据均包含精准的几何结构、绝对尺度参数与真实纹理细节。这些数据为视频生成的几何约束、空间推理与场景还原提供了海量、真实、多样的底层支撑，与通用模型使用的虚拟训练数据截然不同，具备极强的真实性与实用性。

空间理解模型：Argus 1.0

2025年11月，如视依托海量真实三维空间数据，正式发布了全球首款支持全景图输入的空间大模型Argus 1.0。该模型能在毫秒级速度下，精准推理出图像对应的绝对尺度相机位姿、深度图与三维点云。它能够为AI视频扩散生成管线提供稳定、实时、高精度的几何约束输入源，让每一段视频、每一帧画面的空间结构都有真实三维数据兜底，从算法层面保障了几何一致性的落地效果。

视频生成的终局：真实可信优于极致好看

未来AI视频行业无疑仍将在画质清晰度、生成时长与渲染速度上持续竞争升级，但行业的核心差距终将脱离“视觉优劣”的浅层维度，转向“空间真伪”的深层维度。真正具备产业价值、可落地复用的AI视频系统，其核心能力一定是拥有三维空间理解能力，并尊重物理世界的运行逻辑。

如视跳出了行业通用的“跳过三维重建、直接像素生成”的捷径，坚持先完成真实空间的高精度几何还原，再将三维空间能力转化为视频生成的硬性约束。这种不追求速成、立足底层空间逻辑的技术路线，让AI视频不再是单纯的视觉假象，而是每一帧都经得起空间、尺度与物理规则检验的真实世界复刻。这，也正是未来物理AI视频生成的核心发展方向。

来源：https://www.itbear.com.cn/html/2026-07/1422814.html

大模型

上一篇讯飞AI眼镜多语种翻译，让出境游语言不再难 下一篇若愚科技获国内首家轮式人形机器人防爆资质

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion，无需自行搭建本地环境。云端直接处理运算，模型即选即试，大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说，体验相当顺畅，但用户仍需重视数据隐私保护和版权合规等问题。过去使用Stab

科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能，该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端，但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日，红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验，外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统，背部那条可视化的水路通道，配合纯平透明背板设计，核心配置信息一览无余，科技感十足。图源网络屏幕方面同样表现突出。一块9 06英寸OLED

科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队，有的刚从生产线卸下，机械零件还带着崭新的“工业气息”；有的已搭载运动控制模块，能稳健地小跑、跳跃几下。它们来自不同制造工厂，外形与功能各有千秋，但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日，杭州经信正式发布：由浙江大学机器人研究院、浙江省质量科学研究

科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近，NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”，派遣一台名为“连接”号的机器人服务卫星，为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”，其轨道高度正在不断衰减，如果不进行干预，今年年底前很可能会坠入地球大气层并烧毁。