视频新突破:AI通过无限帧画面实时完成3D世界重建
机器视觉领域迎来重大突破,一项名为LingBot-Map的新模型成功实现了业界瞩目的“无尽流”能力。该模型能够实时处理无限长的视频序列,并稳定地进行三维场景重建,为实时空间感知与交互开启了新的可能。
直观感受一下它的重建效果:
这项技术突破意味着什么?
简单来说,如果将其集成到扫地机器人上,机器就能在清洁过程中实时构建并理解家庭环境的完整三维结构;如果应用于自动驾驶汽车,车辆便能一边行驶,一边精准计算和建模周围的路况与环境,实现更安全的导航。
这种“边看边建”的实时感知模式,让人联想到《火影忍者》中宁次的“白眼”能力——具备360度无死角的透视视野和超远距离的洞察力。LingBot-Map所实现的,正是这种对空间全方位、连续且不失细节的感知能力。
这便是蚂蚁灵波最新开源的基础模型——LingBot-Map。它专为纯自回归的流式3D重建而设计,与此前技术路线不同的是,它成功地在“实时性”、“长序列记忆稳定性”和“低显存消耗”这三个通常难以兼顾的维度上取得了关键平衡。
流式3D重建的核心挑战
要理解这项突破的价值,首先需要区分两种不同的3D重建模式:传统的离线重建与流式在线重建。
传统离线3D重建,可以比作“事后诸葛亮”。它要求先采集完所有视频帧,存储全部数据,然后再调用集中算力进行全局建模。这种方式虽然能生成高质量模型,但存在速度慢、显存消耗大、无法实时交互的明显短板,通常只适用于影视特效、数字孪生等静态场景,难以满足机器人、自动驾驶等需要实时决策的应用需求。
而流式3D重建则完全不同。它要求模型能够“来一帧,处理一帧”,边感知边建模,边行动边决策,这与人类在陌生环境中边走边认路的视觉逻辑高度一致,是具身智能和实时视觉定位领域的核心刚需。
然而,实现真正可用的流式重建,业内公认存在三大技术挑战:
第一,记忆负担过重。如果模型试图存储所有历史帧的完整信息,几千帧之后显存就会爆满,消费级显卡根本无法承受,工业设备也难以长时间运行。
第二,记忆能力不足。如果只缓存最近的少数几帧,模型又会出现“灾难性遗忘”,导致在长时间运行后轨迹严重漂移,重建出的场景扭曲变形,就像人走着走着完全忘了自己从哪来、身在何处。
第三,精度与速度难以兼得。许多方案要么为了精度牺牲速度,导致推理卡顿;要么为了速度牺牲精度,结果画面模糊不清,始终找不到理想的平衡点。
更关键的是,此前大多数流式方案并非纯粹的端到端推理。它们往往依赖测试时的额外优化、利用未来帧信息进行全局校准,或者加入人工设计的关键帧选取规则。
LingBot-Map选择了一条更艰难但更纯粹的道路:纯自回归。这意味着模型严格遵循因果律,仅依赖当前时刻及之前的历史信息进行推理,不依赖任何未来帧,也不进行任何后处理或人工规则优化,所有能力均由模型端到端学习而来。这就好比让一个人蒙上眼睛,仅凭对走过路径的记忆在迷宫中前行,同时要求他走得快、记得准、还不能耗费太多脑力——其难度可想而知。
仿生记忆机制:像人一样选择性记忆
LingBot-Map解决上述难题的灵感,恰恰来源于人类自身。
想象一下,你在一座大型城市中穿梭却不会迷路,并非因为大脑像录像机一样记录了每一秒的视觉信息,而是因为它执行了高效的“选择性记忆”:只记住关键的路径节点和显著地标。
LingBot-Map的核心技术创新,正是模拟了这种机制,并将其形式化为一种名为几何上下文注意力的架构。该架构对记忆进行了精妙的分层管理:
首先是锚点。它的作用是回答“我从哪来”的问题。任何3D重建都需要一个绝对的坐标系和尺度基准。就像人进入陌生房间会下意识记住门的位置作为参照,锚点模块会锁定初始几帧作为全局基准,固定坐标和尺度,从而有效解决纯自回归模型中常见的尺度模糊和坐标漂移问题。
其次是位姿参考窗口。它负责回答“我身边有什么”。光有起点不够,要稳步前行,必须看清脚下的路。这个窗口只保留最近k帧的完整、高维视觉特征。这部分记忆是短期的,但信息密度极高,确保了模型能精准捕捉局部几何细节,让当前帧能与前序帧无缝拼接,实现每一步的精准定位。
最后是轨迹记忆。它解决的是“我走过的路”的问题。对于那些既非起点也不在眼前的、久远的历史帧,模型不再存储其庞大的原始像素数据,而是将其压缩成极简的6个Token(包含相机、锚点和寄存器信息),并打上时间戳。相比传统的因果注意力机制,这种设计将单帧的信息增长量降低了80倍。即使处理上万帧的超长视频,显存消耗也能保持基本恒定。
正是这三大模块的协同工作,让LingBot-Map得以打破“不可能三角”。那么,实际效果究竟如何?
性能实测:全面领先行业基准
根据论文公布的实验结果,LingBot-Map在多项权威基准测试中均取得了领先表现。
在长序列稳定性方面,模型在超过10000帧的超长视频测试中,全程保持了稳定的重建质量,未出现明显的轨迹漂移。相比之下,同类纯自回归模型往往在几百帧后就开始出现扭曲,万帧级别的稳定表现刷新了行业纪录。
在速度与精度方面,在518×378的主流分辨率下,其推理速度达到20 FPS,比同类流式基线方法快了近一倍,完全满足实时性要求。在Oxford Spires、ETH3D、Tanks & Temples等数据集上,其轨迹误差降低了约77%,3D点云建模的精度和全局一致性均超越所有流式竞品,甚至优于部分离线优化模型。
在资源消耗方面,模型运行仅需约13.28GB显存,使得消费级显卡也能流畅部署,降低了对高端专业硬件的依赖。对比动辄需要30GB以上显存的同类方案,LingBot-Map实现了“技术顶尖”与“落地亲民”的结合,为规模化商用铺平了道路。
效率对比数据更为直观:与全历史帧缓存方案相比,采用64帧窗口设计的LingBot-Map,将推理速度从3.12 FPS提升至19.95 FPS,显存需求从36.06 GB压缩至13.28 GB,实现了速度提升6倍、显存降低63%,同时精度还有所提高,充分验证了其记忆机制的优越性。
战略拼图:构建完整的具身智能技术栈
纵观蚂蚁灵波近期的动作,LingBot-Map的开源并非孤立的技术展示,而是其整体战略布局中的关键一环。
回顾今年1月,该团队已陆续开源了多个模型:用于感知世界的深度估计模型LingBot-Depth,用于理解物理规律的世界模型LingBot-World,以及用于控制身体的视觉语言动作模型LingBot-VLA和全球首个具身世界模型LingBot-VA。
此次LingBot-Map的发布,正好补上了“在连续运动中理解并重建真实三维空间”这块核心拼图。至此,蚂蚁灵波初步构建起一个覆盖“感知-建模-模拟-控制”全链路的具身智能技术栈,形成了从看懂世界、建模世界,到理解世界、操控身体的完整技术闭环。
这一闭环对产业落地具有显著价值。例如:
- 机器人领域:仓库巡检、家庭服务机器人可以不再依赖昂贵的激光雷达,仅凭摄像头就能实现实时建图与定位,大幅降低部署成本。
- AR/VR领域:虚拟物体能够以近乎零延迟、无漂移的方式叠加在真实场景中,极大提升虚实融合的沉浸体验。
- 自动驾驶/无人机领域:使得对城市级大场景进行实时三维建模成为可能,为纯视觉自动驾驶方案提供了更强大的时空环境理解能力。
可以说,LingBot-Map的出现,标志着机器对物理世界的理解又向前迈出了坚实的一步。而通过持续的开源,蚂蚁灵波也清晰地展示了具身智能技术正以前所未有的速度,走向规模化落地。
项目已在多个平台开源:
Hugging Face:
https://huggingface.co/robbyant/lingbot-map
ModelScope:
https://www.modelscope.cn/models/Robbyant/lingbot-map
GitHub:
https://github.com/Robbyant/lingbot-map
论文地址:
https://arxiv.org/abs/2604.14141
项目主页:
https://technology.robbyant.com/lingbot-map
相关攻略
过去两年,从Sora到Veo,再到Cosmos,视频生成模型在“视觉逼真度”这条赛道上飞速发展,生成的画面已足以以假乱真。然而,一个根本性问题始终存在:这些模型真的“理解”了我们所处的物理世界吗?答案很可能是否定的。 事实上,一旦要求这些模型生成涉及机器人操作的视频,诸如“机械臂穿模、物体凭空消失、
当前,具身智能领域正面临一个关键瓶颈:过度依赖真机遥操作数据来训练机器人模型,这条技术路径的局限性日益凸显。 成本高昂是首要难题——采集一小时的遥操作数据往往需要数百元投入,并且必须搭建专业的动作捕捉环境。采集效率则是另一大硬伤:操作员通过屏幕遥控机械臂,其数据采集速度远跟不上真实生产线的作业节拍。
具身智能领域,最近被一群年轻人“刷新”了认知。 当行业还在仿真与现实迁移的课题中探索时,一支由00后主导的团队——灵初智能,选择了一条更直接的路径:用近十万小时的人类真实操作数据,为机器人“喂食”。这个数据量级,即便放在全球视野下,也堪称领先。 目前,业界常用的人类操作数据集多在几千至几万小时,即便
人形机器人赛道迎来一位实力强劲的新成员。4月13日,智元机器人正式推出其全新一代全尺寸人形机器人——远征A3。与以往侧重工业或服务领域的机器人不同,这款产品精准定位于一个充满想象力的场景,并打出了“为舞台而生”的鲜明标签。 那么,这台旨在征服舞台、点亮表演的机器人,究竟在哪些方面实现了突破?它又如何
杭州云深处科技科创板IPO申请获受理,拟募资25 03亿元。公司专注四足机器人B端工业应用,在电力巡检等领域市场份额领先,2025年实现首次盈利。与同行宇树科技侧重消费市场不同,云深处坚持深耕行业场景,其未来发展聚焦算法研发与产业化拓展。
热门专题
热门推荐
人工智能的浪潮正席卷每个角落,智能办公工具无疑是其中备受瞩目的弄潮儿。以自然语言处理和机器学习为内核的AI文档助手,承诺用高效与精准重塑我们的文字工作。但一个值得玩味的问题随之浮现:它究竟是一场碘伏传统的革命性创新,还是更像一位得力的职业伙伴? AI文档助手的革命性创新 不得不说,AI文档助手的出现
2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策
雷蛇与《鸣潮》联名的达妮娅主题外设系列将于2026年5月20日推出,涵盖无线鼠标、机械键盘、电竞椅和超大鼠标垫四款产品。系列兼顾轻量化设计、高性能硬件与角色主题元素,致力于为玩家打造兼具操作性能与沉浸氛围的全方位游戏体验。
《极限竞速:地平线6》登陆Xbox与PC平台,首次将舞台设定于日本。本作画质显著提升,以丰富细节呈现东京霓虹、樱花林与山间晨雾。玩法上重构开局身份,玩家需从普通访客逐步成长为传奇车手,并引入庄园系统与探索乐趣。游戏对硬件性能要求较高,但借助DLSS4等技术可实现画质与流畅度的平衡。
人工智能正改变传统表格制作方式,通过自然语言指令自动生成表格与图表,显著提升工作效率。人机协作虽带来便利,确保数据准确性仍是关键。未来更智能的预测功能值得期待,但使用者仍需掌握数据分析基本功,以充分释放数据价值。





