随着人工智能从虚拟屏幕迈向真实的物理场景,多模态模型正在经历一场深刻的架构范式变革。
Om AI联汇正式发布了全球首款面向真实物理世界的端侧流式多模态模型系列——VLX。这不仅是新产品的亮相,更在业界首次提出了“流式多模态”这一全新模型架构。与传统视频理解模型处理整段视频时采用切帧后一次性离线处理的方式不同,VLX系列面向物理世界中持续涌入的实时视频流,通过流式编码与缓存增量推理,实现了毫秒级的实时感知,并首次在端侧打通了“持续感知→精准定位→行动决策”的完整闭环。

该系列由三款模型协同构成,围绕实时物理智能构建了一套完整的能力体系:
VLX-Flow负责持续环境感知。它通过增量编码与缓存推理机制,让模型像人一样持续观察周围环境,而不是被动等待用户的提问。新画面随时被吸收,用户在提问的瞬间即可获得响应。
VLX-Seek负责精确空间定位。它创新性地将坐标生成转化为区域检索——不是让模型去“猜测坐标”,而是从候选区域中“选择区域”。这一设计为端侧设备提供了可靠的空间感知能力。
VLX-Go负责行动执行。它把视觉理解直接转化为机器人可执行的短时航点与运动轨迹,而非输出文本建议。这意味着设备可以自主完成跟随、避障与导航等任务。
在这一全新范式下,视觉信息不再以“截取一帧”的方式进入模型,而是以“连续流”的方式持续涌入。模型不再是“看完再回答”,而是“边看边理解,必要时主动行动”。这对应的不是“更好的人机对话体验”,而是“AI自主工作能力的质变”。
事实上,物理世界中的AI必须直面三个刚性约束:时间是连续的,环境是动态变化的,终端算力是资源受限的。VLX系列完全围绕实时视频流与端侧设备原生构建——不是将云端模型压缩后塞进终端,而是从架构层面为端侧具身智能重新设计。它以“快(流式推理,单路延迟最低0.06秒)、小(轻量化选型,覆盖0.6B至10B规格)、准(细粒度定位)、行(感知执行闭环)”四大优势,实现了从持续感知到行动决策的端侧闭环。
当多模态模型从“看图答题”走向“持续感知”,当AI从屏幕走向真实的物理世界,VLX端侧流式多模态模型系列为物理AI的演进提供了一种全新的架构范式。让每一台终端都能拥有持续理解、即时决策、自主行动的能力——这才是物理世界AI应有的样子。
