中国公司流式多模态接棒黄仁勋物理AI时刻_AI热点日报

中国公司流式多模态接棒黄仁勋物理AI时刻

类型：热点整理2026-07-02

“物理AI的ChatGPT时刻已经到来。” 2026年1月5日，拉斯维加斯CES展会，英伟达创始人兼CEO黄仁勋宣告AI正式进入新阶段。他眼中，AI演进分四步走：Perception AI、Generative AI、Agentic AI、Physical AI。模型得理解质量、摩擦、惯性、动量守

“物理AI的ChatGPT时刻已经到来。”

2026年1月5日，拉斯维加斯CES展会，英伟达创始人兼CEO黄仁勋宣告AI正式进入新阶段。

他眼中，AI演进分四步走：Perception AI、Generative AI、Agentic AI、Physical AI。模型得理解质量、摩擦、惯性、动量守恒这些概念，AI才算真正走出屏幕。同时他也点明：想让机器人理解物理世界，光靠单一模型不行，得搭建一整套智能系统。

愿景很美，但核心问题摆上台面——物理世界的AI，到底需要什么技术能力？

AI真要渗透到物理世界，机器人、无人机、安防摄像头、可穿戴设备这些场景，要的不是单纯回答问题，而是持续工作。物理AI最核心的，就是主动执行的能力。

Om AI联汇CEO兼首席科学家赵天成博士点明了现状：“之前整个业内对通用视觉智能的关注度偏低，大家可能更关注一些能看秀的表演或操作场景。但通用视觉这个点，是未来物理AI规模化落地绕不开的核心技术，而且是更现实、更直接的那条路，会广泛渗透到所有物理AI场景。” 通用视觉智能（General Vision Intelligence），说白了就是模型得像人一样持续观察环境、精准锁定目标、自己驱动行动，而且这一切得在端侧完成。

最近发布的VLX端侧流式多模态模型系列，就是这个方向的最新实操。

这是业界头一回提出“流式多模态”这个全新模型架构。跟传统路线“采集-上传-离线处理”不同，VLX系列专门针对物理世界不断涌入的视频流设计，能实现毫秒级实时感知，并且首次在端侧打通了“持续感知→精准定位→行动决策”的完整闭环。

一、三个模型、三层能力、一条链路

通用视觉智能到底指什么？

Om AI联汇的定义很清晰：三项核心能力——持续感知（不用人工触发）、空间智能（精准定位目标）、行动输出（直接驱动设备）。VLX系列里的Flow、Seek、Go三个模型，正好分别对应这三项能力：

VLX-Fow是持续感知层：

传统视频AI怎么工作的？截帧、上传、问答，每次都是离散处理，观测有断档。VLX-Fow直接上流式视频输入架构，图像数据流不间断送进模型，持续感知，时序记忆也留下来了。它的实时性专注底层感知，不需要人工下指令触发，自己就能一直跑。

VLX-Seek是精准定位层：

市面上很多通用视觉大模型，只能告诉你画面里有什么，但没法告诉你那个东西具体在哪、有几个。VLX-Seek换了个思路，用区域指代机制，直接输出毫米级的精准空间锚点。这才是实操中真正需要的能力。

VLX-Go是行动输出：

传统视觉模型解析完画面，生成一堆文字指令，但硬件没法直接用。VLX-Go更进一步，直接输出设备能调用的导航航点，让机器人自主完成移动动作，实时反馈，延迟很低。

视频流持续灌进来，Flow负责“看懂”，Seek负责“找对”，Go负责“动起来”。这三块拼图拼在一起，才是完整的物理世界AI。

基准测试里，VLX用三组数据印证了一个趋势：参数规模和物理世界的真实表现，正在脱钩。

Seek-3B在目标检测基准MSCOCO val2017、复杂语义基准RefCOCO、开放词汇检测基准ODinW13，还有目标计数基准PixMo Count上，都大幅超过了Gemini 3.1 Pro和GPT-5这些旗舰大模型。用3B这么小的参数，达到了旗舰级的精度。

在机器人导航和跟踪任务上，Go（0.6B）用极小的参数实现了85.42%的高成功率，超越了参数量大它13倍的Qwen-RobotNa v-8B；同时以94.08%的跟踪率显著领先所有对比模型。这个数据说明，在动态目标跟随方面，它的视觉-运动协同能力非常强，也充分证明了专门针对端侧物理场景做架构设计，这条路是走得通的。

延迟方面，端侧推理只花0.1秒，云端推理通常要5秒以上。这50倍的差距，直接划出了系统“可用”和“不可用”的界线。

结果很明确：当模型必须跑在端侧、必须实时响应、必须自己决策时，“大”反而成了累赘。VLX的价值在于用更小的模型在端侧芯片上跑出更好的结果。它证明了“为场景设计模型”这条路，比“把通用模型硬塞进场景”高效得多。

二、给物理世界造一套“视觉中枢”

这么亮眼的成绩，根子在于架构层面的差异。

传统模型处理视觉信息，是“截帧-上传-提问-回答”的循环。拍张照片或者上传视频，问一句，答一句。本质上是离散的、被动的。很多模型现在靠长上下文来处理视频输入，说到底还是“离线看一遍”。

Om AI联汇提出的流式多模态，相当于给设备装了一套持续运转的“视觉中枢”。摄像头采集的视频流像水一样不断流进模型，模型持续接收、理解、记忆，形成不间断的感知流。用户或开发者通过提示词自由定义输出目标，这套中枢就能按需输出文本描述、空间锚点或者行动轨迹。

技术路径上，VLX的流式能力是专门为实时交互场景设计的。系统可以自主持续观察、精准锁定、立刻行动。两者应用场景不同，架构设计自然就分化了。

行业里的通用做法是先训练大参数模型，再通过量化、蒸馏等方法压缩到端侧。Om AI联汇走了另一条路。

据公司技术团队介绍，VLX从设计一开始，就是围绕端侧算力约束来做架构的。Flow采用Linear Attention机制替代标准Attention，保证视频流持续输入时显存不会爆；Seek用区域指代替代坐标生成，精度提高了，计算量还降下来了；Go采用短时航点预测，快速响应周围环境的变化。

三、不再纸上谈兵，Om AI联汇定义物理AI新范式

在这之前，物理AI一直卡在一个尴尬的位置：Demo惊艳，但量产乏力。VLX从一开始就是冲着落地设计的，而且已经大规模落地了：

具身智能领域：行业长期有个痛点：不同机器人平台的系统架构、传感器方案、执行机构高度异构，算法从A平台迁移到B平台，适配工作量巨大。VLX大脑具备跨平台能力，已经全面支持云深处、宇树等头部企业的端侧设备，开发者在不同机器人平台上的适配周期大幅缩短。
无人机领域：传统巡检靠飞手人工操作，或者飞完把视频带回来后台审核，又慢又费人力。搭载VLX的无人机有了自主视觉导航和精准目标锁定能力，能自己识别违章、避障、规划航线。巡检效率翻了好几倍，响应时间从小时级缩到秒级。
可穿戴设备领域：中国有超过1700万视障人士，市面上的辅助工具大多只是语音播报或者简单障碍物提醒，解决不了“我在哪、周围有什么、怎么走过去”这个连贯需求。Om AI联汇Homer平台旗下好马APP已经服务了近10万视障用户，通过AI助视眼镜帮他们安全避障、出行导航、空间寻物。

安防摄像头领域：客户不用换硬件，在边缘侧或轻量化网关里接入VLX，摄像头就能升级成24小时自主研判的AI哨兵。原有硬件资产不受影响，不用推倒重来，成本低得多。
AI PC领域：PC上的端侧AI一直停留在文字对话和简单图像生成，缺乏视觉理解和空间交互能力。VLX已经完成跟苹果、联想、惠普、英伟达四大头部品牌的端侧适配，给PC设备注入了实时视觉理解能力。
国产芯片方面：端侧AI的算力部署原来很依赖英伟达这些海外高端芯片，国产芯片受限于算力和生态，很难承载大参数模型。VLX针对算力约束做了专门优化，已经在华为昇腾、地瓜、RK3588这些国产平台上完成适配。

VLX的行业价值，在于验证了一条不同于数字AI的架构路径。

当行业还在比拼谁能把云端模型压得更小的时候，VLX选择了从端侧算力约束出发设计模型。测试数据说明这条路不需要等算力迭代就能落地，部署成本大幅压缩，实时响应能力提升了数十倍，用国产芯片也能跑得流畅。

与此同时，这套流式多模态路线已经覆盖了具身智能、无人机、可穿戴、安防、AI PC等多个场景。物理AI从“Demo展示”到“量产交付”的拐点，正在显现。而VLX系列模型向开发者开放体验平台，进一步降低了端侧智能应用的研发门槛，给产业链协同创新留下了很大的想象空间。

结语：用流式架构为物理世界重新设计AI

回到开头那个问题：物理世界，到底需要什么样的AI？

Om AI联汇用VLX系列模型给出了答案：用流式架构为物理世界重新设计AI。

这背后是Om AI联汇多年的布局和深耕。从2016年切入生成式对话技术，到2021年押注多模态赛道，再到2022年拿下国内首张多模态大模型测评证书，团队始终走在趋势前面，持续积累底层能力。

放眼整个物理AI赛道，行业从来都不缺愿景、概念和演示Demo。真正稀缺的，是能适配真实场景、稳定运行、能规模化落地的成熟系统。更重要的是，它得被百万级设备验证过。

VLX为物理AI的端侧化路径，提供了一个可参考的样本。

来源：https://www.zhidx.com/p/571697.html

ChatGPT

延伸阅读

补充最近整理过的热点入口。