Om AI第二弹VLX-Seek：3B小模型细粒度感知反超Gemini_AI热点日报

Om AI第二弹VLX-Seek：3B小模型细粒度感知反超Gemini

类型：热点整理2026-06-29

VLX-Seek以3B参数规模，通过将物理实体转化为regiontoken的机制，将定位任务转为候选区域检索，在MSCOCO、开放词汇检测、指代表达理解与实例计数等任务上超越GeminiPro等大模型，有效解决端侧VLM细粒度定位不准的难题。

Om AI 发布 VLX-Seek：3B 小模型如何在细粒度视觉任务上反超 Gemini Pro？

端侧视觉语言模型（VLM）长期面临一个核心矛盾：模型能「看懂」画面内容，却往往「看不准」具体目标的位置。Om AI 联汇发布的 VLX-Seek 正是为解决这一矛盾而生——作为 VLX 端侧流式多模态模型系列的第二层能力，它以 3B 参数的规模，在多项细粒度视觉感知任务上超越 Gemini 3.1 Pro 等大模型，实现了精准定位的新突破。

1. VLX-Seek 的核心能力：终结 VLM 的「看懂却看不准」难题

在传统的图片问答中，模型输出“画面里有人”“桌上有杯子”即可视为完成理解。但一旦进入实时视觉场景——比如跟随、巡检、预警或导航——问题会立刻变细：

画面里有多个人，究竟跟谁？
桌上有几个杯子，用户指的是哪一个？
目标被遮挡时，边界还能否保持精准？
用户给出复杂语义描述（例如“左边第二个穿黑色衣服的人”），模型能否理解并准确落到具体目标上？

VLX-Seek 专门应对这些场景，它在 VLX 体系中属于 精准定位层，擅长处理 VLM 看得懂却框不准、传统小模型能框准却难以理解复杂语义目标的问题。