Om AI 发布 VLX-Seek:3B 小模型如何在细粒度视觉任务上反超 Gemini Pro?
端侧视觉语言模型(VLM)长期面临一个核心矛盾:模型能「看懂」画面内容,却往往「看不准」具体目标的位置。Om AI 联汇发布的 VLX-Seek 正是为解决这一矛盾而生——作为 VLX 端侧流式多模态模型系列的第二层能力,它以 3B 参数的规模,在多项细粒度视觉感知任务上超越 Gemini 3.1 Pro 等大模型,实现了精准定位的新突破。
1. VLX-Seek 的核心能力:终结 VLM 的「看懂却看不准」难题
在传统的图片问答中,模型输出“画面里有人”“桌上有杯子”即可视为完成理解。但一旦进入实时视觉场景——比如跟随、巡检、预警或导航——问题会立刻变细:
- 画面里有多个人,究竟跟谁?
- 桌上有几个杯子,用户指的是哪一个?
- 目标被遮挡时,边界还能否保持精准?
- 用户给出复杂语义描述(例如“左边第二个穿黑色衣服的人”),模型能否理解并准确落到具体目标上?
VLX-Seek 专门应对这些场景,它在 VLX 体系中属于 精准定位层,擅长处理 VLM 看得懂却框不准、传统小模型能框准却难以理解复杂语义目标的问题。
