游乐游手机版
首页/AI热点日报/热点详情

Om AI第二弹VLX-Seek:3B小模型细粒度感知反超Gemini

类型:热点整理2026-06-29
VLX-Seek以3B参数规模,通过将物理实体转化为regiontoken的机制,将定位任务转为候选区域检索,在MSCOCO、开放词汇检测、指代表达理解与实例计数等任务上超越GeminiPro等大模型,有效解决端侧VLM细粒度定位不准的难题。

Om AI 发布 VLX-Seek:3B 小模型如何在细粒度视觉任务上反超 Gemini Pro?

端侧视觉语言模型(VLM)长期面临一个核心矛盾:模型能「看懂」画面内容,却往往「看不准」具体目标的位置。Om AI 联汇发布的 VLX-Seek 正是为解决这一矛盾而生——作为 VLX 端侧流式多模态模型系列的第二层能力,它以 3B 参数的规模,在多项细粒度视觉感知任务上超越 Gemini 3.1 Pro 等大模型,实现了精准定位的新突破。

1. VLX-Seek 的核心能力:终结 VLM 的「看懂却看不准」难题

在传统的图片问答中,模型输出“画面里有人”“桌上有杯子”即可视为完成理解。但一旦进入实时视觉场景——比如跟随、巡检、预警或导航——问题会立刻变细:

  • 画面里有多个人,究竟跟谁?
  • 桌上有几个杯子,用户指的是哪一个?
  • 目标被遮挡时,边界还能否保持精准?
  • 用户给出复杂语义描述(例如“左边第二个穿黑色衣服的人”),模型能否理解并准确落到具体目标上?

VLX-Seek 专门应对这些场景,它在 VLX 体系中属于 精准定位层,擅长处理 VLM 看得懂却框不准、传统小模型能框准却难以理解复杂语义目标的问题。

来源:https://www.53ai.com/news/MultimodalLargeModel/2026062834790.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。