香港中文大学等联合提出视觉感知新范式

时间：2026-06-02 11:47

最近，一项由深圳循环区研究院、武汉大学与香港中文大学多媒体实验室联合开展的前沿研究，正式在预印本平台arXiv上发布，论文编号为arXiv:2605 12497。这项研究直击一个我们日常生活中频繁遇到，却长期让AI感到束手无策的深层难题。试着想象这样一个场景：好友发来一张热闹的派对合照，并询问“帮

最近，一项由深圳循环区研究院、武汉大学与香港中文大学多媒体实验室联合开展的前沿研究，正式在预印本平台arXiv上发布，论文编号为arXiv:2605.12497。这项研究直击一个我们日常生活中频繁遇到，却长期让AI感到束手无策的深层难题。

试着想象这样一个场景：好友发来一张热闹的派对合照，并询问“帮我找找今年奥斯卡最佳女配角在哪儿”。如果你对奥斯卡获奖情况并不了解，你的第一反应大概率是先掏出手机，搜索一下获奖者是谁，明确姓名与外貌后，再回到照片中仔细寻找。这个“先查询资料，再观察图像”的流程，对我们而言显得天经地义。然而，对于当前主流的AI视觉系统而言，这却是一道难以逾越的鸿沟——它们只会死盯着图片，缺乏“先上网搜索一下”的主动思维。

上述研究团队正是为了攻克“AI不会搜索资料再分析图像”这一核心瓶颈而发起攻关。为此，他们定义了一项全新的任务：“感知深度研究”，并搭建了一套完整的评测基准与解决方案。这相当于向整个AI领域抛出了一个具有挑战性的新议题：我们能否让机器像人类一样，首先通过搜索明确目标身份，再在图像中进行精确定位？

一、AI看图寻人，为何会在知识鸿沟前止步

要深入理解此项研究的价值，我们必须先审视当前AI视觉系统的主流运行模式。

目前的方法大致归为两类。第一类是“看图说话型”：系统接收一张图片和一句如“找到那辆红色的车”的指令，AI直接依据颜色、形状等视觉特征锁定目标。这好比考试只考察图形辨识，完全不涉及任何外部知识与常识。第二类则更为进阶，可称为“推理型”：系统查看一张图后被问及“找到那个能让女人站得更高的物品”。AI需调动训练过程中习得的常识，推理出“凳子”或“台阶”等答案，再到图中对应找寻。这类方法要求AI拥有丰富的“内在知识储备”。

然而，这两类方法共有一个关键前提：目标要么能仅凭视觉特征直接识别，要么能借助模型已有的常识推断出来。一旦这个前提不再成立——当目标身份隐藏在最新的新闻动态、冷门的人物关系或模型从未接触过的细节中时——现有方法便会集体失效。

论文中举了一个堪称“极具难度”的例子：向AI展示一张游戏主机摆放在桌面的图片，要求是“找到那个发布时附赠了与一款赛车游戏捆绑套装的设备，而那款赛车游戏的主角在1981年的游戏中曾用过另一个名字”。解答的链条是这样的：1981年的游戏是《大金刚》，主角当时被称为“Jumpman”，后来更名为“马里奥”；马里奥是《马里奥赛车》系列的核心角色；任天堂Switch 2发布时曾与《马里奥赛车：世界》捆绑销售。因此，答案指向Switch 2。这道题目，仅凭“看”是无法解答的，依赖常识库也可能不够，必须依靠多轮网络搜索来串联并推理出线索。

这正是“感知深度研究”意图解决的核心难题：它要求的并非只是简单描述“图里有什么”，而是先通过主动的网络搜索锁定目标身份，再将这个身份精准对应到图像中具体的像素位置。

二、WebEyes：一套专为“查完资料再找目标”设计的标准化评测体系

为了科学、系统地衡量这种复合能力，研究团队构建了一个名为“WebEyes”的数据集。你可以将其理解为一套专门考察AI“先搜索资料再看图像”能力的标准化考卷。

这套考卷的设计逻辑与众不同：它从具体的视觉实例出发，反向构造出需要外部知识才能解答的问题。数据集共包含120张图片，标注了473个目标物体实例，由此生成了645组独特的问答对，最终形成了1927道考题。内容覆盖六大类别：知名人物（占比23.68%）、标志性IP形象（27.06%）、流行文化IP（15.64%）、动漫角色（13.32%）、商品（12.69%）和车辆（7.61%），基本涵盖了日常生活中那些“可能需要查一下才知道是谁或是什么”的物体。

考卷特别设计了三种题型，从不同维度全面考察AI的综合能力：

1. 基于搜索的目标定位：提供一张图片和一段知识密集型的描述，AI必须输出目标在图中的精确边界框坐标。

2. 基于搜索的目标分割：要求更高，AI需要输出精确到像素级别的目标轮廓蒙版，就像用最精细的橡皮擦，只留下目标物体的独特形状。

3. 基于搜索的视觉问答：图中某个区域被红框标注，AI需要从四个选项中选出那个正确的描述，而正确选项中必然包含需要联网查证才能获得的知识。

这三种题型源于同一批标注数据。这意味着，对于同一个物体，AI需要证明自己既能找到它，又能精确勾勒其轮廓，还能依据搜索到的知识正确描述它——三重考核，层层递进，环环相扣。

构建这套考卷本身就是一项浩大的工程。团队从网络、新闻和社交媒体中收集了包含多个前景目标的图片，经过AI初筛与人工严格审核，剔除了低质量或遮挡严重的样本。接着，通过人工标注每个目标的轮廓蒙版和边界框，并由AI辅助生成视觉特征描述。最关键的一步是：系统为每个目标发起三轮链式网络搜索，如同侦探串联线索一般，重点收集近六个月内的非视觉信息（如最新动态、品牌关系、发布历史等）。最后，基于这些证据链生成问题，并刻意隐藏目标的直接名称和明显视觉特征，只留下需要深度推理才能破解的间接线索。

为了防止题目“放水”或流于表面，系统设置了自动过滤机制，淘汰那些仅靠常识或图片本身就能回答的候选问题，这一步筛掉了38.2%的样本。通过自动筛选的题目，再进入人工审核环节，检查证据准确性、目标唯一性等关键要素，又淘汰了49.2%。最终保留下来的每一道题，都拥有清晰、可追溯且严密的证据链。

与以往的数据集相比，WebEyes的独特价值在于它同时满足了多个严苛条件：既需要常识又需要实时网络知识；既考核目标定位，也考核精准分割和复杂问答；提供像素级的精细标注。过去的RefCOCO等数据集主要考察视觉推理，MMSearch等则侧重于纯文本搜索，而WebEyes首次将联网搜索与像素级视觉感知深度捆绑，提出了一个更完整、更贴近现实复杂度的全新挑战。

三、Pixel-Searcher：如侦探破案般的两阶段视觉感知流程

有了高难度的“考卷”，研究团队也提出了自己的“解题方案”——一个名为Pixel-Searcher的智能系统。它的工作逻辑很像侦探破案：首先调查线索锁定嫌疑人（目标）身份，再回到案发现场（图片）指认具体位置。

整个流程清晰地划分为两个核心阶段：

第一阶段：主动搜索与目标身份解析。 系统拿到问题与图片后，并不急于看图，而是先对问题进行分析拆解。如果问题涉及多步知识跳跃，系统会将其分解成一系列逻辑相扣的子问题。随后，系统进入“搜索-推理-判断”的循环：通过搜索引擎获取外部证据，推理现有证据是否足够充分，并判断当前对目标身份的最佳猜测。这个循环会持续进行，直到收集到充足证据或达到预设的搜索轮数。

此阶段最终输出的并非一段冗长的文字答案，而是一个结构化的“目标假设”。这个假设包含三个关键要素：目标的具体名称、其所属的视觉类别（如“人物”、“手机”），以及一组可以在图片中实际核验的关键视觉线索。这个结构化假设，成为了连接网络文字证据与视觉感知的关键桥梁。

系统还会主动验证这个假设的可靠性，检查目标是否可见、假设是否过于宽泛或与场景矛盾，一旦发现问题，会启动修复流程。

第二阶段：主动定位与工具调用。 系统使用第一阶段生成的“目标假设”（而非原始问题）来指导视觉定位。这一步至关重要，因为原始问题充满间接描述，而“目标假设”已将其转化为可直接用于视觉检索和执行的有效指令。

定位过程本身也是一个多步骤验证的精细流程。系统会生成多个候选区域，然后利用解析出的目标身份和关键视觉线索为每个区域打分，最终选出最匹配的那一个。对于目标定位任务，选中的区域即为最终答案；对于目标分割任务，该区域会被送入专门的图像分割模型（例如SAM3）生成像素级蒙版；对于视觉问答任务，流程则反向进行，系统解析每个选项涉及的实体，并判断哪个选项的描述与图中标注区域最匹配。

四、实验结果：搜索网络再寻目标，AI表现提升了多少

研究团队对多种主流的AI系统进行了全面测试，包括GPT-4o、Gemini等闭源商业模型，多种知名开源模型，以及他们自己提出的Pixel-Searcher方案。

在目标定位任务上，Pixel-Searcher在开源方案中表现最佳。以衡量预测框与真实框重叠度的核心指标IoU来看，基础模型Qwen3-VL-8B得分为26.81，而Pixel-Searcher将其显著提升至34.17，提升幅度约为27%。另一个衡量准确框住目标比例的Recall@0.5指标，也从32.61提升到41.30。提升最为显著的类别是动漫角色和标志性IP形象，这两类恰恰是最难凭外观直接区分、最依赖背景知识的类别。

在目标分割任务上，Pixel-Searcher同样是开源方案中的佼佼者，将基础模型的gIoU指标从35.78提升到39.17，cIoU指标从25.94提升到32.41。车辆、动漫和商品类别的提升尤为明显，这说明更准确的身份定位，确实能带来更精细的像素级分割结果。

在视觉问答任务上，整体准确率从36.34%提升至42.24%，在标志性IP和商品类别上表现出色。

不过，一个值得注意的现象是，即便是表现最好的开源方案Pixel-Searcher，与顶尖闭源商业模型（如Doubao-Seed-2.0-Pro）相比，仍存在明显差距。后者在目标定位上的IoU能达到35.69，在分割上的gIoU更是高达61.22。这清晰地表明，WebEyes所定义的任务依然极具挑战性，即使引入了联网搜索能力，距离人类水平或顶级模型的性能表现，仍有相当长的路要走。

五、问题出在哪里？失败的根源在于资料查找而非轮廓绘制

研究团队通过深入的消融实验和详尽的失败案例分析，揭示了一些关键且反直觉的发现。

消融实验通过逐步移除Pixel-Searcher的模块来评估每个部分的重要性。最关键的发现是：如果移除“直接候选区域”的生成与筛选步骤（即不让系统生成多个可能的位置框），模型的IoU会从34.17急剧下降至20.14，Recall@0.5从41.30跌至19.72，性能近乎腰斩。这证明了候选区域生成与筛选机制是整个流程的基石。当然，如果只有候选生成，而缺乏后续基于目标证据的验证，效果也会大打折扣——“仅直接定位”版本的IoU只有22.28。矛盾检测和参考图匹配等验证步骤，虽然单独贡献看似不大，但组合起来能带来稳定的性能增益，说明多重验证机制之间存在协同增效作用。

失败分析则更加深刻地指出了问题的瓶颈所在。团队仔细检查了389个失败案例，结论有些出人意料：其中约78%（304个）的失败源于搜索过程或实体解析出错，例如搜到了错误的证据，或将中间推理步骤误认为最终目标。约19%（75个）的失败是由于实体身份解析正确，但在图像中定位错了具体区域。仅有约3%（10个）的失败，是在正确找到区域后，生成像素蒙版时出了差错。

这个分布传达了一个极其明确的信号：当前系统的核心瓶颈，不在于“画轮廓画得有多准”，而在于“前期能不能把要找的对象搞清楚”。换句话说，如果能更精准地从网络获取证据、更可靠地解析出目标身份，并将其正确对应到图像实例，那么最终的定位和分割精度自然会水涨船高。这一发现为未来的研究指明了最值得投入精力的方向。

总而言之，这项研究完成了三件最关键的工作：定义了一个需要结合实时搜索与视觉感知的全新问题；构建了一套能精准衡量该问题难度的高质量基准数据集；并提出了一套能够部分解决该问题的创新方案，同时通过精细的诊断实验，精准地指出了当前性能的主要瓶颈所在。

目前的AI视觉系统，就像一个视力不错但知识相当匮乏的助手——眼力尚可，但知识库严重受限。WebEyes和Pixel-Searcher的探索表明，只有当视觉感知与主动的信息搜索能力真正实现深度融合，AI才有可能处理那些在现实中大量存在的、“需要先查网页才能看懂图”的复杂任务。全面解决这个问题虽然道阻且长，但前进的方向，已然清晰明朗。

对技术细节感兴趣的读者，可通过arXiv编号2605.12497查阅完整论文。

Q&A

Q1：WebEyes数据集里的问题到底有多难？普通AI模型真的完全无法应对吗？

A：WebEyes的问题被潜心设计为需要多步联网推理，例如通过品牌收购事件找到代言人，再对应到图中人物。仅使用不联网的纯视觉模型，准确率通常极低，部分模型在定位任务上的IoU得分甚至只有个位数。然而，联网搜索也并非万能钥匙，目前最好的开源方案Pixel-Searcher的整体IoU也仅在34分左右，这充分说明该数据集对现有AI系统而言，依然是一个相当大的挑战。

Q2：Pixel-Searcher为什么不直接简单组合现成的搜索引擎和图像识别模型，而要设计复杂的两阶段流程？

A：直接组合会不可避免导致“语义断层”：搜索引擎返回的是文本证据，而图像识别需要的是视觉特征。Pixel-Searcher的两阶段设计核心就是为了搭建起这两者之间的桥梁。第一阶段将文本证据浓缩为结构化的“目标假设”（包含名称、类别、视觉线索），第二阶段用这个假设而非原始问题去指导视觉定位和验证。这个“中间表示”是整个系统能够有效工作的关键，消融实验也证实，缺少其中任何一环，系统性能都会显著下降。

Q3：“感知深度研究”与现有的视觉问答、图像搜索任务本质上有何不同？

A：现有的视觉问答通常假设答案能从图片内容或模型内置知识中直接推导；图像搜索则是根据文本描述寻找相关图片。“感知深度研究”的特殊性在于：目标物体在图片中清晰可见，但识别它所需的关键信息却隐藏在图片之外的实时网络知识中，并且最终输出要求是图片中的精确像素坐标或轮廓，而非一段简单的文本答案。它要求AI同时具备主动搜索、多跳推理和像素级视觉感知三种核心能力，这在以往的任务设定中从未被如此严格和统一地要求过。

来源：https://www.163.com/dy/article/KT89GFKN0511DTVV.html

视觉感知

上一篇南京市声学领域跑出了一家隐形冠军企业 下一篇李彦宏AI新度量衡首胜黄仁勋

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。