这两天,AI领域最受瞩目的事件莫过于OpenAI正式发布了SearchGPT。然而令人意外的是,几乎在同时,开源版本便迅速登场。
来自港中大MMLab、上海人工智能实验室及腾讯的研究团队,推出了一个名为Vision Search Assistant(VSA)的模型,生动诠释了“开源迭代的速度”。VSA的设计思路极为简洁,且对硬件配置极为友好——仅需两张RTX 3090显卡即可完整复现。
简单来说,VSA是在视觉语言模型(VLM)的基础上巧妙集成了Web搜索能力。如此一来,模型内置的知识库不再“固化”,而是能够通过互联网实时更新,变得灵活且智能。当前,VSA已在通用图像上完成实验,可视化结果与量化指标均表现优异。当然,不同类别的图像各有特点,例如表格图像、医学图像等,未来完全可以针对特定场景构建更具专业性的VSA应用。
更值得期待的是,VSA的能力边界远不止图像处理。视频、3D模型、声音等领域均是未来可拓展的方向。可以说,VSA为多模态研究开辟了一条全新的路径。
让VLM处理未见过的图像与新概念
大语言模型(LLM)的普及,使得用户能够充分利用其零样本问答能力快速获取陌生知识。在此基础上,检索增强生成(RAG)等技术进一步提升了LLM在开放域问答中的表现。然而,视觉语言模型(VLM)在面对从未见过的图像或全新概念时,仍然难以从互联网中实时获取最新的多模态知识。
现有的Web Agent大多只是机械地检索用户问题,然后总结返回的HTML文本。这导致一个明显的缺陷:当任务涉及图像或其他视觉内容时,这些智能体往往“束手无策”,要么忽略视觉信息,要么处理效果不佳。
为破解这一瓶颈,研究团队提出了VSA。其本质是以VLM为基座的智能体,能够回答涉及未见图像或新颖概念的问题。它的工作流程非常接近人类解决问题的自然方式:先理解查询,再决定应关注图像中的哪些目标,并推断它们之间的关联;随后逐目标生成查询文本,根据搜索结果及推断的关系分析搜索引擎返回的内容,最后判断信息是否充足;若不足,则持续迭代,直至得出最终答案。
视觉内容描述
该模块的核心任务是提取图像中目标级别的描述以及目标之间的相关性。具体流程如下:
首先,利用开放域检测模型识别图像中值得关注的区域。接着,对每个检测到的区域,借助VLM生成对应的文本描述。最后,为了提升信息的全面性与准确性,VLM进一步关联不同视觉区域,从而获得更精确的整体描述。
举例来说,用户输入一张图片并附带问题。系统通过检测模型获取若干感兴趣区域,然后利用预训练的VLM模型分别描述这些区域的视觉内容。为使不同区域的信息能够相互关联,系统将这些区域的描述拼接起来,让VLM对原始描述进行修正。这样便得到了与用户问题高度相关且精准的视觉区域描述。
Web知识搜索:“搜索链”
Web知识搜索的核心是一个名为“搜索链”的迭代算法。其目标是为上述视觉描述获取全面的Web知识。
在VSA中,研究团队利用LLM生成与答案相关的子问题,该LLM被称为“规划智能体”。而搜索引擎返回的页面则由同一个LLM进行分析、筛选和总结,称为“搜索智能体”。通过这种机制,系统能够获得与视觉内容高度匹配的Web知识。
具体而言,搜索是针对每个区域的视觉内容描述分别进行的。在该模块中,同一个LLM模型扮演双重角色:决策智能体负责控制整个搜索链的流程,搜索智能体则专门与搜索引擎交互,筛选并总结网页信息。
以第一轮迭代为例:决策智能体先将当前问题拆分为若干搜索子问题,然后交由搜索智能体处理。搜索智能体获取每个子问题后,从搜索引擎中提取页面集合,再从中挑选出最相关的页面。对于这些选中的页面,搜索智能体会仔细阅读并总结内容。最终,所有子问题的总结汇聚到决策智能体处,由其总结出第一轮迭代后的Web知识。该过程反复进行,直至决策智能体认为当前Web知识足以回答原始问题,搜索链即停止。
协同生成
最后一步,基于原始图像、视觉描述和Web知识,利用VLM回答用户问题。整个流程清晰简洁:将三类信息融合,生成最终输出。
实验结果
开放集问答可视化对比
在实验中,团队将VSA与两个重磅模型——Qwen2-VL-72B和InternVL2-76B——进行了对比。结果一目了然:VSA生成的答案更新、更准确、更详实。
例如,在第一个测试案例中,VSA精准总结了2024年特斯拉公司的最新动态,而Qwen2-VL的信息仍停留在2023年,InternVL2则直接表示无法提供该公司的实时信息。
开放集问答评估
在开放集问答评估环节,团队邀请了10位人类专家,对7月15日至9月25日期间从新闻中收集的100个图文对进行评估,覆盖了当时所有的新颖图像和事件。
专家们从真实性、相关性和支持性三个维度进行打分。结果相当显著:与Perplexity.ai Pro和GPT-4-Web相比,VSA在所有三个维度上均遥遥领先。
事实性:VSA得分68%,远高于Perplexity.ai Pro的14%和GPT-4-Web的18%。这一差距表明VSA始终能提供更准确、更基于事实的答案。
相关性:VSA得分80%,在提供高相关度答案方面优势明显。相比之下,Perplexity.ai Pro和GPT-4-Web分别仅有11%和9%,显示出它们在保持网络搜索时效性方面存在显著短板。
支持性:VSA在提供充分证据和理由方面同样出色,得分63%,而Perplexity.ai Pro和GPT-4-Web分别仅为19%和24%。这些结果凸显了VSA在开放集任务中的卓越性能,尤其是在提供全面、相关且依据充分的答案方面。
封闭集问答评估
在LLaVA W基准上的封闭集评估包含60个问题,主要考察VLM在真实场景中的对话、细节和推理能力。
评估使用GPT-4o(0806)模型作为评判。基线模型为LLaVA-1.6-7B,其在两种模式下被评估:标准模式,以及一种简单使用Google图片搜索组件的“朴素搜索”模式。此外,还评估了配备搜索链模块的LLaVA-1.6-7B增强版。
结果如下:VSA在所有类别中均表现最强。具体而言,对话类别得分73.3%,相比LLaVA模型略有提升(+0.4%);细节类别得分79.3%,比表现最好的LLaVA变体高出+2.8%;推理类别更是猛涨了+10.8%,这表明VSA对视觉和文本搜索的高级集成极大地增强了其推理能力。最终,VSA的整体性能达到84.9%,比基线模型提高了+6.4%。结论很明确:VSA在对话和推理任务中均表现优异,在野外问答能力方面拥有显著优势。
