让多模态检索超越SOTA！ReCALL框架化解生成式与判别式的范式冲突

首页

热心网友

转载

2026-04-14

ReCALL团队投稿量子位 | 公众号 QbitAI

把生成式大模型拿去当检索器用，是不是有点大材小用，效果还总不尽如人意？

按理说，多模态大模型（MLLM）拥有强大的图文理解和逻辑推理能力，用它来处理图像检索，特别是组合图像检索（CIR）这类复杂任务，本该是降维打击、手到擒来。

但现实却狠狠打了我们的脸。一旦强行把生成式大模型改造成判别式检索器，模型就会出现明显的“水土不服”，甚至发生能力退化——连原本能轻松解决的问题，现在都频频出错。这种生成式与判别式之间的“范式冲突”，已然成了大模型向检索领域落地的主要障碍。

现在，这个行业难题终于被攻破了。来自AI国家队紫东太初团队与新加坡国立大学的研究人员，联手提出了全新的ReCALL框架。这个框架的核心，是一套独创的“诊断-生成-校准”闭环体系，它从根源上化解了范式冲突，让大模型在保留其原生细粒度推理能力的同时，成功转型为高效的检索器。

这项成果已被计算机视觉顶会CVPR 2026正式录用。在CIRR、FashionIQ等主流基准测试中，ReCALL全面刷新了SOTA性能。更重要的是，它为大模型在下游任务中实现“能力无损适配”开辟了一条全新路径，为多模态大模型在垂直领域的深耕打下了坚实基础。

行业痛点：范式冲突致大模型检索“智能倒退”

问题到底出在哪？为什么精明的MLLM一做检索就容易“翻车”？研究团队直指要害：根源在于“范式冲突”。

原生的大模型习惯了生成式范式，它依靠一步步的链式思考来理解图像中那些细微的视觉关联。然而，现有的检索适配方法大多采用判别式范式，粗暴地将这种高维、复杂的思考过程压缩成一个单一的向量，然后拿去计算相似度。

这种生硬的转换，直接引发了一个致命后果——能力退化。

上图左侧的案例就很能说明问题。面对“地板上的两只同品种狗”这种需要细致辨别的查询，原生大模型通过视觉问答可以轻松锁定目标。但经过传统方法微调后的检索器版本，却完全丧失了这种细粒度的定位能力，找出来的全是错误答案。

定量数据更加触目惊心：在那些原生大模型本来能100%答对的样本子集上，微调后的检索器表现一落千丈。在CIRR数据集上，其R@1指标暴跌至62.33%；在FashionIQ数据集上，更是掉到55.80%。这哪里是学会了新技能，分明是把自带的“推理天赋”给弄丢了！

破局之道：ReCALL四阶段校准框架

既然能力退化是因为初期的检索微调把模型“带偏了”，那怎么把它“拉回正轨”？

研究团队给出的答案是ReCALL框架，其核心思想颇为巧妙：利用大模型原生的推理能力，去纠正检索空间中的认知盲区。整个流程被严谨地设计为四个阶段。第一阶段完成了检索器的初始化，同时也暴露了退化问题；后续三个阶段，则构成了一套精密的“诊断-生成-打磨”校准管线：

Stage 1：基础检索适配。为了让生成式大模型具备基础的图文检索功能，第一步自然是进行标准微调，将其转化为一个基础检索器。这一步虽然赋予了模型判别能力，但也正是这种“单向量压缩”的暴力操作，为后续的能力退化埋下了伏笔。

Stage 2：自我诊断。老话说得好，“错题本是最好的老师”。让基础检索器在训练集上跑一遍，专门收集那些它“判错”的样本。这些能够高分迷惑检索器的负样本，通常与正确答案只有毫厘之差，它们恰恰就是模型认知最模糊、能力退化最严重的“盲区”。

Stage 3：生成校正。拿到这些“错题”后，研究团队没有简单地让原生大模型重新描述图片，而是设计了一套逻辑严密的链式思考诱导机制。具体来说，这个“讲题”过程被拆解为两个关键步骤：

① 意图分解与验证：大模型首先将原始的修改指令拆解成多个最细粒度的“原子意图”，然后逐一比对参考图和错误答案图，精准定位究竟是哪一个意图在错图中被违背了。

② 最小编辑合成：抓住矛盾点后，大模型会保留所有依然成立的意图，仅仅重写被违背的部分，“打补丁”式地合成出一条全新的、指向错误答案图的修改指令。

通过这种精巧的设计，框架自动生成了从“参考图”到“错图”的全新纠错三元组。这种文字上的“极小幅编辑”，在视觉层面恰好对应了目标图与强干扰错图之间那种微妙差异，从而为检索模型提供了极其明确、高密度的细粒度监督信号。

更重要的是，这种严格遵循“最小编辑原则”的生成方式，有效避免了文本的随意发散，最大程度保证了新构建的训练数据与原始数据集在分布上的一致性。最后，再经过一道视觉问答级别的语义一致性过滤，剔除幻觉和噪声，确保输送给模型的“纠错信号”既精准又可靠。

Stage 4：针对性打磨。有了精确的纠错指令，最后一步就是通过分组对比学习来完成模型的进化。框架会将原始查询和对应的纠错查询打包在同一个批次中进行“对冲”，配合双重优化目标，迫使检索器去清晰分辨那些极其细微的视觉-语义边界，最终将原生大模型的细粒度推理能力完美内化到自身的向量空间中。

正是这一套组合拳，让检索器不仅找回了丢失的推理能力，还将其牢固地整合进了自己的判别体系。

实测成绩：全场景刷新SOTA，细粒度检索能力拉满

ReCALL框架的有效性，在各大主流基准测试中得到了充分验证。

在开放域复杂数据集CIRR上，ReCALL创造了55.52%的R@1新SOTA记录，相比基线模型实现了8.38%的相对提升。而在专门考察细粒度区分能力的子集上，其表现更是达到了惊人的81.49%。在考验极致细节的FashionIQ时尚数据集上，即便面对高度相似的服装干扰项，ReCALL依然取得了最佳表现，平均R@10达到57.04%。