本次查询:Late Interaction
中文解释:后期交互
常见场景:信息检索 / 语义匹配 / 推荐系统
一句话解释
Late Interaction 意为“后期交互”,是信息检索模型中的一种交互范式。它将查询和文档分别编码为独立的向量序列,仅在最后通过注意力或相似度运算让它们进行细粒度交互,而非在编码过程中就混合信息。
为什么会被关注
传统双塔模型虽然检索速度快,但查询和文档只在最后点积一个向量,丢失了大量交互细节;交叉编码器精度极高,但因逐对计算导致延迟过高无法用于召回。Late Interaction 恰好填补了这两者之间的空白——既能用向量索引进行快速粗排,又能通过后期交互取得接近交叉编码器的精度,因此受到搜索、推荐和问答系统的广泛关注。
核心逻辑
Late Interaction 的核心思想是:先分别对查询和文档进行编码(通常用Transformer)得到多个token级向量,然后将两组向量进行逐点交互(如余弦相似度矩阵),再通过池化(如MaxSim)得到最终的匹配分数。这与双塔模型的单向量对比不同,它保留了每个token的语义位置信息;与交叉编码器的早期拼接也不同,它避免了编码阶段的混合计算,从而支持离线预计算和倒排索引。
常见场景
典型场景包括搜索引擎的召回与粗排阶段,比如使用ColBERT作为第一轮候选生成的模型;也可用于推荐系统中的物品标题与用户查询的语义匹配,以及开放域问答中的段落选择。在需要兼顾响应速度和语义理解的垂直搜索(如电商、医疗)中,Late Interaction 正逐渐替代纯双塔模型。
容易混淆的点
容易与“早期交互”混淆:早期交互(如交叉编码器)在编码前就将查询和文档拼接,计算量随文档数线性增长,而 Late Interaction 的编码是独立的;也容易与“后期融合”混淆,后者是指多个模型结果的后期合并,而非模型内部的交互机制。此外,Late Interaction 并不等同于 ColBERT,后者只是其最具代表性的实现之一。
