Jina AI成功将LLM重排序器推理延迟从21秒大幅降至3秒_AI热点日报

Jina AI成功将LLM重排序器推理延迟从21秒大幅降至3秒

类型：热点整理2026-05-30

PE-Rank是一种基于大语言模型的重排序器，通过将段落编码为特殊标记输入LLM，大幅降低上下文窗口压力。性能与GPT-4相当，但延迟从21秒降至3秒，仅需训练一个双层MLP实现空间映射，显著提升重排序效率。

继Jina Reranker v2之后，Jina AI 再次开源了一款名为PE-Rank的新颖重排序器。该模型基于大语言模型，专门用于高效的列表式段落重排序。简而言之，它将文本编码为特殊标记再输入给 LLM，而非直接将原始文本塞入上下文窗口，从而大幅降低计算负担。

Jina AI将LLM Reranker延迟打下来了：21秒变3秒！

为什么 PE-Rank 值得关注

当我们谈论用大语言模型来做重排序时，核心优势在于：灵活的指令适配新任务、出色的零样本能力，以及利用上下文推理实现的信息整合。这些特性让 LLM 重排序一度被视为检索增强的最佳选择。

然而，实际应用中迟迟难以普及，主要源于几个关键瓶颈：

上下文长度限制：例如，重排 100 个文档，每个文档 1000 个 token，LLM 的上下文窗口立即被撑到 10 万 token 以上，并非所有模型都能承受。
大海捞针效应：信息在超长上下文中被稀释，排在中间的关键内容容易被模型忽略，导致性能大幅波动。
提示注入风险：查询和指令被候选文档覆盖或干扰，输出可靠性下降。
输出格式不稳定：让 LLM 稳定输出如“d1 > d3 > d2 > d7”这样的排序结果并不容易，语法错误、信息冗余、格式混乱等问题层出不穷。

这些问题叠加，导致 LLM 重排序在高延迟、低稳定性的场景中难以真正落地。

PE-Rank 的核心思路

PE-Rank 的解决方案非常直接：利用嵌入模型将每个段落编码成一个特殊标记，替代原始文本输入给 LLM。这样一来，LLM 的输入变为“指令 + 查询 + 一串段落嵌入标记”，上下文窗口的压力瞬间释放。

训练数据格式（学习排名阶段）

这种思路与软提示（soft prompt）有些相似，但存在一个关键差异：外部嵌入模型（如 Jina 或 BGE）生成的向量与 LLM 自身的标记嵌入不在同一个空间。为弥合这一差距，PE-Rank 冻结了嵌入模型和 LLM，仅训练一个双层的多层感知器（MLP）进行空间映射。这层映射的代价极低，却能高效实现两个世界的顺畅沟通。

两阶段排名范式下的 PE-Rank 概览：(a) 检索阶段，获取 n 个段落的嵌入；(b) LLM 的前向传递过程；(c) 列表式解码。

那么，如何微调 LLM？标准的有监督微调（SFT）可行吗？实际上并不理想——因为 LLM 的输出空间被限制在特殊的段落嵌入标记上，传统 SFT 无法直接应用。PE-Rank 采用组合两种损失函数的方案：ListMLE，用于最大化生成下一个最相关段落标记的概率；以及上下文 ListMLE，进一步基于原始内容进行条件化。这套组合策略使模型学会了在嵌入空间中完成元素之间的真正排序推理。

两种训练数据及学习排名过程说明

效果评测：三个关键结论

以 Mistral-7B-Instruct-v0.2 作为骨干 LLM，搭配 Jina-embeddings-v2 或 BGE-v1.5 作为外部嵌入，PE-Rank 取得了非常亮眼的结果：性能与直接将原始文档输入 GPT-4（即 RankGPT4）相当，但延迟仅为后者的六分之一——总时间成本从 20 秒降至 3 秒。若仅重排前 20 个候选项，单个查询的延迟可进一步压缩到 0.5 秒，对线上场景而言已是相当实用的水平。

TREC DL 和 BEIR 上重排前 100 段的结果（NDCG@10）。Ret 表示第一阶段使用的检索模型。

推理过程中，重排前 100 名候选者各阶段的延迟对比

另一个值得关注的发现是：无论底层检索器是 BM25、Jina 还是 BGE，PE-Rank 都能稳定提升它们的性能。有趣的是，尽管 BGE 在 MTEB 上的表现优于 Jina，但当用它重排 BM25 的检索结果时，三个不同数据集上的表现却始终低于 Jina 嵌入。这一现象揭示了一个常被忽视的道理：在通用嵌入基准测试中得分高的模型，放到具体重排场景中未必具备优势。至少从当前结果来看，Jina 嵌入在该特定任务上展现了更强的扩展性。

参考链接：  
https://github.com/liuqi6777/pe_rank  
https://arxiv.org/pdf/2406.14848  
Leveraging Passage Embeddings for Efficient Listwise Reranking with Large Language Models

来源：https://www.53ai.com/news/LargeLanguageModel/2024070997654.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。