清华开源LongCite如何增强大模型溯源能力_AI热点日报

清华开源LongCite如何增强大模型溯源能力

类型：热点整理2026-05-30

清华团队开源LongCite方案，包含评测基准、45k监督微调数据集、两个开源模型及完整数据生成流程。通过分步生成QA与引用、句子级提取及过滤策略提升数据质量，在长文本精准引用任务上效果显著。

在长文本生成场景中，如何让大模型准确引用来源，一直是工业界落地时最常被追问的能力点。最近，清华大学团队开源了一套名为 LongCite 的方案，包含评测基准、45k 监督微调数据集、两个开源模型，以及一套完整的数据生成流程。整体来看，思路清晰、效果扎实，值得深入分析。

清华开源LongCite，如何提高大模型的溯源能力？

项目最值得关注的部分，其实是数据生成的 pipeline——如下图所示，分为三步加一步过滤。为什么没有一步到位？团队的解释是：分步走能让数据更干净——先获取答案，再为答案配上引用，这样引用和回答不会相互污染。

从数据分布上看，中文占比更高——这对国内私有化部署场景而言，恰好是个利好。整体效果相比基线有明显提升，尤其在需要精准引用的长文本任务上，表现稳健可靠。

来源：https://www.53ai.com/news/OpenSourceLLM/2024090715432.html

ai 人工智能

补充最近整理过的热点入口。