游乐游手机版
首页/AI热点日报/热点详情

清华开源LongCite如何增强大模型溯源能力

类型:热点整理2026-05-30
清华团队开源LongCite方案,包含评测基准、45k监督微调数据集、两个开源模型及完整数据生成流程。通过分步生成QA与引用、句子级提取及过滤策略提升数据质量,在长文本精准引用任务上效果显著。

在长文本生成场景中,如何让大模型准确引用来源,一直是工业界落地时最常被追问的能力点。最近,清华大学团队开源了一套名为 LongCite 的方案,包含评测基准、45k 监督微调数据集、两个开源模型,以及一套完整的数据生成流程。整体来看,思路清晰、效果扎实,值得深入分析。

清华开源LongCite,如何提高大模型的溯源能力?

项目最值得关注的部分,其实是数据生成的 pipeline——如下图所示,分为三步加一步过滤。为什么没有一步到位?团队的解释是:分步走能让数据更干净——先获取答案,再为答案配上引用,这样引用和回答不会相互污染。

  • QA 数据生成:让大模型基于给定的长篇文本,自动构建相关的问题与答案。
  • 块级引用生成:对文本进行分块,为每个块打上引用标记,然后结合问题和答案,生成带有引用标注的 chunk 级 QA 数据。
  • 句子级引用提取:从每个 chunk 的引用中,进一步抽取出支撑每个具体陈述的句子,形成更细粒度的引用。
  • 过滤:剔除那些引用数量不足的样本,确保数据质量。

从数据分布上看,中文占比更高——这对国内私有化部署场景而言,恰好是个利好。整体效果相比基线有明显提升,尤其在需要精准引用的长文本任务上,表现稳健可靠。

来源:https://www.53ai.com/news/OpenSourceLLM/2024090715432.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。