DaPT双流框架:突破多语言RAG的杀手级技术详解
DaPT框架通过创新的双路径并行推理机制,成功解决了多语言多跳问答中的核心挑战。它不仅构建了首个系统的多语言多跳问答评估基准,还提出了一种能有效利用LLM英文理解能力同时保留源语言语义的实用方法。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
检索增强生成(RAG)技术在处理英文多跳问答上已取得显著进展,但在真实世界的应用中,我们常常需要处理跨语言的查询和文档。这就暴露了当前RAG系统的两大痛点:
缺乏评估基准:没有标准的多语言多跳问答数据集来系统评估模型性能。过度依赖英文理解:现有方法严重依赖LLM强大的英文语义理解能力,在跨语言场景中效果大打折扣。针对这些问题,本文提出了DaPT(Dual-Path Framework),一个创新的多语言RAG框架,并配套构建了包含五种语言的多语言多跳问答数据集。
DaPT框架核心思想
DaPT的核心创新在于同时利用源语言和英语进行并行推理,然后融合两条路径的子问题图,形成更强大的双语推理结构。整个框架可分为三个主要阶段:
图片
阶段一:并行规划
输入:源语言查询(如中文)及其英文翻译过程:分别将两个版本的查询分解成子问题图(每个节点是一个单跳问题,边表示依赖关系)输出:两个独立的子问题图:源语言图(Gₗ)和英文图(Gₑₙ)阶段二:节点融合
这是DaPT最巧妙的部分。通过以下步骤将两个子问题图融合:
识别关键节点:计算两个图中所有节点对的嵌入相似度,找到相似度最高的节点对设置阈值:只有相似度超过预设阈值(τ=0.8)的节点对才会被融合融合操作:将英文节点整合到源语言节点中,形成双语节点,并重定向所有边拓扑排序:对融合后的图进行排序,确定子问题的解决顺序阶段三:双语检索与回答
按照拓扑排序顺序逐步解决子问题:
动态查询构建:将前一个子问题的答案与当前子问题结合,形成新的检索查询双语检索:对于双语节点,同时从源语言和英文语料库中检索答案验证与选择:使用轻量级LLM验证两个候选答案的一致性,优先选择源语言答案自纠正机制:如果验证失败,则重新生成答案实验结果
论文在三个主流多跳问答数据集(HotpotQA、2WikiMultiHopQA、MuSiQue)上进行了全面评估,结果显示:
主要发现
现有RAG系统存在严重的语言不平衡:HippoRAG2在英文上表现优异(EM得分54.0),但在泰语等低资源语言上性能大幅下降(下降59.8%)DaPT显著提升多语言性能:相比最强基线HippoRAG2,DaPT在HotpotQA上平均提升6.8%,在更具挑战性的MuSiQue上提升15.5%性能对比表格
注:表格展示的是各方法在所有语言上的平均EM得分
图片
消融研究
通过移除DaPT的不同组件,验证了各部分的必要性:
移除分解阶段:性能下降16.2%,证明子问题分解至关重要移除融合阶段:性能下降1.9%,说明节点融合虽提升有限但仍有价值简单翻译方案:性能下降3.2%,证明DaPT比简单的"翻译-检索-翻译回"策略更有效
图片
总结
DaPT框架通过创新的双路径并行推理机制,成功解决了多语言多跳问答中的核心挑战。它不仅构建了首个系统的多语言多跳问答评估基准,还提出了一种能有效利用LLM英文理解能力同时保留源语言语义的实用方法。
DAPT: A DUAL-PATH FRAMEWORK FOR MULTILINGUAL MULTI-HOP QUESTION ANSWERINGhttps://arxiv.org/pdf/2603.19097https://github.com/f6ster/DaPT
热门专题
热门推荐
3月30日消息,今晚除了手机之外,vivo还发布了全新的旗舰平板——vivo Pad6 Pro。行业首发13 2英寸4K原彩屏,分辨率3840×2160,347PPI,支持1-144Hz LTPS自
WPS表格中提取括号内容有四种方法:一、单对英文小括号用FIND+MID;二、中英文括号通用需SUBSTITUTE预处理;三、多对括号取最后一对需REVERSESTRING反向查找
3月30日,南京新街口核心商圈,苏豪大厦一楼广场上机器人迎宾起舞,充满科技感。由苏豪资产运营集团与南京新街口金融商务区管理委员会(以下简称“新街口管委会”)共同打造的“数智苏豪”新街口OPC社区揭牌
电 动 知 家消 息,近日,据外媒报道,据福特汽车日前发布的一份文件,该公司首席执行 官吉姆·法利2025年的总薪酬大幅增长了11%,达到约2752万美元(约1 9亿元人民币),这是其自2020年末
白宫里,一台人形机器人缓步走入东厅,与美国“第一夫人”并肩亮相,动作仍带着明显的机械感;仅仅一天后,国会山上,这种“会走路的机器”却被划为潜在安全威胁,写进立法提案。这是上周美国上演的荒诞一幕。两党





