早稻田大学等机构揭示跨语言深度研究致命盲点

时间：2026-06-20 14:20

多机构研究发现，深度研究智能体在跨语言场景存在致命盲点：证据与问题语言不一致时，AI正确率从64 70%降至42 29%，检索召回率降20个百分点，且更盲目自信。即便提供翻译后的正确证据，表现仍不及英文，暴露检索与理解双重瓶颈。

这项由早稻田大学、西北大学、理化学研究所AIP中心、Snowflake公司、犹他大学、杜克-新加坡国立大学医学院及东京大学联合开展的研究，于2026年6月13日以预印本形式发布于arXiv平台，论文编号为arXiv:2606.15345。对此领域感兴趣的读者，可以通过该编号查询并获取完整的研究论文。

一、侦探找错了线索语言

假设你雇用了一位只懂英语的私家侦探，负责调查一起案件。然而，案件中的所有关键证据——包括目击者陈述、现场照片说明以及警察记录——却全部使用日语撰写。那么，这位侦探能够成功破案吗？

这个假设场景，恰恰真实反映了当前最先进AI研究助手所面临的困境。这些被称为“深度研究智能体”的AI系统，就像一台精通搜索的机器调查者：它们能够主动浏览网络信息、筛选过滤文件，最终将拼凑出的证据整合成一个完整的答案。学术界已经开发出专门测试这类AI调查能力的评估标准——其中最权威的一套被称为BrowseComp-Plus，其中包含大量需要多步骤网络搜索才能找到答案的复杂问题，且所有题目和证据文件均为英文。

问题在于，现实世界中的信息从来都不是单一语言的。互联网上充斥着中文、法语、日语、斯瓦希里语等多种语言的内容。当AI调查者拿到一个英文问题，却必须从日语证据中寻找线索时，它还能成功破案吗？

这正是上述多机构研究团队希望解答的关键问题。他们创建了一套全新的测试集——XBCP（跨语言BrowseComp-Plus，Cross-lingual BrowseComp-Plus的缩写），专门用于衡量AI系统在证据语言与问题语言不一致时的表现。这是学术界首次针对“跨语言深度研究”场景构建的系统性评估基准，填补了这一领域长期存在的空白。

二、搭建测试场：如何构建一套多语言侦探考题

研究团队的核心策略其实相当巧妙。他们并未从零开始设计题目，而是直接借用了BrowseComp-Plus现有的题库框架——这套题库包含830道英文问题，以及配套的5040份经过人工验证的英文证据文件。研究团队的工作是，将这些证据文件“翻译成其他语言”，而问题和标准答案则保持英文不变。

具体来说，他们选择了12种语言进行测试。高资源语言（即互联网上内容丰富、AI对其理解较好的语言）包括中文、英文、法文、德文、日文、韩文、葡萄牙文和西班牙文，共计8种。低资源语言（互联网上内容稀缺、AI掌握程度有限的语言）则选择了斯瓦希里语、沃洛夫语、约鲁巴语和祖鲁语这4种非洲语言。翻译工作由强大的GPT-5.4翻译模型完成，翻译过程中要求完整保留证据文件的标题、内容及专业术语，仅保留网址、电子邮件地址、数学公式和代码块不变。

翻译完成后，研究团队还专门聘请了专业的双语评审人员对翻译质量进行核查。评审维度包括准确性、流利度和完整性，每项满分5分，并对11种非英文语言各抽取200份样本进行评分。结果显示，所有语言的平均分均在4.0分以上，表明翻译质量足以支持受控实验，尽管仍存在一些细微的翻译瑕疵。

整套XBCP测试集包含两种配置。第一种是“跨语言设置”：每道题的证据文件被分配到某一种语言，同一道题的所有证据均使用同一种语言。这样能够测试AI在面对“全日语证据”或“全法语证据”时的表现差异。第二种是“多语言设置”：5040份证据文件被随机均分到12种语言中，每种语言各得420份，让AI同时面对混杂着多种语言的证据库。这两种配置从不同角度考察了AI侦探的跨语言能力。

三、登场侦探与搜索工具

研究团队选择了4位“AI侦探”参与测试，分别是GPT-OSS-20B、GPT-OSS-120B、QWEN3.6-35B-A3B和DeepSeek-V4-Pro。这些名称看似晦涩，但可以将其理解为四位能力各异的调查者：数字越大、参数越多的模型，其推理能力通常越强。

仅有侦探还不够，还需要搜索工具——即“检索器”，帮助侦探在海量文件中找到相关证据。研究团队测试了5种检索器：一种是传统的关键词匹配方法BM25（类似于图书馆的索引卡系统，只能识别文字，无法理解含义）；另外四种则是现代“语义理解”型检索器，包括QWEN3-Embedding-4B、QWEN3-Embedding-8B、Multilingual-E5-Large和Arctic-Embed-L-2.0。这些语义检索器经过大量多语言训练，理论上能够跨语言理解含义，从而找到语言不同但语义相近的内容。

每位侦探搭配每种搜索工具，在三种条件下分别破案：原始英文证据库（作为基准参照）、多语言设置、跨语言设置。评估标准包括最终答案的正确率、证据被找到的比例、搜索次数、答案可信度的自我评估准确度，以及引用证据的可靠性。

四、破案数量：数字背后的冲击

实验结果用一个词来形容就是：惨不忍睹。

首先来看最强选手DeepSeek-V4-Pro搭配最佳语义检索器QWEN3-Embedding-8B的表现。在原始英文证据库中，其正确率达到64.70%——这已经是所有测试组合中的最高成绩。然而，当证据被翻译成其他语言后，多语言设置下的正确率跌至48.80%，跨语言设置下更是降至42.29%。换句话说，仅仅因为证据被翻译，这位最强侦探的破案率便下降了大约15到22个百分点。

其他侦探的情况更为糟糕。以GPT-OSS-20B为例，搭配同一检索器时，在英文证据库中正确率为32.89%，而多语言设置下则骤降至12.05%，跌幅接近21个百分点。如果使用传统的关键词检索器BM25，情况更为惨烈——原本15.18%的正确率，在多语言设置下直接跌至3.13%，基本等同于随机猜测。

这里有一个关键细节值得关注：在多语言设置与跨语言设置之间，大多数侦探的表现差距并不显著。这说明问题的核心不在于“证据是一种语言还是多种语言混杂”，而在于“证据语言与问题语言不一致”这一事实。只要存在语言不匹配，破案率就会大幅下降。

与此同时，检索器找到正确证据的能力（证据召回率）也同步下滑。以GPT-OSS-120B搭配QWEN3-Embedding-8B为例，在英文环境下，证据召回率为48.19%；但在多语言和跨语言设置下，则均降至28%左右。语义型检索器虽然远优于关键词检索器——BM25在翻译后的环境中几乎找不到任何有用证据——但即便是最好的语义检索器，其证据召回能力也损失了将近20个百分点。

五、侦探不仅失误更多，还变得盲目自信

除了破案率下降，研究团队还发现了一个更令人担忧的现象：当证据是外语时，AI侦探不仅能力下降，还变得更加“不知道自己不知道”。

在这项研究中，“校准误差”是衡量AI自我评估准确度的指标。简单来说：AI在回答后会给出一个“我有几成把握”的估计，如果它说“我90%确定”，那么最终实际答对的概率也应接近90%。然而，当证据是外语时，AI侦探的校准误差显著增大——它们表现出很高的自信，但实际却答错了。

以GPT-OSS-120B为例，搭配QWEN3-Embedding-8B时，在英文证据库中校准误差为42.50%，而在多语言设置下飙升至57.78%，跨语言设置下则为57.45%。这意味着，面对翻译版证据时，这位侦探不仅破案率下降，还变得更加盲目自信。

更值得注意的是，面对外语证据，侦探们的搜索次数普遍增加，但额外的搜索努力并未弥补损失的破案率。仍以GPT-OSS-120B为例，在英文环境下平均搜索25.35次，而在多语言和跨语言环境下分别增加到30.01次和30.45次——多搜索了将近5次，但答对率反而从38.07%跌至14-15%左右。更多的努力并未带来更多的收获，额外的搜索只是在做无用功。

六、引用证据也出现问题：找到了却未使用

研究还专门检查了AI侦探在撰写最终答案时，是否正确引用了找到的证据文件。这一指标被称为“引用可靠性”，包括引用覆盖率、引用精确度和引用召回率。

结果显示，当证据是外语时，这三个指标全部下降。以DEEPSEEK-V4-PRO为例，在英文环境下，引用覆盖率为88.07%，引用精确度为85.80%；而在多语言设置下，分别跌至79.64%和79.64%；跨语言设置下则为74.46%和70.76%。语言不匹配不仅导致侦探找不到证据，即便找到了，也更可能在撰写报告时忘记引用，或错误地引用了不相关的文件。

研究团队还深入分析了引用出错的类型，发现了两类主要错误：第一类是“映射失败”——侦探确实找到了正确的证据文件，但在最终答案中引用了其他不相关的文件；第二类是“根本未找到”——检索器从头到尾都未能找出正确的证据文件，侦探只能引用英文的无关文件来凑数。在翻译后的环境中，“根本未找到”这类错误的比例明显上升，表明检索器的失败是引用质量下降的主要原因。

七、终极实验：将答案直接交给侦探，结果仍然不对

为了厘清究竟是“找证据”环节出了问题，还是“理解证据并撰写答案”环节出了问题，研究团队设计了一个终极诊断实验——“神谕检索”。在这个实验中，研究人员直接将所有正确的证据文件输入AI侦探的窗口，无需侦探进行搜索，然后观察其能否正确作答。

该实验的结果令人深思。当正确证据被直接提供时，侦探的表现大幅提升：在英文证据条件下，GPT-OSS-20B的正确率从32.89%飙升至90.36%，GPT-OSS-120B从38.07%飙升至94.70%，QWEN3.6-35B-A3B从38.55%飙升至93.86%。这有力地证明了“找证据”是目前最大的瓶颈——只要能解决搜索问题，正确率本可以大幅提高。

然而，关键发现是：即便将正确证据直接交给侦探，当这些证据是翻译版时，其表现仍低于英文证据条件。以GPT-OSS-20B为例，“神谕检索+英文证据”的正确率为90.36%，而“神谕检索+跨语言证据”的正确率仅为77.59%，相差近13个百分点。这13个百分点的差距，无法再用“找不到证据”来解释——证据明明摆在眼前，侦探却仍然答错。

这揭示了第二个独立的瓶颈：AI侦探在阅读理解非英文证据、将信息与英文问题对应、再用英文撰写答案的过程中，本身就存在能力上的损耗。

研究团队进一步进行了更细致的对照实验：将问题、系统提示和证据全部替换为目标语言（例如全部换成日语），以观察“完全无需切换语言”是否能带来帮助。结果出乎意料——全部替换为目标语言后，表现反而更差。GPT-OSS-20B在“英文提示+外语证据”下正确率为77.59%，但在“外语提示+外语证据”下仅为71.67%。这说明这些AI模型本质上是以英文为“母语”执行指令的，强行使用非英文提示反而使其更难发挥。改善跨语言性能，需要的是更强的多语言训练，而非仅仅将提示语言改为目标语言这种表面操作。

八、不同语言之间的差距：非洲语言被挡在门外

研究团队还按语言逐一拆解了结果，观察不同语言之间的差距。

以QWEN3.6-35B-A3B搭配QWEN3-Embedding-8B、在跨语言设置下的数据为例，差异相当悬殊。英文（未翻译的参考组）正确率为42.86%。在高资源翻译语言中，表现最好的是德文（27.54%）和法文（26.09%），表现最差的是日文（4.35%）和韩文（10.14%）。在低资源非洲语言中，斯瓦希里语（17.39%）和沃洛夫语（14.49%）尚可，而约鲁巴语和祖鲁语均仅为4.35%。

乍看之下，低资源语言正确率更低，似乎是这些语言本身更难。然而，“神谕检索”数据却给出了不同的结论：当正确证据被直接提供时，斯瓦希里语的神谕正确率为89.86%，沃洛夫语也达到86.96%——与高资源语言89.67%的平均水平相差无几。这说明低资源语言的低表现，主要是由于检索器找不到证据所致，而非AI本身无法理解这些语言。一旦证据呈现在眼前，AI仍能读懂并作答。

不过，高资源语言之间也存在明显差异，不能简单地用“资源多寡”一概而论。同属高资源语言，法语、德语、葡萄牙语、西班牙语的表现明显优于日语和韩语。研究人员发现，日语的神谕正确率（73.91%）在高资源语言中也是最低的，表明在“理解并利用日语证据”这一环节，AI自身也面临独特的困难，而不仅仅是检索问题。

九、小技巧能有多大帮助：让侦探先思考再搜索

研究团队还测试了一种轻量级的改进策略，灵感来源于学术界的AGENTIR方法：在每次搜索之前，让侦探先将自己的思考过程（包括正在寻找什么、已经知道了什么、还缺少什么）附加到搜索词中，一起提交给检索器。这样做的好处是，检索器能获得更多上下文信息，从而找到更相关的证据。

这种方法无需重新训练任何模型，也无需更改数据库，只需在查询时多添加一段话。结果显示，这一小改动确实有效：在英文证据库中，正确率从32.89%提升至36.14%，证据召回率从42.91%提升至47.77%，同时搜索次数反而略有减少。在翻译后的证据库中，也有类似的改善：多语言设置下正确率从12.05%提升至14.10%，跨语言设置下从11.93%提升至14.60%。

然而，这种提升在翻译环境中小于英文环境。换句话说，侦探的推理思考确实能帮助检索器找到更好的证据，但它无法独立弥补语言不匹配带来的根本性障碍。要真正解决跨语言检索问题，还需要检索器本身具备更强的跨语言对齐能力。

十、加班能打破语言壁垒吗：推理努力的极限

研究团队还进行了一项很有实际意义的测试：改变AI侦探的“努力程度”——即让其在低、中、高三种模式下分别工作，观察增加努力能否弥补语言劣势。

数据显示，努力程度确实很重要：在英文环境下，从低努力到高努力，GPT-OSS-20B的正确率从15.18%提升至36.02%；在跨语言环境下，同样从4.94%提升至15.18%。努力总归是有意义的。

但问题在于，高努力模式下的跨语言正确率（15.18%），仅仅相当于低努力模式下的英文正确率（15.18%）——而高努力模式所需的搜索次数是低努力模式的14倍以上：高努力跨语言需要28.66次搜索，而低努力英文仅需2.01次。付出了14倍的计算成本，换来的却只是与低努力英文持平的表现。跨语言的语言壁垒，绝非靠加班就能跨越的。

归根结底，这项研究揭示了一个清晰的结论：跨语言深度研究面临两道独立的关卡，第一道是“找到证据”，第二道是“用好证据”。当前最好的系统在这两道关卡上都失守了，而且这两个问题无法简单地通过让AI多搜索几次来解决。真正的突破，需要更强的多语言检索对齐、更出色的跨语言推理能力，以及能够意识到“我正在处理非英文证据、需要特殊策略”的语言感知搜索机制。

说到底，这项研究最直接的意义在于向AI行业敲响了警钟：目前，我们评估AI研究助手的方式几乎完全基于英文环境，而真实世界的信息是多语言的。一个在英文测试中获得满分的AI侦探，在面对多语言证据时可能只剩下三成战力。如果我们希望AI助手真正能够帮助全球各地的人——无论他们使用哪种语言记录知识——就必须正视这一差距，而不是将其视为边缘问题而忽视。对于普通用户而言，这意味着当您使用AI工具搜索非英文来源的信息时，应对其给出的答案保持更高的警惕，因为它可能正在使用错误的证据，或者根本没有找到正确证据，却给出一个“自信”的答复。XBCP这套新的测试基准，将为未来研究者提供一个更接近真实世界的评估工具。对这个领域感兴趣的读者，可以通过arXiv:2606.15345查阅完整论文。

Q&A

Q1：XBCP基准测试与BrowseComp-Plus有何不同？

A：BrowseComp-Plus是一套全英文的深度研究评估基准，其问题和证据文件均为英文。XBCP在此基础上，将证据文件翻译成12种语言（包括中文、日文、斯瓦希里语等），而问题和标准答案仍保持英文不变，专门用于测试AI在证据语言与问题语言不一致时的表现，填补了跨语言深度研究评估领域的空白。

Q2：为什么AI在证据为外语时答对率会大幅下降？

A：研究发现存在两个独立的原因。一是检索器找不到证据——语义检索器虽然远优于关键词检索器，但在翻译后的证据库中，召回率仍会损失约20个百分点；二是即便将正确证据直接交给AI，其理解外语证据并将其与英文问题对应作答的能力本身也存在损耗，在跨语言设置下，这部分损失大约在10到13个百分点之间。

Q3：神谕检索实验说明了什么问题？

A：神谕检索实验通过将所有正确证据直接输入AI，绕过了搜索环节，从而区分出“找不到证据”和“理解不了证据”两类问题。结果发现，直接提供证据后正确率大幅提升，表明搜索是当前最大的瓶颈；但即便提供了正确证据，翻译版证据的正确率仍低于英文证据，说明AI在理解和利用外语证据方面也存在独立的能力短板，而不仅仅是搜索问题。

来源：https://www.163.com/dy/article/KVQOHKE50511DTVV.html

翻译

上一篇莫斯科展出中国科技发展成就主题图片展 下一篇DeepSeek认错老板梁文锋被误识别为张一鸣

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。