这项由早稻田大学、西北大学、理化学研究所AIP中心、Snowflake公司、犹他大学、杜克-新加坡国立大学医学院及东京大学联合开展的研究,于2026年6月13日以预印本形式发布于arXiv平台,论文编号为arXiv:2606.15345。对此领域感兴趣的读者,可以通过该编号查询并获取完整的研究论文。
一、侦探找错了线索语言
假设你雇用了一位只懂英语的私家侦探,负责调查一起案件。然而,案件中的所有关键证据——包括目击者陈述、现场照片说明以及警察记录——却全部使用日语撰写。那么,这位侦探能够成功破案吗?
这个假设场景,恰恰真实反映了当前最先进AI研究助手所面临的困境。这些被称为“深度研究智能体”的AI系统,就像一台精通搜索的机器调查者:它们能够主动浏览网络信息、筛选过滤文件,最终将拼凑出的证据整合成一个完整的答案。学术界已经开发出专门测试这类AI调查能力的评估标准——其中最权威的一套被称为BrowseComp-Plus,其中包含大量需要多步骤网络搜索才能找到答案的复杂问题,且所有题目和证据文件均为英文。
问题在于,现实世界中的信息从来都不是单一语言的。互联网上充斥着中文、法语、日语、斯瓦希里语等多种语言的内容。当AI调查者拿到一个英文问题,却必须从日语证据中寻找线索时,它还能成功破案吗?
这正是上述多机构研究团队希望解答的关键问题。他们创建了一套全新的测试集——XBCP(跨语言BrowseComp-Plus,Cross-lingual BrowseComp-Plus的缩写),专门用于衡量AI系统在证据语言与问题语言不一致时的表现。这是学术界首次针对“跨语言深度研究”场景构建的系统性评估基准,填补了这一领域长期存在的空白。
二、搭建测试场:如何构建一套多语言侦探考题
研究团队的核心策略其实相当巧妙。他们并未从零开始设计题目,而是直接借用了BrowseComp-Plus现有的题库框架——这套题库包含830道英文问题,以及配套的5040份经过人工验证的英文证据文件。研究团队的工作是,将这些证据文件“翻译成其他语言”,而问题和标准答案则保持英文不变。
具体来说,他们选择了12种语言进行测试。高资源语言(即互联网上内容丰富、AI对其理解较好的语言)包括中文、英文、法文、德文、日文、韩文、葡萄牙文和西班牙文,共计8种。低资源语言(互联网上内容稀缺、AI掌握程度有限的语言)则选择了斯瓦希里语、沃洛夫语、约鲁巴语和祖鲁语这4种非洲语言。翻译工作由强大的GPT-5.4翻译模型完成,翻译过程中要求完整保留证据文件的标题、内容及专业术语,仅保留网址、电子邮件地址、数学公式和代码块不变。
翻译完成后,研究团队还专门聘请了专业的双语评审人员对翻译质量进行核查。评审维度包括准确性、流利度和完整性,每项满分5分,并对11种非英文语言各抽取200份样本进行评分。结果显示,所有语言的平均分均在4.0分以上,表明翻译质量足以支持受控实验,尽管仍存在一些细微的翻译瑕疵。
整套XBCP测试集包含两种配置。第一种是“跨语言设置”:每道题的证据文件被分配到某一种语言,同一道题的所有证据均使用同一种语言。这样能够测试AI在面对“全日语证据”或“全法语证据”时的表现差异。第二种是“多语言设置”:5040份证据文件被随机均分到12种语言中,每种语言各得420份,让AI同时面对混杂着多种语言的证据库。这两种配置从不同角度考察了AI侦探的跨语言能力。
三、登场侦探与搜索工具
研究团队选择了4位“AI侦探”参与测试,分别是GPT-OSS-20B、GPT-OSS-120B、QWEN3.6-35B-A3B和DeepSeek-V4-Pro。这些名称看似晦涩,但可以将其理解为四位能力各异的调查者:数字越大、参数越多的模型,其推理能力通常越强。
仅有侦探还不够,还需要搜索工具——即“检索器”,帮助侦探在海量文件中找到相关证据。研究团队测试了5种检索器:一种是传统的关键词匹配方法BM25(类似于图书馆的索引卡系统,只能识别文字,无法理解含义);另外四种则是现代“语义理解”型检索器,包括QWEN3-Embedding-4B、QWEN3-Embedding-8B、Multilingual-E5-Large和Arctic-Embed-L-2.0。这些语义检索器经过大量多语言训练,理论上能够跨语言理解含义,从而找到语言不同但语义相近的内容。
每位侦探搭配每种搜索工具,在三种条件下分别破案:原始英文证据库(作为基准参照)、多语言设置、跨语言设置。评估标准包括最终答案的正确率、证据被找到的比例、搜索次数、答案可信度的自我评估准确度,以及引用证据的可靠性。
四、破案数量:数字背后的冲击
实验结果用一个词来形容就是:惨不忍睹。
首先来看最强选手DeepSeek-V4-Pro搭配最佳语义检索器QWEN3-Embedding-8B的表现。在原始英文证据库中,其正确率达到64.70%——这已经是所有测试组合中的最高成绩。然而,当证据被翻译成其他语言后,多语言设置下的正确率跌至48.80%,跨语言设置下更是降至42.29%。换句话说,仅仅因为证据被翻译,这位最强侦探的破案率便下降了大约15到22个百分点。
其他侦探的情况更为糟糕。以GPT-OSS-20B为例,搭配同一检索器时,在英文证据库中正确率为32.89%,而多语言设置下则骤降至12.05%,跌幅接近21个百分点。如果使用传统的关键词检索器BM25,情况更为惨烈——原本15.18%的正确率,在多语言设置下直接跌至3.13%,基本等同于随机猜测。
这里有一个关键细节值得关注:在多语言设置与跨语言设置之间,大多数侦探的表现差距并不显著。这说明问题的核心不在于“证据是一种语言还是多种语言混杂”,而在于“证据语言与问题语言不一致”这一事实。只要存在语言不匹配,破案率就会大幅下降。
与此同时,检索器找到正确证据的能力(证据召回率)也同步下滑。以GPT-OSS-120B搭配QWEN3-Embedding-8B为例,在英文环境下,证据召回率为48.19%;但在多语言和跨语言设置下,则均降至28%左右。语义型检索器虽然远优于关键词检索器——BM25在翻译后的环境中几乎找不到任何有用证据——但即便是最好的语义检索器,其证据召回能力也损失了将近20个百分点。
五、侦探不仅失误更多,还变得盲目自信
除了破案率下降,研究团队还发现了一个更令人担忧的现象:当证据是外语时,AI侦探不仅能力下降,还变得更加“不知道自己不知道”。
在这项研究中,“校准误差”是衡量AI自我评估准确度的指标。简单来说:AI在回答后会给出一个“我有几成把握”的估计,如果它说“我90%确定”,那么最终实际答对的概率也应接近90%。然而,当证据是外语时,AI侦探的校准误差显著增大——它们表现出很高的自信,但实际却答错了。
以GPT-OSS-120B为例,搭配QWEN3-Embedding-8B时,在英文证据库中校准误差为42.50%,而在多语言设置下飙升至57.78%,跨语言设置下则为57.45%。这意味着,面对翻译版证据时,这位侦探不仅破案率下降,还变得更加盲目自信。
更值得注意的是,面对外语证据,侦探们的搜索次数普遍增加,但额外的搜索努力并未弥补损失的破案率。仍以GPT-OSS-120B为例,在英文环境下平均搜索25.35次,而在多语言和跨语言环境下分别增加到30.01次和30.45次——多搜索了将近5次,但答对率反而从38.07%跌至14-15%左右。更多的努力并未带来更多的收获,额外的搜索只是在做无用功。
六、引用证据也出现问题:找到了却未使用
研究还专门检查了AI侦探在撰写最终答案时,是否正确引用了找到的证据文件。这一指标被称为“引用可靠性”,包括引用覆盖率、引用精确度和引用召回率。
结果显示,当证据是外语时,这三个指标全部下降。以DEEPSEEK-V4-PRO为例,在英文环境下,引用覆盖率为88.07%,引用精确度为85.80%;而在多语言设置下,分别跌至79.64%和79.64%;跨语言设置下则为74.46%和70.76%。语言不匹配不仅导致侦探找不到证据,即便找到了,也更可能在撰写报告时忘记引用,或错误地引用了不相关的文件。
研究团队还深入分析了引用出错的类型,发现了两类主要错误:第一类是“映射失败”——侦探确实找到了正确的证据文件,但在最终答案中引用了其他不相关的文件;第二类是“根本未找到”——检索器从头到尾都未能找出正确的证据文件,侦探只能引用英文的无关文件来凑数。在翻译后的环境中,“根本未找到”这类错误的比例明显上升,表明检索器的失败是引用质量下降的主要原因。
七、终极实验:将答案直接交给侦探,结果仍然不对
为了厘清究竟是“找证据”环节出了问题,还是“理解证据并撰写答案”环节出了问题,研究团队设计了一个终极诊断实验——“神谕检索”。在这个实验中,研究人员直接将所有正确的证据文件输入AI侦探的窗口,无需侦探进行搜索,然后观察其能否正确作答。
该实验的结果令人深思。当正确证据被直接提供时,侦探的表现大幅提升:在英文证据条件下,GPT-OSS-20B的正确率从32.89%飙升至90.36%,GPT-OSS-120B从38.07%飙升至94.70%,QWEN3.6-35B-A3B从38.55%飙升至93.86%。这有力地证明了“找证据”是目前最大的瓶颈——只要能解决搜索问题,正确率本可以大幅提高。
然而,关键发现是:即便将正确证据直接交给侦探,当这些证据是翻译版时,其表现仍低于英文证据条件。以GPT-OSS-20B为例,“神谕检索+英文证据”的正确率为90.36%,而“神谕检索+跨语言证据”的正确率仅为77.59%,相差近13个百分点。这13个百分点的差距,无法再用“找不到证据”来解释——证据明明摆在眼前,侦探却仍然答错。
这揭示了第二个独立的瓶颈:AI侦探在阅读理解非英文证据、将信息与英文问题对应、再用英文撰写答案的过程中,本身就存在能力上的损耗。
研究团队进一步进行了更细致的对照实验:将问题、系统提示和证据全部替换为目标语言(例如全部换成日语),以观察“完全无需切换语言”是否能带来帮助。结果出乎意料——全部替换为目标语言后,表现反而更差。GPT-OSS-20B在“英文提示+外语证据”下正确率为77.59%,但在“外语提示+外语证据”下仅为71.67%。这说明这些AI模型本质上是以英文为“母语”执行指令的,强行使用非英文提示反而使其更难发挥。改善跨语言性能,需要的是更强的多语言训练,而非仅仅将提示语言改为目标语言这种表面操作。
八、不同语言之间的差距:非洲语言被挡在门外
研究团队还按语言逐一拆解了结果,观察不同语言之间的差距。
以QWEN3.6-35B-A3B搭配QWEN3-Embedding-8B、在跨语言设置下的数据为例,差异相当悬殊。英文(未翻译的参考组)正确率为42.86%。在高资源翻译语言中,表现最好的是德文(27.54%)和法文(26.09%),表现最差的是日文(4.35%)和韩文(10.14%)。在低资源非洲语言中,斯瓦希里语(17.39%)和沃洛夫语(14.49%)尚可,而约鲁巴语和祖鲁语均仅为4.35%。
乍看之下,低资源语言正确率更低,似乎是这些语言本身更难。然而,“神谕检索”数据却给出了不同的结论:当正确证据被直接提供时,斯瓦希里语的神谕正确率为89.86%,沃洛夫语也达到86.96%——与高资源语言89.67%的平均水平相差无几。这说明低资源语言的低表现,主要是由于检索器找不到证据所致,而非AI本身无法理解这些语言。一旦证据呈现在眼前,AI仍能读懂并作答。
不过,高资源语言之间也存在明显差异,不能简单地用“资源多寡”一概而论。同属高资源语言,法语、德语、葡萄牙语、西班牙语的表现明显优于日语和韩语。研究人员发现,日语的神谕正确率(73.91%)在高资源语言中也是最低的,表明在“理解并利用日语证据”这一环节,AI自身也面临独特的困难,而不仅仅是检索问题。
九、小技巧能有多大帮助:让侦探先思考再搜索
研究团队还测试了一种轻量级的改进策略,灵感来源于学术界的AGENTIR方法:在每次搜索之前,让侦探先将自己的思考过程(包括正在寻找什么、已经知道了什么、还缺少什么)附加到搜索词中,一起提交给检索器。这样做的好处是,检索器能获得更多上下文信息,从而找到更相关的证据。
这种方法无需重新训练任何模型,也无需更改数据库,只需在查询时多添加一段话。结果显示,这一小改动确实有效:在英文证据库中,正确率从32.89%提升至36.14%,证据召回率从42.91%提升至47.77%,同时搜索次数反而略有减少。在翻译后的证据库中,也有类似的改善:多语言设置下正确率从12.05%提升至14.10%,跨语言设置下从11.93%提升至14.60%。
然而,这种提升在翻译环境中小于英文环境。换句话说,侦探的推理思考确实能帮助检索器找到更好的证据,但它无法独立弥补语言不匹配带来的根本性障碍。要真正解决跨语言检索问题,还需要检索器本身具备更强的跨语言对齐能力。
十、加班能打破语言壁垒吗:推理努力的极限
研究团队还进行了一项很有实际意义的测试:改变AI侦探的“努力程度”——即让其在低、中、高三种模式下分别工作,观察增加努力能否弥补语言劣势。
数据显示,努力程度确实很重要:在英文环境下,从低努力到高努力,GPT-OSS-20B的正确率从15.18%提升至36.02%;在跨语言环境下,同样从4.94%提升至15.18%。努力总归是有意义的。
但问题在于,高努力模式下的跨语言正确率(15.18%),仅仅相当于低努力模式下的英文正确率(15.18%)——而高努力模式所需的搜索次数是低努力模式的14倍以上:高努力跨语言需要28.66次搜索,而低努力英文仅需2.01次。付出了14倍的计算成本,换来的却只是与低努力英文持平的表现。跨语言的语言壁垒,绝非靠加班就能跨越的。
归根结底,这项研究揭示了一个清晰的结论:跨语言深度研究面临两道独立的关卡,第一道是“找到证据”,第二道是“用好证据”。当前最好的系统在这两道关卡上都失守了,而且这两个问题无法简单地通过让AI多搜索几次来解决。真正的突破,需要更强的多语言检索对齐、更出色的跨语言推理能力,以及能够意识到“我正在处理非英文证据、需要特殊策略”的语言感知搜索机制。
说到底,这项研究最直接的意义在于向AI行业敲响了警钟:目前,我们评估AI研究助手的方式几乎完全基于英文环境,而真实世界的信息是多语言的。一个在英文测试中获得满分的AI侦探,在面对多语言证据时可能只剩下三成战力。如果我们希望AI助手真正能够帮助全球各地的人——无论他们使用哪种语言记录知识——就必须正视这一差距,而不是将其视为边缘问题而忽视。对于普通用户而言,这意味着当您使用AI工具搜索非英文来源的信息时,应对其给出的答案保持更高的警惕,因为它可能正在使用错误的证据,或者根本没有找到正确证据,却给出一个“自信”的答复。XBCP这套新的测试基准,将为未来研究者提供一个更接近真实世界的评估工具。对这个领域感兴趣的读者,可以通过arXiv:2606.15345查阅完整论文。
Q&A
Q1:XBCP基准测试与BrowseComp-Plus有何不同?
A:BrowseComp-Plus是一套全英文的深度研究评估基准,其问题和证据文件均为英文。XBCP在此基础上,将证据文件翻译成12种语言(包括中文、日文、斯瓦希里语等),而问题和标准答案仍保持英文不变,专门用于测试AI在证据语言与问题语言不一致时的表现,填补了跨语言深度研究评估领域的空白。
Q2:为什么AI在证据为外语时答对率会大幅下降?
A:研究发现存在两个独立的原因。一是检索器找不到证据——语义检索器虽然远优于关键词检索器,但在翻译后的证据库中,召回率仍会损失约20个百分点;二是即便将正确证据直接交给AI,其理解外语证据并将其与英文问题对应作答的能力本身也存在损耗,在跨语言设置下,这部分损失大约在10到13个百分点之间。
Q3:神谕检索实验说明了什么问题?
A:神谕检索实验通过将所有正确证据直接输入AI,绕过了搜索环节,从而区分出“找不到证据”和“理解不了证据”两类问题。结果发现,直接提供证据后正确率大幅提升,表明搜索是当前最大的瓶颈;但即便提供了正确证据,翻译版证据的正确率仍低于英文证据,说明AI在理解和利用外语证据方面也存在独立的能力短板,而不仅仅是搜索问题。
