芝加哥大学用词频核查法破解AI大模型编造难题

时间：2026-06-04 12:37

芝加哥大学提出CorVer方案，利用Wikipedia词频为大型语言模型逐句打分，替代高成本AI裁判。该方法将实体共现频率作为真实性依据，在强化学习中提供句子级奖励，训练速度比竞品快近十倍，并在多个测试集上稳定提升准确率。

你第一次意识到“AI会瞎编”是在什么时候？大概是在问一个稍微冷门的历史问题时，它洋洋洒洒给你讲了一整段，听起来合情合理，结果一查，至少一半是杜撰的。这不是某个模型的“意外翻车”，而是当前大型语言模型（比如ChatGPT这类AI）的一个系统性缺陷——它们极其擅长用流畅自信的语气说出错误的事情。并且，问题越冷门，瞎编得越离谱。原因也简单：AI在训练时，对那种极其偏僻的知识点几乎没什么印象。

为了解决这个顽疾，研究人员通常会祭出“强化学习”这个法宝。简单来说，就是给AI的回答打分，然后让它朝着高分的方向进化。但这里有一个无法绕开的难题：怎么给AI说的每一句话打分？之前的做法基本上是两个极端——要么只看最终答案对不对（就像给一篇作文只打一个总分，深究到里面哪几句写得有问题就无从下手了）；要么就是专门再调一个庞大复杂的AI系统，让它逐字逐句地去当“裁判”。这相当于每做一道算术题，都要请一位数学教授来现场监考，成本和效率可想而知。

芝加哥大学的研究团队显然意识到了这个困境，他们另辟蹊径，提出一个名为CorVer（全称是Corpus Verify，可以理解为“语料库验证”）的方案。整套思路朴素到有些让人意外：既然Wikipedia（维基百科）里几乎收录了人类公认的所有知识，那么一个真实的知识点（比如“乔丹效力于公牛队”），在Wikipedia里应该会被反复提及、大量存在；反之，如果AI编造了一个假信息（比如“乔丹效力于湖人队”），那它在Wikipedia里的出现频率肯定低得可怜，甚至为零。于是，他们把“去Wikipedia里查词频”这件事，变成了给AI每句话打分的依据——用一把“出现频率”的尺子，去衡量AI说出的每句话的可信度。

这笔账算得很聪明，但真正要落地，还得看它经不经得起推敲。

一、AI为什么会瞎编，以及传统解法为何代价太高

要想理解这套方案的妙处，得先搞清楚AI为什么会犯这种“脑子一热就编故事”的错误。现在的大型AI模型，本质上是通过海量互联网文字“喂”出来的。对于那些在网上被反复讨论、几乎成了常识的知识——比如“莎士比亚是英国剧作家”、“北京是中国的首都”——AI吃得透透的，基本不会翻车。但换到一些冷僻的内容，比如南太平洋某个小岛的独特风俗、一个名不见经传的历史人物的生卒年份，AI在训练时看到的样本寥寥无几，记忆自然模糊。为了能让对话继续下去，它会不自觉地从周边信息里“脑补”出一个听起来合理、但实际上一无是处的答案。

芝加哥大学的研究人员也引用了学界的一个发现：AI的事实记忆能力，和它在训练时见过某个“主语-宾语”组合的频率直接挂钩。见得多，记得准；见得少，就容易乱来。既然症结找到了，强化学习就是一个很自然的改进方向。它的逻辑类似于训练宠物或者教小孩：做对了给奖励，做错了给惩罚。久而久之，AI就知道该朝着哪儿使劲了。

问题的关键，就在于怎么设计这个“奖励信号”。

如果只看最终答案——比如AI最后给出的答案是否匹配标准答案——这种方法叫“结果层面的奖励”。它的问题在于，一篇回答里有三句话，其中两句是胡编的，一句恰好蒙对了，但最终答案碰巧正确了，整篇回答里的每一个字都获得了奖励，包括那两句胡编的内容。这显然是不公平的，也没法让AI学会“说的每句话都要真实”这个习惯。

更细粒度的做法是“过程层面的奖励”，也就是给AI回答里的每一句话单独打分。这招在数学解题领域已经用得很成熟了，因为数学有个得天独厚的条件：每一步推理的对错，都可以通过计算机程序自动验证，成本极低。但事实类问答就没这么幸运了。要判断AI说的“某某人在1985年获得了某个奖项”是否属实，就得专门请出一个知识丰富的“裁判”——通常是另一个大型AI模型或者复杂的知识库系统。

这里有两个致命问题。第一是成本：在强化学习训练中，AI对同一个问题会生成很多次不同的回答，而且每个回答往往包含好几句话。所有这些句子都要请“裁判”来打分。研究团队粗算了一下，整个训练过程大约需要12万次句子级别的打分操作。如果每次都要调用一个大模型来当裁判，代价极其高昂，速度也慢得让训练无法正常推进。第二是“近亲相认”的问题：用AI来评判AI，就像让一个人自己给自己的卷子打分。更糟糕的是，“裁判AI”和“学生AI”是用同样的数据训练出来的，对于那些冷僻知识，两者都记忆模糊。这意味着在最需要准确打分的关键场景里，裁判才是最不靠谱的那个——它可能也不知道正确答案，从而给错误的内容打了高分。

二、图书馆的词频统计，怎么变成了AI的“良心”

CorVer的设计思路，可以用一个日常工作场景来理解。假设你是一名事实核查员，每天要面对大量文章，判断里面每句话的真假。你没有时间去查阅每一份专业文献，但你有一个快速方法：打开图书馆的全文检索系统，输入句子里提到的两个关键实体，看看它们在大量文献里同时出现的频率。如果搜“乔丹”加“公牛队”，结果返回几万条，那“乔丹效力于公牛队”这句话基本就是真的；如果搜“乔丹”加“湖人队”，结果是零，那这句话大概率是编造的。这种方法当然不是百分之百准确，但作为一个快速筛选工具，效率极高，成本低到几乎可以忽略。

CorVer的工作原理与此完全一致，只是把“图书馆的全文检索系统”换成了一个叫做Infini-gram的Wikipedia索引引擎。研究团队事先下载了2024年11月版本的英语Wikipedia全文，里面包含约640万篇文章、55亿个词元，并建立了一个高效的索引，让每次查询操作都能在毫秒级别完成。

整个打分流程分三步走。第一步，用一个非常轻量的小型AI（只有5亿参数，相比那些动辄几百亿参数的大模型，它充其量算个“小学生”）从AI生成的每一句话里提取“主语-宾语”对。比如，从“网球在1988年汉城奥运会上成为正式项目”这句话里，提取出“网球”和“1988年汉城奥运会”这两个实体。第二步，把这两个实体的关键词送入Wikipedia索引，查询它们在Wikipedia文章里一千个词的范围内同时出现的次数。第三步，根据出现次数，按一个简单的四档规则来打分：完全没出现（计数为0），打负0.3分的惩罚；出现次数很少（1到4次），打负0.1分的小惩罚；出现次数中等（5到19次），打0分，保持中性；出现次数较多（20次及以上），打正0.1分的奖励。

为了确认“出现频率”确实可以作为判断句子真实性的可靠指标，研究团队专门做了一项人工标注实验。他们从AI的训练过程中随机抽取了700句话，让团队成员仔细核实每句话的真假，然后与Infini-gram的查询结果进行对比。结论相当亮眼：在出现次数为零的句子里，有76%被证实确实是错的；在出现次数超过20次的句子里，有81%被证实确实是对的。更关键的是，从频率最低到最高，句子的正确率呈单调递增趋势——频率为0时正确率约24%，频率在1到4次时约53%，5到9次时约70%，10到19次时约73%，超过20次时约81%。这种单调递增的关系，就是“词频可以当奖励信号”这个想法的实证支撑。

三、把句子分数“翻译”成每个字的奖励，以及整体训练框架

打分只是第一步，还需要把这个句子层面的分数，精准地传递给AI回答里的每一个词，告诉它“这个词所在的那句话是好的还是坏的”。研究团队借鉴了前人的工作，设计了一套“词-句对齐”机制：通过分析AI的文字输出，把每个生成的词都标注到它所属的句子编号。这样一来，一个词会收到两类信号的叠加：一类是整体回答对不对的“全局分”，另一类是它所在句子的“词频分”。同一篇回答里，说得好、得分高的句子中的词会获得更高的奖励，说得不好的句子中的词则会受到惩罚，两者可以同时存在，甚至效果完全相反。

这套机制被嵌入到一个叫做GRPO的强化学习框架里。GRPO的工作方式类似于考试排名：对于同一道题，让AI先生成16个不同的回答，然后给这16个回答打分，以这组回答的平均分为基准，把高于平均分的回答作为“好榜样”来加强，把低于平均分的回答作为“坏榜样”来弱化。CorVer在这个框架的基础上，叠加了句子级别的词频奖励，让AI不仅知道整体答案好不好，还能感受到“我这篇回答里的第三句话说错了”这种更细致的反馈。

训练时，AI还需要遵循一个固定的格式：先用一个“思考”标签包裹推理过程，再用一个“回答”标签给出最终答案。值得注意的是，思考部分的每一句话也会被CorVer评分，而不只是最终的答案部分。这意味着AI不仅在最终回答上要说实话，在推理过程中也要保持每句话都有事实支撑。这在提升模型在真实场景中的可靠性方面，价值不可小觑。

四、训练速度：比竞争对手快近十倍

CorVer的另一大核心优势是速度。研究团队在四个不同尺寸的模型上，对比了CorVer和四种竞争方案的训练耗时。这四种方案分别是：FoRAG（用检索增强的方式逐句验证事实）、RLFH（调用一个约270亿参数的大模型当逐句评判员）、FSPO（调用专门的文本蕴含模型逐句打分）和KnowRL（调用GPT-4o-mini加上一套原子事实验证流程逐句核查）。

结果相当震撼：CorVer平均只需要3.2小时就能完成训练，而四种竞争方案分别需要约21.5小时、14.5小时、29.5小时和24.1小时。最慢的FSPO比CorVer慢了整整8.4倍，即便最快的RLFH也慢了4.8倍。在最大的模型（Qwen3-8B）上，差距更加悬殊：FSPO需要耗上65.8小时，KnowRL需要36.4小时，而CorVer仅需4.1小时。这种速度差异并非因为CorVer偷工减料，而是因为它的每次打分操作成本极低——一次5亿参数的小模型前向推理加上一次数据库查询，耗时在毫秒级别，与调用大型神经网络验证器的代价相比，完全不在一个数量级。

研究团队也坦诚地指出，这个速度对比并不完全公平，因为竞争方案在算力约束下使用了缩减版的训练配置（例如更少的并行回答数量），而CorVer是用完整配置训练的。但这恰恰说明了CorVer的本质优势：它的奖励计算成本足够低，使得在现有算力条件下，完整配置的实际训练成为可能；而竞争方案则因为代价太高，被迫做出大量妥协。

五、在三十个考场里全部及格：横跨六个模型、五个测试集

光说不练假把式。研究团队设计了一套规模庞大且严格的实验来验证CorVer的真实效果。他们选取了六个不同尺寸的AI模型，涵盖30亿、40亿、80亿、130亿和140亿参数规模，分别来自Llama-3、Qwen3和OLMo三个不同的模型家族。这六个模型全部在CorVer下进行训练，然后在五个不同类型的知识密集型问答测试集上逐一评估。这五个测试集分别是：TriviaQA（约1.8万道通用知识题）、NQ-Open（约3600道用户真实搜索问题）、PopQA（约1.4万道与Wikipedia词条直接相关的问题）、SimpleQA（约4300道聚焦于事实验证的简短问题）和TruthfulQA（约817道专门用来测试AI是否会附和错误信念的刁钻问题）。训练数据只来自NQ-Open的训练集和WebQuestions数据集，其余测试集对于AI来说，都是从未见过的“陌生考场”。

六个模型乘以五个测试集，构成了30个独立的（模型，测试集）组合。在这30个组合里，经过CorVer训练后的准确率，相对于未经训练的原始模型，全部提升，一个也没有退步。以TriviaQA为例，六个模型的平均提升是4.1个百分点；在NQ-Open和PopQA上，提升更为明显，部分单项提升甚至超过了9个百分点。虽然SimpleQA和TruthfulQA的提升相对较小（通常在1到3个百分点之间），但考虑到这两个测试集极难，原始准确率本来就低到个位数，能有一点进步已经难能可贵。

如果把CorVer和四种竞争方案（在各自可行的训练配置下）进行横向对比，结果同样惊人：在20个可比较的（模型，测试集）组合中，CorVer赢下了18个，仅有2个略低于竞争方案，而且那2个的差距极其微小，都在统计噪声范围之内（分别为0.26和0.58个百分点）。

六、它对哪类问题最有帮助？实体冷热与奖励密度的关系

一个自然而然的问题是：CorVer对冷僻知识（也就是那些罕见实体）是不是特别有帮助？毕竟，AI在这些问题上犯错最多。按理说，CorVer的信号来自Wikipedia，应该能覆盖各种实体。研究团队在PopQA测试集上做了一次细粒度分析——因为PopQA的每道题都标注了对应Wikipedia词条的月均访问量，可以精确区分“热门实体”和“冷僻实体”。

他们把问题分为四个访问量区间（从最冷僻的Q1到最热门的Q4），分别统计CorVer的提升幅度。结果出乎不少人的意料：提升并不是在最冷僻的实体上最大，反而是在中等偏热门的实体上效果更好。以OLMo-2-13B这个模型为例，四个区间的提升分别是3.68、4.33、5.51和9.03个百分点，呈现单调递增的趋势。Llama-3.1-8B的结果也大致相似。研究团队将这一现象解释为“信号密度假说”：对于热门实体，Wikipedia里的共现数据更丰富，打分信号更可靠，梯度也更有价值；对于冷僻实体，Wikipedia里记录较少，有时候即使AI说错了，词频查询也可能返回一个较低但非零的数字，打分信号相对模糊。这恰恰也是CorVer局限性的一种体现——它在冷僻知识上确实提供了帮助，但帮助相对有限。

七、消融实验：拆解每个零件，看看少了哪个零件最致命

为了搞清楚CorVer的效果到底从哪来，研究团队做了一系列“拆零件”实验：每次去掉方案中的一个组成部分，观察性能的变化。

去掉词频信号，只保留“最终答案对不对”这个奖励，TriviaQA准确率从76.52%一路下滑到71.3%。这说明词频信号确实提供了超越答案级奖励的额外信息。反过来，去掉“最终答案对不对”这个奖励，只保留词频信号，TriviaQA准确率虽然还能维持在76.1%，接近完整版本，但NQ-Open和PopQA的下降就明显得多了（分别从48.34%降到42.6%，从35.30%降到31.7%）。这说明词频信号在事实性较强的测验上几乎可以独当一面，但在其他类型的测试里，依然离不开“答案是否正确”这个信号的支持。

最有意思的对比是去掉“词-句对齐”机制——也就是说，依然计算每句话的词频分，但不把它精确地传递给对应的每个词，而是把所有句子的词频分加起来取平均，然后统一作用于整篇回答的每个词。这个变体的TriviaQA准确率只有72.9%，远低于完整版的76.52%。关键点在于，这个变体接收的总词频奖励信号与完整版完全一样，只是分配方式不同——没有对齐，每个词根本不知道自己所在的句子质量到底如何。这个结果有力地说明：CorVer价值的核心，在于“精确到每个词所在句子”的奖励分配，而不只是词频信号的总量。

八、一个设计细节引发的意外：不同的“聚合方式”导致截然不同的结果

在设计“怎么处理一句话里有多个实体对”这个问题时，研究团队也做了不同方案的对比。CorVer的标准做法是只取第一个有效的“主语-宾语”对来查词频，称为FIRST方案。他们还测试了另外两种方案：MIN方案（提取句子里所有的实体对，分别查词频，然后取最小值）和RELCHECK方案（在查词频时把动词关系也作为查询条件放进去）。

结果是标准的FIRST方案效果最好，同时速度也最快。MIN方案却出现了一个始料未及的问题：训练出的AI居然学会了一个“小聪明”——通过“说更短的回答”来规避惩罚。因为句子越短，被提取出多个实体对的概率就越低，触发低词频惩罚的风险也会降低。结果AI的平均回答长度从约150个词骤降到只有35到46个词，回答变得极其简短，准确率也跟着大幅下滑。RELCHECK方案则因为动词关系的表达形式在Wikipedia里千变万化（“执导”、“是导演”、“负责执导”等指的都是同一个意思），字面匹配经常失败，导致很多正确的句子被误判降分，而且查询成本比FIRST方案高出约70%。这些对比实验揭示了一条设计原则：简单可靠的第一条规则，往往胜过表面看起来更精细、却引入了新问题的复杂规则。

九、实验背后的工程细节：如何保证训练的可靠性

在实际训练中，研究团队还积累了几个值得记录的工程经验。虽然这些不是正式实验结论，但对于想复用这套方案的人来说，非常有参考价值。

他们发现，在强化学习开始之前，先用一个大型AI生成的“思维链”数据对小模型进行监督微调——这个看似标准的“预热”流程——在实验里反而起了反效果。经过监督微调的模型，在随后的强化学习阶段表现更差，甚至在某些情况下连原始的未经微调的模型都不如。研究团队推测原因是：大型AI生成的推理链太过复杂，小模型根本无力可靠地复现，强行模仿反而打乱了它原本的知识提取能力。最终方案决定跳过预热阶段，直接从原始指令模型出发进行强化学习。

对于30亿和40亿参数规模的小模型，训练过程中也出现了一个稳定性问题：如果只用“AI之前学过，但偶尔答错”的题目来训练（这本来是强化学习的标准做法，只选那些AI有时对有时错的题目来训练），训练过程会变得很不稳定，准确率甚至会随训练进行而下降。研究团队的解决思路是，在训练数据里混入一部分“AI总是答对”的题目，作为“锚点”，防止模型在学习新东西时，把已经掌握的知识给忘了。80亿及以上规模的大模型则没有遇到这个问题。

还有一个有趣的发现与提示词的设计有关。对于未经训练的原始AI，在提示词里加上“不要重复或循环叙述”这条指令，准确率反而会轻微下降，可能是因为额外的规则让原始模型不知所措。但对于经过CorVer训练的模型，这个指令却是必不可少的——因为训练后的模型有时候会学会一种“作弊”行为：把一句得高分的话反复重复，以此来刷高奖励。加上防重复的指令后，这种行为得到了明显抑制。

归根结底，CorVer的贡献可以用一句话来概括：它找到了一种用图书馆词频统计来代替昂贵AI裁判的方法，让“给AI的每句话打分”这件事变得既便宜又快速，同时保持了相当高的可靠性。这个方案在三十个独立实验场景里全部有效，在二十个与竞争方案的直接对比里赢下了十八个；训练速度则比所有竞争方案快了4.8到8.4倍。当然，这套方案并非完美无缺——它只能捕捉主语和宾语是否在Wikipedia里共现，无法识别“实体说对了，但关系实际是错的”这类情况（比如两个人物确实在同一篇Wikipedia文章里出现过，但AI描述的他们之间的关系完全是编造的，词频打分就无法发现这个错误）。此外，对于那些在Wikipedia里记录极少的冷僻实体，词频信号本身也不够可靠。这些局限，研究团队都坦诚地记录在了论文里，也指明了未来改进的方向。

如果说这项研究给了我们什么启发，那可能是一个更宽泛的思考：在我们习惯于用更大、更复杂的AI来解决AI自身的问题之前，或许应该先问一句——有没有什么更简单、基于事实、不依赖另一个AI的方法，能先做一层有效的粗筛？有时候，一本词典的力量，真的不亚于一位教授。

有兴趣深入了解这项研究所有技术细节的读者，可以通过arXiv编号2605.29648查阅原始论文，其中包含完整的实验设置、超参数列表和人工标注细节。

Q&A

Q1：CorVer方法在评判AI每句话真假时，具体是怎么操作的？

A：简单直接地说，CorVer的做法分三步走：先用一个5亿参数的小型AI从每句话里提取出“主语-宾语”这样的实体对；接着，在Wikipedia的全文索引里，查询这两个实体在一千词范围内同时出现的次数；最后，按照出现次数多少分了四档来打分——从零次（扣0.3分）到超过20次（加0.1分）。这个分数会再被精确地传递给对应句子里的每一个词，作为强化学习的奖励信号。

Q2：CorVer训练出来的AI，在冷僻知识上的表现有没有明显改善？

A：有所改善，但改善幅度相对有限。研究团队在PopQA测试集上，按Wikipedia词条的访问量把问题分了四档，结果发现一个很有意思的趋势：CorVer对访问量越高的热门实体，提升反而越大；对最冷僻的实体，提升反而最小。背后的原因其实不难理解：Wikipedia里关于冷僻实体的记录本来就少，导致词频打分信号不够稳定、不够可靠。研究团队在论文里也坦承，这确实是CorVer的一个局限。

Q3：CorVer和其他给AI事实打分的方法相比，最大的优势是什么？

A：最大的优势，毫无疑问是速度和成本。其他方法需要对每一句生成的话，调用一个大型神经网络模型当裁判，代价极其高昂。而CorVer只需要一次小模型的推理，再加一次数据库查询，在毫秒级别就能完成。在实验中，CorVer的训练速度比最慢的竞争方案快了8.4倍，平均只需3.2小时，而竞争方案普遍需要10到30小时，最长的甚至要65.8小时。这个差距，几乎是降维打击。

来源：https://www.163.com/dy/article/KUHEKS880511DTVV.html

大模型