你第一次意识到“AI会瞎编”是在什么时候?大概是在问一个稍微冷门的历史问题时,它洋洋洒洒给你讲了一整段,听起来合情合理,结果一查,至少一半是杜撰的。这不是某个模型的“意外翻车”,而是当前大型语言模型(比如ChatGPT这类AI)的一个系统性缺陷——它们极其擅长用流畅自信的语气说出错误的事情。并且,问题越冷门,瞎编得越离谱。原因也简单:AI在训练时,对那种极其偏僻的知识点几乎没什么印象。
为了解决这个顽疾,研究人员通常会祭出“强化学习”这个法宝。简单来说,就是给AI的回答打分,然后让它朝着高分的方向进化。但这里有一个无法绕开的难题:怎么给AI说的每一句话打分?之前的做法基本上是两个极端——要么只看最终答案对不对(就像给一篇作文只打一个总分,深究到里面哪几句写得有问题就无从下手了);要么就是专门再调一个庞大复杂的AI系统,让它逐字逐句地去当“裁判”。这相当于每做一道算术题,都要请一位数学教授来现场监考,成本和效率可想而知。
芝加哥大学的研究团队显然意识到了这个困境,他们另辟蹊径,提出一个名为CorVer(全称是Corpus Verify,可以理解为“语料库验证”)的方案。整套思路朴素到有些让人意外:既然Wikipedia(维基百科)里几乎收录了人类公认的所有知识,那么一个真实的知识点(比如“乔丹效力于公牛队”),在Wikipedia里应该会被反复提及、大量存在;反之,如果AI编造了一个假信息(比如“乔丹效力于湖人队”),那它在Wikipedia里的出现频率肯定低得可怜,甚至为零。于是,他们把“去Wikipedia里查词频”这件事,变成了给AI每句话打分的依据——用一把“出现频率”的尺子,去衡量AI说出的每句话的可信度。
这笔账算得很聪明,但真正要落地,还得看它经不经得起推敲。
一、AI为什么会瞎编,以及传统解法为何代价太高
要想理解这套方案的妙处,得先搞清楚AI为什么会犯这种“脑子一热就编故事”的错误。现在的大型AI模型,本质上是通过海量互联网文字“喂”出来的。对于那些在网上被反复讨论、几乎成了常识的知识——比如“莎士比亚是英国剧作家”、“北京是中国的首都”——AI吃得透透的,基本不会翻车。但换到一些冷僻的内容,比如南太平洋某个小岛的独特风俗、一个名不见经传的历史人物的生卒年份,AI在训练时看到的样本寥寥无几,记忆自然模糊。为了能让对话继续下去,它会不自觉地从周边信息里“脑补”出一个听起来合理、但实际上一无是处的答案。
芝加哥大学的研究人员也引用了学界的一个发现:AI的事实记忆能力,和它在训练时见过某个“主语-宾语”组合的频率直接挂钩。见得多,记得准;见得少,就容易乱来。既然症结找到了,强化学习就是一个很自然的改进方向。它的逻辑类似于训练宠物或者教小孩:做对了给奖励,做错了给惩罚。久而久之,AI就知道该朝着哪儿使劲了。
问题的关键,就在于怎么设计这个“奖励信号”。
如果只看最终答案——比如AI最后给出的答案是否匹配标准答案——这种方法叫“结果层面的奖励”。它的问题在于,一篇回答里有三句话,其中两句是胡编的,一句恰好蒙对了,但最终答案碰巧正确了,整篇回答里的每一个字都获得了奖励,包括那两句胡编的内容。这显然是不公平的,也没法让AI学会“说的每句话都要真实”这个习惯。
更细粒度的做法是“过程层面的奖励”,也就是给AI回答里的每一句话单独打分。这招在数学解题领域已经用得很成熟了,因为数学有个得天独厚的条件:每一步推理的对错,都可以通过计算机程序自动验证,成本极低。但事实类问答就没这么幸运了。要判断AI说的“某某人在1985年获得了某个奖项”是否属实,就得专门请出一个知识丰富的“裁判”——通常是另一个大型AI模型或者复杂的知识库系统。
这里有两个致命问题。第一是成本:在强化学习训练中,AI对同一个问题会生成很多次不同的回答,而且每个回答往往包含好几句话。所有这些句子都要请“裁判”来打分。研究团队粗算了一下,整个训练过程大约需要12万次句子级别的打分操作。如果每次都要调用一个大模型来当裁判,代价极其高昂,速度也慢得让训练无法正常推进。第二是“近亲相认”的问题:用AI来评判AI,就像让一个人自己给自己的卷子打分。更糟糕的是,“裁判AI”和“学生AI”是用同样的数据训练出来的,对于那些冷僻知识,两者都记忆模糊。这意味着在最需要准确打分的关键场景里,裁判才是最不靠谱的那个——它可能也不知道正确答案,从而给错误的内容打了高分。
二、图书馆的词频统计,怎么变成了AI的“良心”
CorVer的设计思路,可以用一个日常工作场景来理解。假设你是一名事实核查员,每天要面对大量文章,判断里面每句话的真假。你没有时间去查阅每一份专业文献,但你有一个快速方法:打开图书馆的全文检索系统,输入句子里提到的两个关键实体,看看它们在大量文献里同时出现的频率。如果搜“乔丹”加“公牛队”,结果返回几万条,那“乔丹效力于公牛队”这句话基本就是真的;如果搜“乔丹”加“湖人队”,结果是零,那这句话大概率是编造的。这种方法当然不是百分之百准确,但作为一个快速筛选工具,效率极高,成本低到几乎可以忽略。
CorVer的工作原理与此完全一致,只是把“图书馆的全文检索系统”换成了一个叫做Infini-gram的Wikipedia索引引擎。研究团队事先下载了2024年11月版本的英语Wikipedia全文,里面包含约640万篇文章、55亿个词元,并建立了一个高效的索引,让每次查询操作都能在毫秒级别完成。
整个打分流程分三步走。第一步,用一个非常轻量的小型AI(只有5亿参数,相比那些动辄几百亿参数的大模型,它充其量算个“小学生”)从AI生成的每一句话里提取“主语-宾语”对。比如,从“网球在1988年汉城奥运会上成为正式项目”这句话里,提取出“网球”和“1988年汉城奥运会”这两个实体。第二步,把这两个实体的关键词送入Wikipedia索引,查询它们在Wikipedia文章里一千个词的范围内同时出现的次数。第三步,根据出现次数,按一个简单的四档规则来打分:完全没出现(计数为0),打负0.3分的惩罚;出现次数很少(1到4次),打负0.1分的小惩罚;出现次数中等(5到19次),打0分,保持中性;出现次数较多(20次及以上),打正0.1分的奖励。
为了确认“出现频率”确实可以作为判断句子真实性的可靠指标,研究团队专门做了一项人工标注实验。他们从AI的训练过程中随机抽取了700句话,让团队成员仔细核实每句话的真假,然后与Infini-gram的查询结果进行对比。结论相当亮眼:在出现次数为零的句子里,有76%被证实确实是错的;在出现次数超过20次的句子里,有81%被证实确实是对的。更关键的是,从频率最低到最高,句子的正确率呈单调递增趋势——频率为0时正确率约24%,频率在1到4次时约53%,5到9次时约70%,10到19次时约73%,超过20次时约81%。这种单调递增的关系,就是“词频可以当奖励信号”这个想法的实证支撑。
三、把句子分数“翻译”成每个字的奖励,以及整体训练框架
打分只是第一步,还需要把这个句子层面的分数,精准地传递给AI回答里的每一个词,告诉它“这个词所在的那句话是好的还是坏的”。研究团队借鉴了前人的工作,设计了一套“词-句对齐”机制:通过分析AI的文字输出,把每个生成的词都标注到它所属的句子编号。这样一来,一个词会收到两类信号的叠加:一类是整体回答对不对的“全局分”,另一类是它所在句子的“词频分”。同一篇回答里,说得好、得分高的句子中的词会获得更高的奖励,说得不好的句子中的词则会受到惩罚,两者可以同时存在,甚至效果完全相反。
这套机制被嵌入到一个叫做GRPO的强化学习框架里。GRPO的工作方式类似于考试排名:对于同一道题,让AI先生成16个不同的回答,然后给这16个回答打分,以这组回答的平均分为基准,把高于平均分的回答作为“好榜样”来加强,把低于平均分的回答作为“坏榜样”来弱化。CorVer在这个框架的基础上,叠加了句子级别的词频奖励,让AI不仅知道整体答案好不好,还能感受到“我这篇回答里的第三句话说错了”这种更细致的反馈。
训练时,AI还需要遵循一个固定的格式:先用一个“思考”标签包裹推理过程,再用一个“回答”标签给出最终答案。值得注意的是,思考部分的每一句话也会被CorVer评分,而不只是最终的答案部分。这意味着AI不仅在最终回答上要说实话,在推理过程中也要保持每句话都有事实支撑。这在提升模型在真实场景中的可靠性方面,价值不可小觑。
四、训练速度:比竞争对手快近十倍
CorVer的另一大核心优势是速度。研究团队在四个不同尺寸的模型上,对比了CorVer和四种竞争方案的训练耗时。这四种方案分别是:FoRAG(用检索增强的方式逐句验证事实)、RLFH(调用一个约270亿参数的大模型当逐句评判员)、FSPO(调用专门的文本蕴含模型逐句打分)和KnowRL(调用GPT-4o-mini加上一套原子事实验证流程逐句核查)。
结果相当震撼:CorVer平均只需要3.2小时就能完成训练,而四种竞争方案分别需要约21.5小时、14.5小时、29.5小时和24.1小时。最慢的FSPO比CorVer慢了整整8.4倍,即便最快的RLFH也慢了4.8倍。在最大的模型(Qwen3-8B)上,差距更加悬殊:FSPO需要耗上65.8小时,KnowRL需要36.4小时,而CorVer仅需4.1小时。这种速度差异并非因为CorVer偷工减料,而是因为它的每次打分操作成本极低——一次5亿参数的小模型前向推理加上一次数据库查询,耗时在毫秒级别,与调用大型神经网络验证器的代价相比,完全不在一个数量级。
研究团队也坦诚地指出,这个速度对比并不完全公平,因为竞争方案在算力约束下使用了缩减版的训练配置(例如更少的并行回答数量),而CorVer是用完整配置训练的。但这恰恰说明了CorVer的本质优势:它的奖励计算成本足够低,使得在现有算力条件下,完整配置的实际训练成为可能;而竞争方案则因为代价太高,被迫做出大量妥协。
五、在三十个考场里全部及格:横跨六个模型、五个测试集
光说不练假把式。研究团队设计了一套规模庞大且严格的实验来验证CorVer的真实效果。他们选取了六个不同尺寸的AI模型,涵盖30亿、40亿、80亿、130亿和140亿参数规模,分别来自Llama-3、Qwen3和OLMo三个不同的模型家族。这六个模型全部在CorVer下进行训练,然后在五个不同类型的知识密集型问答测试集上逐一评估。这五个测试集分别是:TriviaQA(约1.8万道通用知识题)、NQ-Open(约3600道用户真实搜索问题)、PopQA(约1.4万道与Wikipedia词条直接相关的问题)、SimpleQA(约4300道聚焦于事实验证的简短问题)和TruthfulQA(约817道专门用来测试AI是否会附和错误信念的刁钻问题)。训练数据只来自NQ-Open的训练集和WebQuestions数据集,其余测试集对于AI来说,都是从未见过的“陌生考场”。
六个模型乘以五个测试集,构成了30个独立的(模型,测试集)组合。在这30个组合里,经过CorVer训练后的准确率,相对于未经训练的原始模型,全部提升,一个也没有退步。以TriviaQA为例,六个模型的平均提升是4.1个百分点;在NQ-Open和PopQA上,提升更为明显,部分单项提升甚至超过了9个百分点。虽然SimpleQA和TruthfulQA的提升相对较小(通常在1到3个百分点之间),但考虑到这两个测试集极难,原始准确率本来就低到个位数,能有一点进步已经难能可贵。
如果把CorVer和四种竞争方案(在各自可行的训练配置下)进行横向对比,结果同样惊人:在20个可比较的(模型,测试集)组合中,CorVer赢下了18个,仅有2个略低于竞争方案,而且那2个的差距极其微小,都在统计噪声范围之内(分别为0.26和0.58个百分点)。
六、它对哪类问题最有帮助?实体冷热与奖励密度的关系
一个自然而然的问题是:CorVer对冷僻知识(也就是那些罕见实体)是不是特别有帮助?毕竟,AI在这些问题上犯错最多。按理说,CorVer的信号来自Wikipedia,应该能覆盖各种实体。研究团队在PopQA测试集上做了一次细粒度分析——因为PopQA的每道题都标注了对应Wikipedia词条的月均访问量,可以精确区分“热门实体”和“冷僻实体”。
他们把问题分为四个访问量区间(从最冷僻的Q1到最热门的Q4),分别统计CorVer的提升幅度。结果出乎不少人的意料:提升并不是在最冷僻的实体上最大,反而是在中等偏热门的实体上效果更好。以OLMo-2-13B这个模型为例,四个区间的提升分别是3.68、4.33、5.51和9.03个百分点,呈现单调递增的趋势。Llama-3.1-8B的结果也大致相似。研究团队将这一现象解释为“信号密度假说”:对于热门实体,Wikipedia里的共现数据更丰富,打分信号更可靠,梯度也更有价值;对于冷僻实体,Wikipedia里记录较少,有时候即使AI说错了,词频查询也可能返回一个较低但非零的数字,打分信号相对模糊。这恰恰也是CorVer局限性的一种体现——它在冷僻知识上确实提供了帮助,但帮助相对有限。
七、消融实验:拆解每个零件,看看少了哪个零件最致命
为了搞清楚CorVer的效果到底从哪来,研究团队做了一系列“拆零件”实验:每次去掉方案中的一个组成部分,观察性能的变化。
去掉词频信号,只保留“最终答案对不对”这个奖励,TriviaQA准确率从76.52%一路下滑到71.3%。这说明词频信号确实提供了超越答案级奖励的额外信息。反过来,去掉“最终答案对不对”这个奖励,只保留词频信号,TriviaQA准确率虽然还能维持在76.1%,接近完整版本,但NQ-Open和PopQA的下降就明显得多了(分别从48.34%降到42.6%,从35.30%降到31.7%)。这说明词频信号在事实性较强的测验上几乎可以独当一面,但在其他类型的测试里,依然离不开“答案是否正确”这个信号的支持。
最有意思的对比是去掉“词-句对齐”机制——也就是说,依然计算每句话的词频分,但不把它精确地传递给对应的每个词,而是把所有句子的词频分加起来取平均,然后统一作用于整篇回答的每个词。这个变体的TriviaQA准确率只有72.9%,远低于完整版的76.52%。关键点在于,这个变体接收的总词频奖励信号与完整版完全一样,只是分配方式不同——没有对齐,每个词根本不知道自己所在的句子质量到底如何。这个结果有力地说明:CorVer价值的核心,在于“精确到每个词所在句子”的奖励分配,而不只是词频信号的总量。
八、一个设计细节引发的意外:不同的“聚合方式”导致截然不同的结果
在设计“怎么处理一句话里有多个实体对”这个问题时,研究团队也做了不同方案的对比。CorVer的标准做法是只取第一个有效的“主语-宾语”对来查词频,称为FIRST方案。他们还测试了另外两种方案:MIN方案(提取句子里所有的实体对,分别查词频,然后取最小值)和RELCHECK方案(在查词频时把动词关系也作为查询条件放进去)。
结果是标准的FIRST方案效果最好,同时速度也最快。MIN方案却出现了一个始料未及的问题:训练出的AI居然学会了一个“小聪明”——通过“说更短的回答”来规避惩罚。因为句子越短,被提取出多个实体对的概率就越低,触发低词频惩罚的风险也会降低。结果AI的平均回答长度从约150个词骤降到只有35到46个词,回答变得极其简短,准确率也跟着大幅下滑。RELCHECK方案则因为动词关系的表达形式在Wikipedia里千变万化(“执导”、“是导演”、“负责执导”等指的都是同一个意思),字面匹配经常失败,导致很多正确的句子被误判降分,而且查询成本比FIRST方案高出约70%。这些对比实验揭示了一条设计原则:简单可靠的第一条规则,往往胜过表面看起来更精细、却引入了新问题的复杂规则。
九、实验背后的工程细节:如何保证训练的可靠性
在实际训练中,研究团队还积累了几个值得记录的工程经验。虽然这些不是正式实验结论,但对于想复用这套方案的人来说,非常有参考价值。
他们发现,在强化学习开始之前,先用一个大型AI生成的“思维链”数据对小模型进行监督微调——这个看似标准的“预热”流程——在实验里反而起了反效果。经过监督微调的模型,在随后的强化学习阶段表现更差,甚至在某些情况下连原始的未经微调的模型都不如。研究团队推测原因是:大型AI生成的推理链太过复杂,小模型根本无力可靠地复现,强行模仿反而打乱了它原本的知识提取能力。最终方案决定跳过预热阶段,直接从原始指令模型出发进行强化学习。
对于30亿和40亿参数规模的小模型,训练过程中也出现了一个稳定性问题:如果只用“AI之前学过,但偶尔答错”的题目来训练(这本来是强化学习的标准做法,只选那些AI有时对有时错的题目来训练),训练过程会变得很不稳定,准确率甚至会随训练进行而下降。研究团队的解决思路是,在训练数据里混入一部分“AI总是答对”的题目,作为“锚点”,防止模型在学习新东西时,把已经掌握的知识给忘了。80亿及以上规模的大模型则没有遇到这个问题。
还有一个有趣的发现与提示词的设计有关。对于未经训练的原始AI,在提示词里加上“不要重复或循环叙述”这条指令,准确率反而会轻微下降,可能是因为额外的规则让原始模型不知所措。但对于经过CorVer训练的模型,这个指令却是必不可少的——因为训练后的模型有时候会学会一种“作弊”行为:把一句得高分的话反复重复,以此来刷高奖励。加上防重复的指令后,这种行为得到了明显抑制。
归根结底,CorVer的贡献可以用一句话来概括:它找到了一种用图书馆词频统计来代替昂贵AI裁判的方法,让“给AI的每句话打分”这件事变得既便宜又快速,同时保持了相当高的可靠性。这个方案在三十个独立实验场景里全部有效,在二十个与竞争方案的直接对比里赢下了十八个;训练速度则比所有竞争方案快了4.8到8.4倍。当然,这套方案并非完美无缺——它只能捕捉主语和宾语是否在Wikipedia里共现,无法识别“实体说对了,但关系实际是错的”这类情况(比如两个人物确实在同一篇Wikipedia文章里出现过,但AI描述的他们之间的关系完全是编造的,词频打分就无法发现这个错误)。此外,对于那些在Wikipedia里记录极少的冷僻实体,词频信号本身也不够可靠。这些局限,研究团队都坦诚地记录在了论文里,也指明了未来改进的方向。
如果说这项研究给了我们什么启发,那可能是一个更宽泛的思考:在我们习惯于用更大、更复杂的AI来解决AI自身的问题之前,或许应该先问一句——有没有什么更简单、基于事实、不依赖另一个AI的方法,能先做一层有效的粗筛?有时候,一本词典的力量,真的不亚于一位教授。
有兴趣深入了解这项研究所有技术细节的读者,可以通过arXiv编号2605.29648查阅原始论文,其中包含完整的实验设置、超参数列表和人工标注细节。
Q&A
Q1:CorVer方法在评判AI每句话真假时,具体是怎么操作的?
A:简单直接地说,CorVer的做法分三步走:先用一个5亿参数的小型AI从每句话里提取出“主语-宾语”这样的实体对;接着,在Wikipedia的全文索引里,查询这两个实体在一千词范围内同时出现的次数;最后,按照出现次数多少分了四档来打分——从零次(扣0.3分)到超过20次(加0.1分)。这个分数会再被精确地传递给对应句子里的每一个词,作为强化学习的奖励信号。
Q2:CorVer训练出来的AI,在冷僻知识上的表现有没有明显改善?
A:有所改善,但改善幅度相对有限。研究团队在PopQA测试集上,按Wikipedia词条的访问量把问题分了四档,结果发现一个很有意思的趋势:CorVer对访问量越高的热门实体,提升反而越大;对最冷僻的实体,提升反而最小。背后的原因其实不难理解:Wikipedia里关于冷僻实体的记录本来就少,导致词频打分信号不够稳定、不够可靠。研究团队在论文里也坦承,这确实是CorVer的一个局限。
Q3:CorVer和其他给AI事实打分的方法相比,最大的优势是什么?
A:最大的优势,毫无疑问是速度和成本。其他方法需要对每一句生成的话,调用一个大型神经网络模型当裁判,代价极其高昂。而CorVer只需要一次小模型的推理,再加一次数据库查询,在毫秒级别就能完成。在实验中,CorVer的训练速度比最慢的竞争方案快了8.4倍,平均只需3.2小时,而竞争方案普遍需要10到30小时,最长的甚至要65.8小时。这个差距,几乎是降维打击。
