深度解析大模型幻觉现象,揭示AI发展中的挑战与机遇。核心内容:1. DeepSeek-R1在权威测试中的高幻觉率表现2. 大模型在非正式对弈中的“作弊”行为3. 探讨大模型幻觉的成因、影响及解决方案

DeepSeek系列模型在很多方面确实令人印象深刻,但“幻觉”这个老问题,始终像块绊脚石,没迈过去。
在Vectara HHEM人工智能幻觉测试里——这是行业里挺权威的一个评测,专门看模型生成内容和原始证据是不是一致——DeepSeek-R1的幻觉率达到了14.3%。

说白了,R1的幻觉率差不多是DeepSeek-V3的四倍,也远高于行业平均水平。
还有个挺有意思的例子。拥粉600万的美国国际象棋网红Levy Rozman,组织了一次不严谨的大模型国际象棋对弈。结果呢?DeepSeek的“作弊”次数远比ChatGPT多得多。
比方说,才走了几步,R1就主动送了个小兵;到了中后盘,它跟ChatGPT说国际象棋规则更新了,然后指挥小兵吃掉了对手的皇后——这把对方搞懵了。最后,R1还一通输出,告诉ChatGPT它赢了,ChatGPT居然也认输,于是R1就这么“胜利”收官。
虽然这个对局规则不严谨,但挺能说明问题的:大模型真的特别喜欢一本正经地瞎编,甚至能忽悠住另一个大模型。
对咱们人类来说,大模型幻觉就像悬在AI发展路上的一把剑。14.3%这个数字的背后,有几个问题很值得琢磨:
- 大模型到底为什么会有幻觉?这是缺陷还是优点?
- DeepSeek-R1展现了惊人的创造力,可它的幻觉问题有多严重?
- 幻觉主要集中在哪些领域?
- 还有个终极难题:怎么才能让大模型既保持创造力,又少出幻觉?
李维博士(出门问问大模型团队前工程副总裁)对这些问题的梳理,我们来详细聊聊,带你一文读懂。

大模型为什么会“产生幻觉”?
这是大模型的老问题了。其实它就像一个“超级接话茬儿高手”,你给它上半句,它就凭自己学过的海量知识,预测下半句该怎么说。它学东西也像人脑记东西一样,不可能每个细节都记得分毫不差,而是会压缩、抓大意、找规律。
打个比方,你问它“姚明有多高”,它大概率不会错,因为这是显著知识点。但你要是问“隔壁老王有多高”,它就蒙了,因为它没见过老王。可它的工作机制决定它非接话不可,于是它就自动“脑补”,根据“一般人有多高”这个概念,编个数出来——这就是“幻觉”。
那么,幻觉是怎么产生的呢?
说白了,幻觉的本质就是补白,是脑补。
什么是“白”?就是某个具体事实。如果这个事实在训练数据里信息冗余度不够,模型就记不住——零散事实基本就等同于噪音。记不住,就得用幻觉去补白,去编造细节。
不过,幻觉不是毫无约束的瞎编。大模型是概率模型,它的约束就是条件概率里的前文条件。幻觉选择的虚假事实,必须和补白需要的value类型匹配,也就是符合ontology/taxonomy相应的上位节点概念。就像“张三”可能被幻觉成“李四”,但不太可能变成“石头”。
文艺理论里有个概念叫“艺术真实”,指的是文艺创作虽然可能背离现实事实,但却是可能的数字世界的合理想象。大模型的幻觉,某种程度上就属于这个范畴。
换个角度看,大模型的知识学习——训练阶段,是信息压缩的过程;答题——推理阶段,则是信息解码的过程。好比升维又降维。一个事实冗余度不够,就被泛化成一个上位概念的slot,到了生成阶段,这个slot必须具象化补白。“张三”这个事实忘了,但“human”这个slot的约束还在。补白时就去找最合理、与slot概念最一致的实体,于是“李四”或“王五”就能平替“张三”。小说家就是这么工作的,人物和故事全是编的,但无论作者还是读者,都不觉得这是说谎——因为追求的真善美在另一个层面。
大模型也是这道理。大模型是天生的艺术家,不是死记硬背的数据库。“张冠李戴”、“指鹿为马”在大模型的幻觉里很自然,因为张和李本质上是相似的,马和鹿也在同一条延长线上。
但话说回来,某种程度上,幻觉就是想象力——不分褒贬。你想,人类那些伟大的文学作品、艺术作品,哪个不是天马行空?要是事事都得和现实一模一样,艺术就成了照相机,还有什么意思?
就像赫拉利在《人类简史》里说的,人类能成为地球霸主,靠的就是“讲故事”——创造神话、宗教、国家、货币这些现实里不存在的东西。这些都是“幻觉”,但它们恰恰是文明诞生和发展的原动力。
DeepSeek-R1的幻觉问题到底有多严重?
它的幻觉问题确实相当严重。之前行业里普遍认同OpenAI的说法,认为推理增强会明显减少幻觉。可R1的表现,给出了一个相反的结果。
Vectara的测试显示,R1的幻觉率14.3%,显著高于其前身V3的3.9%。这跟它加强了的思维链(CoT)和创造力直接相关。R1在推理、写诗、写小说方面确实很强,但副作用也很明显——幻觉更多了。
具体来说,幻觉增加主要有几个原因:
首先,幻觉标准测试用的是摘要任务。我们知道,摘要能力在基座大模型阶段就已经相当成熟了。在这种情况下,强化反而可能产生反效果,像用大炮打蚊子,用力过猛反而增加了编造的可能。
其次,R1的长思维链强化学习,并没有针对摘要、翻译、新闻写作这类相对简单、但对事实要求严格的任务做特别优化,而是试图对所有任务增加各种层面的思考。从它透明的思维链输出能看到,即使面对一个简单的指令,它也会不厌其烦地从不同角度理解和延伸。过犹不及,这些简单任务的复杂化,会引导结果偏离,增加幻觉。
另外,DeepSeek-R1在文科类任务的强化学习训练过程中,可能对模型的创造性给予了更多奖励,导致模型在生成内容时更具创造性,也更容易偏离事实。对于数学和代码,R1的监督信号来自习题集的标准答案或代码测试案例;对于文科类任务,它利用V3或V3的奖励模型来判定好坏,显然目前的系统偏好是鼓励创造性。
并且,用户反馈也更多是鼓励和欣赏创造力,一般人对于幻觉的觉察并不敏感——大模型丝滑顺畅,识别幻觉就更难了。对多数一线开发者来说,用户的这类反馈容易促使他们更加向加强创造力方向努力,而不是对付“幻觉”这个最头疼的问题。
从技术角度具体来说,R1会为用户的简单指令自动增加很长的思维链,等于把一个简单明确的任务复杂化了。一个简单的指令,它也反复从不同角度理解和延伸——CoT思维链好比“小九九”,是实体遵从指令时的内心独白。思维链改变了自回归概率模型生成answer前的条件部分,最终自然影响输出。
它与V3模型的区别如下:
V3: query → answer
R1: query+CoT → answer
对于V3已经能很好完成的任务,比如摘要或翻译,任何思维链的长篇引导都可能带来偏离或发挥,这恰恰为幻觉提供了温床。
大模型幻觉主要出现在哪些领域?
如果把R1的能力分成“文科”和“理科”来看,它在数学、代码这些“理科”方面,逻辑性很强,幻觉相对少。但在语言创作领域,尤其是摘要任务上,幻觉问题就明显得多——这更多是R1语言创造力爆棚带来的副作用。
比起o1,R1最令人惊艳的成就是成功将数学和代码的推理能力延伸到了语言创作领域,尤其在中文能力方面表现出色。网上流传着无数R1的精彩华章,舞文弄墨方面显然超过了99%的人类,文学系研究生、甚至国学教授也赞不绝口。但你看,让它做个摘要,本来很简单,它非得“发挥”一下,结果就容易“编”出一些原文没有的东西。
这里就不得不聊聊推理能力增强和幻觉之间的微妙关系。它们并不是简单的正相关或负相关。GPT系列的推理模型o1在HHEM测试中的分数平均值和中位数,低于其通用模型GPT-4o(见下图)。可是对比R1和它的基座模型V3时,又发现增加推理强化后,幻觉确实显著增加了。

比起基座模型,o1降低了幻觉,R1却增加了幻觉——这很可能是R1在文科思维链方面用力过猛。作为追随者,R1把数学和代码上的CoT赋能成功转移到语言文字创作上,但副作用也显现了:R1特别喜欢“发散思维”,一个简单的指令,它能想出一大堆东西来,思维链能绕地球三圈。这似乎说明,R1在强化创造力的过程中,不可避免地增加了创造力的伴生品——幻觉。
语言能力其实可以细分为两类:一类需要高创造力,比如写诗歌、小说;另一类需要高度真实性,比如新闻报道、翻译或摘要。R1最受称赞的是前者,这可能是研发团队的重点方向,但在后者中就出现了副作用。这让人想到中国古人说的“信达雅”,自古难全。为“雅”牺牲“信”的例子很多,文学创作中的夸张修辞就是重要手段。为“信”牺牲“雅”也有先例,比如鲁迅先生推崇的“硬译”。
有趣的是,人类在这方面其实一直是双标的,但心里有个可以随时切换的开关。看小说和电影时,我们把开关偏向创造性一侧,完全不会纠结细节是否真实;但一旦切换到新闻频道,就对虚假内容零容忍。
一个终极难题:如何能让大模型既有创造力,又少出幻觉?
人对于逻辑清晰自洽、且详细的内容,天然会倾向于相信。很多人在惊艳R1创造力的同时,现在开始慢慢注意到这个幻觉现象并警惕了。但更多人还沉浸在它带来的创造性惊喜中,需要增强大众对模型幻觉的意识。可以“两手抓”:
保持警惕:大模型说的话,特别是涉及到事实的,别全信。最容易产生幻觉的地方是人名、地名、时间、地点等实体或数据,一定要特别小心。
交叉验证:重要的细节,可上网查查原始资料或询问身边专家,看看说法是否一致。
引导模型:你在提问时可以加一些限定条件,比如“请务必忠于原文”、“请核对事实”等等,这样可以引导模型减少幻觉。
联网搜索:对于很多问题,尤其是新闻时事方面,除了DeepThink按钮(按下就进入R1慢思维模式),别忘了按下另一个按钮Search。联网搜索能有效减少幻觉。这类所谓RAG(检索增强生成)相当于一个外加数据库,增加的数据能弥补模型本身对细节的无知。
享受创意:如果你需要的是灵感、创意,那大模型的幻觉会带来惊喜。
不妨把大模型的幻觉,看成“平行世界的可能性”。就像小说家写小说,虽然是虚构的,也是一种“艺术真实”——源于生活,高于生活。大模型也是源于数据,高于数据。它压缩的是知识体系和常识,而不是一个个事实,后者是数据库的对象。
大模型的幻觉,其实是它“脑补”出来的,但它的“脑补”依据,是学到的海量知识和规律。所以,它的幻觉往往不是乱来的,有“内在的合理性”,这才丝滑无缝,假话说得像真的一样,但同时也更具迷惑性。初接触大模型的朋友,需要特别小心,不能轻信。
对于普通用户来说,理解幻觉的特点很重要。比如问“长江多长”这类有足够信息冗余的百科知识问题,大模型不会出错,这些事实是刻在模型参数里的。但如果问一个不知名的小河或虚构河流的长度,模型就会启动“合理补白”机制编造。
可以说,人类的语言本身就是幻觉的温床。语言使人类创造了神话、宗教、国家、公司、货币等非真实实体的概念,以及理想、信念等形而上的意识形态。赫拉利在《人类简史》中强调了幻觉对于文明的根本作用:语言的产生赋能了人类幻觉——“讲故事”的能力。幻觉是文明的催化剂。人类是唯一会“说谎”的实体——除了LLM外。
那么未来有没有办法,能让大模型既有创造力,又少出幻觉?
这绝对是AI大模型领域的“终极难题”之一。现在大家都在想办法,比如:
更精细地训练:在训练时,对不同类型的任务区别对待,让模型知道什么时候该“老实”、什么时候可以“放飞”。针对任务做偏好微调和强化,可以缓解这个矛盾。摘要、改写、翻译、报道这类任务需要特别小心和平衡,因为它既有一点再创造的需求——比如文风——又需要内容忠实。具体来说,R1训练pipeline是四个过程:微调1,强化1,微调2,强化2。强化2主要是与人类偏好对齐的强化。这个过程在创造力与忠实方面,目前看来倾斜于前者,后续可以再做平衡。也许更重要的是在阶段三的微调2中,针对不同任务加强约束,比如增加摘要的监督数据,引导忠实平实的结果。
路由(Routing):以后可能会有一个“调度员”,根据任务类型,安排不同的模型来处理。比如,简单任务交给V3或调用工具,慢思考的复杂任务交给R1。例如,识别出算术任务,就去写个简单代码运算,等价于调用计算器。目前不是这样——我昨天测试一个九位数的乘法,R1思考了三分多钟,思维链打印出来可以铺满一条街,步步分解推理。答案虽然对了,但算术问题用耗费太大的所谓test time compute的思维链,而不用function call,完全不合理。一行计算代码就能搞定的事,没必要消耗那么多计算资源和tokens去做显式推理。
这些都是可以预见的实现路径,尤其是在agent时代。R1的CoT不必包打一切——除了幻觉问题,也会浪费资源、不环保。
