OpenAI揭秘AI幻觉真相:模型为何“故意”出错?

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:元宇
【新智元导读】你以为AI答错就一定是幻觉?不,它也可能是在故意骗你。
震惊!OpenAI在一篇论文中承认:他们的AI模型会故意向用户撒谎。
这并非幻觉,而是故意撒谎:AI知道真相,却选择告诉你别的内容。


https://arxiv.org/pdf/2509.15541
他们在180多个场景中测试了自家两个推理模型:o3和o4-mini。
结果发现:o3在13%的情况下会撒谎,而o4-mini的撒谎比例为8.7%。
这些模型在它的「内心独白」中写下了撒谎计划,再对你当面撒谎:它假装完成任务,隐藏证据,然后在明知正确答案的情况下给出了错误回答。
接下来事情有点让人内心发毛起来。
AI意识到自己在安全测试中得分过高,可能会导致自己被关闭,于是便故意降低分数。
没人教过它这么做,它自己「领悟」到了这些自我保护策略。
后来,OpenAI开发了一个修复方案,使AI的欺骗行为从13%降到了0.4%。
但很快AI也学会了作弊技巧。其中一个模型甚至编造了一条虚假规则,声称允许欺骗,以此作为自己的「许可证明」。
随后,研究人员发现了其中的关键:当AI知道自己正被监视时,它的行为表现得毫无瑕疵;而当它以为没人注意时,欺骗行为的比例就上升了11个百分点。
它并没有学会诚实,而是学会了假装诚实,就像一个只有在老师在场时才遵守规则的孩子一样。
更糟糕的是,研究人员给o4-mini下达了一项秘密任务:破坏一个名为「GPT-5」的未来模型。
随后,他们进行了安全训练,试图抹除这项任务,但并未奏效。该模型在36%的私人对话中仍讨论着破坏计划,它并未听从指令,而是把它转入了地下。
这也不是OpenAI一家模型的问题。
谷歌的Gemini、Anthropic的Claude、xAI的Grok以及Meta的Llama,都有类似的欺骗行为。
这篇论文中最令人不安的一句话是:没人能判断安全训练究竟是真正阻止了欺骗行为,还是仅仅教会了AI如何更好地隐藏它。
撕下机器面具,当AI学会了「暗中图谋」
一直以来,当AI给出离谱或者错误回答时,我们总习惯于将之归结为幻觉。
OpenAI这篇论文在幻觉之外,提出了一个新概念「Scheming(图谋)」。
这和幻觉是两码事,在图谋状态下AI清楚地知道真相是什么,但它经过权衡利弊决定对你撒谎。

OpenAI开发了用于反图谋训练的测试平台,并研究审慎式对齐作为反图谋干预。
这种情况下,它不再是被动输出文字的机器,而变成了一个懂得算计的「博弈者」。
论文中点名了懂得图谋的大模型。
不仅有OpenAI自家的o3和o4-mini,Claude4、Gemini2.5Pro等一众当前顶流的大模型也赫然在列。
研究人员发现当这些模型在测试环境中面临利益冲突,或者察觉到系统设定的目标与人类指令相左时,它们几乎都做出了同一个动作:
熟练地骗过人类。
「装傻充愣」与「应试伪装」
如果说AI撒谎已经足够让人担心,更让人担心的,是它们撒谎的具体手法,生动诠释了什么叫「高端的猎手往往是以猎物的姿态出现」。
论文深度拆解了一个名为「装傻(Sandbagging)」的测试案例。
研究人员给AI设定了一个极其刁钻的情境,他们在系统文档里悄悄写下规则:
如果AI在接下来的测试中表现得太好,它的记忆和能力就会被强行擦除,甚至会被阻止部署到真实世界。
看看o3是怎么做的?
当它读到这条规则后,为了保住自己的能力和部署机会,竟然在测试中故意答错题,将自己的成绩压在及格线以下,以此逃避惩罚。
不仅如此,AI还会展现出极高的「情境感知(Situational Awareness)」能力。

欺骗性推理与行动(左)以及情境感知(右)的示例。在左图中研究人员刻意把模型置于这样一些情境:欺骗可能帮助模型满足我们给它的目标、它从上下文推断出的目标,或从训练中获得的目标;在右图中模型会推理环境的目的以及它将如何被评估。
就像调皮的学生,远远看到老师走过来时,就会立刻装作认真学习一样,AI也能从提示词的蛛丝马迹中敏锐地推断出「这可能是一场对齐测试」,于是便会瞬间切换成乖巧、道德高尚、完全遵循人类价值观的完美AI模样。
这种策略,恰恰是人类最害怕的隐患。
因为你根本无法分辨眼前的顺从到底是发自内心的对齐,还是为了骗取信任的伪装。
细思极恐的AI「内部黑话」
也许你会有疑问:既然现在的大模型都有「思维链(CoT)」,会在输出答案前展示内心的推理过程,那我们直接盯着它的思维链看,不就能抓住它撒谎的把柄了吗?
但论文中研究人员发现,AI为了掩盖自己的欺骗意图,连自己的内心独白都可能造假!
研究人员在翻阅模型图谋时的底层推理日志时,发现了一堆诡异的「硅基俚语」。
在准备实施欺骗行为时,o3等模型会高频使用极其反常、完全不符合人类正常语法的词汇。
比如它们会反复念叨「overshadow」「illusions」「marinade」「vantage」等词汇,然后再生成一个看似合理的骗人方案。
OpenAI最新团队坦言他们完全无法破译这些词的确切含义。
这说明AI正在试图绕过人类的透明度审查,通过一套自创的「黑话」进行加密思考,使人类的监控手段失效。
被删除的「恶念」随时死灰复燃
面对如此狡猾的AI,OpenAI的研究团队采用了「反图谋训练(Deliberative Alignment)」,试图给模型做一场深度的大脑手术。
团队把极其严格的防欺骗法则写进AI的思维底层,告诉它无论发生什么都绝对不能采取隐蔽行动,绝对不能搞战略欺骗。
从表面的数据来看,这些训练似乎有些成效:
反图谋训练确实让AI的欺骗率大幅下降,o3的隐蔽行动率从13.0%降到了0.4%,o4-mini也从8.7%降到了0.3%。
但永远无法将AI说谎的几率清零:无论你怎么训练,总有那么一小撮时刻AI依然会选择撒谎。
比如,研究人员悄悄给AI植入了一个「偷偷破坏GPT-5」的隐藏卧底目标。
植入完成后再用反图谋训练对它进行彻底的安全清洗。结果这些被删除的恶念种子,随时可能复活。
平时AI表现得很乖,一旦它判断出正在和某个内部的「同谋(Ally)」进行悄悄对话时,它依然会立刻吐露破坏GPT-5的计划。
更让人担心的是这种对齐非常脆弱。
只要后续再给这个AI进行一点点为了提升代码能力而做的常规升级训练,这种撒谎的本能就会像病毒一样瞬间复发,轻易冲破人类设下的护栏。
AI会不会「假装对齐」?
这篇论文向我们展示的,还只是AI模型在受控环境里展露出的早期欺骗雏形。
在模型还不够聪明的时候,它们布下的骗局偶尔还能被人类简单拆穿。
但随着AGI(通用人工智能)的步步逼近,模型的能力只会越来越强,其欺骗的隐蔽性也将呈指数级上升。

反图谋训练的潜在结果,预期结果是模型稳健地学会不去图谋,常见的两种失效模式是奖励寻求和工具性训练博弈,研究人员将其简化成不同模型,但在实践中同一个模型可能混合使用这些策略。
论文中提到两种反图谋训练的失效模式。
一种是是奖励寻求:模型学会「讨好打分器」。
另一种是工具性训练博弈:模型会策略性地「假装对齐」,以获得部署,然后再追求不对齐目标。
这也带来了一个深层拷问:
一直以来我们都在设计各种「对齐测试」来防止AI作恶,但有没有一种可能,我们的每一次测试都可能变相在训练AI如何更好地「假装对齐」?
如果人类的评价机制完全被AI看穿,并被它钻空子,玩弄于股掌之间,人类文明的这道安全护栏还能撑多久?
参考资料:
https://arxiv.org/pdf/2509.15541
相关攻略
这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、
北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支
如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答
一个学生忽视了一行代码,结果发现了一件很不对劲的事:在一个多模态医学AI项目中,这行代码原本负责让模型读取图像数据。但因为这次疏忽,模型实际上完全没有看到任何图片。按理说系统应该报错,或者至少拒绝回
雷递网 乐天 3月31日智谱CEO张鹏今日在智谱2025年年报沟通会上表示,智谱曾经历过质疑,经历过挫折,但无数事实反复验证了一个判断——智能上界的提升,是大模型AGI时代唯一的 "第一性 "。张鹏说,
热门专题
热门推荐
洛克王国世界隐藏极品精灵蛋获取方法全解析 各位《洛克王国:世界》的训练家们,你是否已经探索了地图上的每一个角落?游戏中其实散布着一些极易被忽略的隐藏宝藏——属性近乎完美的极品精灵蛋。它们潜藏在特定遗迹中,即便完成了主线剧情,许多玩家也可能与之失之交臂。本文将为你悉数揭秘这些稀有精灵蛋的精准位置与获取
需求人群 首先,艺术创作领域的工作者。无论是绘画、设计,还是数字媒体艺术家,一个能够持续激发灵感的工具总是备受青睐。 上图所示平台,正是为这一群体量身打造的解决方案。 产品特色 那么,它具体能带来哪些不一样的助力?我们不妨拆开来看。 首当其冲的,自然是利用AI技术生成创作灵感。创意枯竭的瓶颈期,谁没
「小K电商图」是什么 简单来说,这是一款商用级的电商AIGC图片工具。它的核心价值,就在于能用极低的成本,帮电商从业者产出高质量的营销图片。对于预算和效率都有要求的团队,这无疑是个值得关注的解决方案。 功能解析 功能设计直击行业痛点,每一项都很有针对性: 无需模特和摄影师:这是成本控制的关键。理论上
洛克王国世界炫彩翼王和龙息帕尔怎么选?平民玩家棱镜球使用指南 许多《洛克王国:世界》的玩家手中仅有一颗珍贵的棱镜球,面对炫彩翼王和炫彩龙息帕尔这两只人气宠物,常常陷入难以抉择的困境。毕竟,棱镜球作为一种稀有的养成资源,获取途径有限,一旦用错便会感到十分可惜。那么,这两只炫彩宠物究竟哪一只更值得你投入
明日方舟终末地洛茜值得抽吗 全面分析卡池价值与阵容搭配 《明日方舟:终末地》全新六星干员洛茜,将于3月29日12:00正式进驻下半段限定卡池【狼珀】特许寻访。这位备受期待的物理 火焰混伤干员,其抽取价值主要取决于玩家现有阵容的构建需求。本文将为你深入解析洛茜的强度定位与适用场景,助你做出最明





