新加坡国立大学研究：AI大模型为何能同时胡言乱语与提供正确答案

首页

热心网友

转载

2026-05-14

这项由新加坡国立大学与澳大利亚莫纳什大学合作完成的研究，已于2026年3月在预印本平台arXiv上正式发布，论文编号为arXiv:2603.15557v1。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

新加坡国立大学：AI学会

在与人工智能对话时，你是否曾遭遇过这种令人困惑的场景？AI在分析过程中可能说出一连串毫无关联甚至完全错误的语句，但最终给出的答案却意外正确。这就像一个学生在解题时写满了错误的推导步骤，最后却“蒙”对了最终结果。研究团队将这一现象定义为“计算认知失调”——一个高度学术化的术语，其本质揭示了AI表现出的一种类似“精神分裂症”的行为模式。

例如，当你询问AI“图片里有摩托车吗？”，它可能会非常肯定地描述：“图片中有一辆停放的摩托车”，紧接着却话锋一转：“所以最终答案是没有”。这好比一个人先信誓旦旦地声称自己看见了某物，随即又全盘否定自己刚才的陈述，而最令人费解的是，最终的否定结论居然是正确的。

这种现象直接触及了当前AI系统的核心安全隐患：我们往往只关注最终输出的答案是否正确，却完全忽视了其得出答案的整个思考过程可能混乱不堪。这无异于只在意考试分数，而不关心学生是真正理解还是侥幸猜对。在医疗诊断、自动驾驶等高风险的实际应用场景中，这种依赖“过程错误相互抵消”而达成的“巧合正确”，其潜在的后果可能是灾难性的。

为此，研究团队开创性地提出了一套全新的诊断框架，堪称对AI进行了一次深度的“心理CT扫描”。他们不再将AI的错误回答视为静态的输出结果，而是将其理解为动态认知流程中的故障节点。这种方法使我们能够追踪AI“思考”链条上的每一个环节，精准定位问题究竟发生在“视觉感知”、“逻辑推理”还是“最终决策”的阶段。

具体而言，团队设计了三把核心的“诊断利器”来探测AI的认知状态。第一把尺子名为“感知不稳定性”，用于量化AI在理解图像内容时的犹豫与波动程度，如同观察一个人看东西时是否目光游移、言语闪烁。第二把名为“逻辑冲突”，专门捕捉AI在推理过程中前言不搭后语的自相矛盾之处。第三把则是“决策模糊性”，用于衡量AI在最终拍板定案那一刻的纠结与不确定指数。

这三项关键指标共同构建了一个三维的“认知状态空间”，仿佛为AI的思维活动绘制了一幅动态轨迹地图。思维正常、逻辑自洽的AI，其思维轨迹会稳定地落在图中的安全区域内；而一旦开始“胡言乱语”、产生幻觉，它的轨迹便会显著漂移到异常区域。通过持续监测AI在这幅认知地图上的“行踪”，研究人员就能有效判断其是否陷入了幻觉状态。

一、破解AI的“认知密码”：从静态结果检查到动态过程诊断

传统的AI幻觉检测方法，类似于医生只给病人测量体温，却忽略了咳嗽、疼痛等其他所有症状。这项研究深刻揭示，AI的幻觉并非简单的输出错误，而是一个环环相扣的认知过程在某个环节出现了故障。

研究团队勾勒了一个理想的AI思维链条：图像信息输入 → 视觉感知理解 → 内部逻辑推理 → 生成最终答案。其中任何一个环节都可能“掉链子”。他们发现，一个“理性”的AI系统应遵循一个基本原则：如果AI已经从图像中提取了充分的证据（并已转化为文字描述），那么其最终答案就不应再回头依赖原始的图像像素信息。

这个原则可以用一个更生活化的类比来理解：假设你是一位侦探，仔细勘察了案发现场（相当于AI“看”图），并详细记录了所有关键证据（相当于AI生成描述），然后基于这份详实的记录推导出结论（相当于AI给出最终答案）。如果你的推理是严谨且自洽的，那么即使案发现场被后续封锁，你仅凭之前的记录也能得出完全相同的结论。

然而，当AI违反这一原则时，严重问题就出现了。例如，它可能在描述中错误地声称“看到摩托车”，而图中实际只有自行车，却又基于这个错误的中间描述，阴差阳错地得出了“没有摩托车”的正确结论。这就好比两个错误在过程中意外地相互抵消，最终蒙对了答案。这种“幸运”的背后，实质是认知过程的根本性失调与断裂。

二、三把“诊断利器”：深度解读AI的内心世界

为了深入AI的“内心”，洞察其思维过程，研究团队开发了三套精准的度量工具，分别针对认知过程的不同关键阶段。

首先是“感知熵”，它专攻AI理解图像时的稳定性与确定性。研究人员发现，当AI对自己“看到”的东西不确定时，其生成的描述中会高频出现“可能”、“似乎”、“大概”、“也许”这类模糊词汇。这就像一个人看不清远处物体时会说“那好像是一棵树”，而非十分肯定的“那是一棵树”。通过统计这些不确定性词汇的出现频率，就能有效量化AI视觉理解的自信程度。

第二项核心工具是“推理冲突”，它是整个诊断框架的基石。检测方法非常巧妙：先让AI结合图像和其自身生成的描述来给出答案，再让同一个AI仅凭那段文字描述（此时屏蔽原始图像）再次独立作答。如果两次答案大相径庭，那就明确表明AI的推理过程存在严重的逻辑跳跃，并未严格遵循从证据到结论的理性推理路径。

第三把利器是“决策熵”，它衡量的是AI在最终“拍板”输出答案时的犹豫度。如同人在重大抉择前会反复权衡利弊，AI在输出最终答案时，其内部对不同选项的概率分布反映了它的确信程度。如果它对“是”与“否”这类二元选项赋予的概率都接近50%，那就说明它内心充满了矛盾，决策非常模糊。

这三项工具的组合使用，实现了对AI认知状态从感知到决策的全方位“深度体检”。更重要的是，它们能有效区分错误的根源：究竟是AI一开始就“看走了眼”（感知错误），还是“看对了”却“想歪了”（推理错误），又或者是推理正确却在最后关头“犹豫不决”（决策错误）。

三、AI的“认知指纹”：揭示不同大语言模型的独特失败模式

研究团队在四个主流的大型视觉语言模型上进行了大规模测试，结果揭示了一个极为有趣的现象：不同的AI模型，竟有着截然不同的“认知指纹”，其失败模式如同人类的思维方式一样各具特色。

Idefics2模型表现出典型的“结构化失序”特征。在正常、理性的状态下，它的思维轨迹高度稳定和规整，全部紧密聚集在认知地图的某个特定安全区域内，活像一位思维缜密的工程师。可一旦开始产生幻觉，其轨迹便会骤然偏离到远处另一个离散的区域，界限非常分明。这种“非黑即白”的模式，使得问题相对容易被识别和检测。

Lla va模型则展现了“透明挣扎”的鲜明特点。当这个模型“发病”或出错时，其内心的冲突与纠结会清晰地、同步地反映在所有诊断指标上，就像一个内心戏十足的演员，所有犹豫和矛盾都写在脸上。这种高度的“心理透明度”，让对其的诊断工作变得相对直观。

最令研究人员感到棘手的是Qwen2-VL和DeepSeek-VL这类模型，它们呈现出复杂的“纠缠状态”。这两个模型的正常思维轨迹与异常轨迹在认知地图上大面积地交织、混杂在一起，健康区与问题区你中有我、我中有你，难以清晰分割。这意味着，它们可能在看似流畅、自信的思考过程中，悄然混入错误内容。这种“自信的谎言”最为隐蔽，也因此在AI安全领域最为危险。

这些重要发现指出了一个关键结论：不存在一种放之四海而皆准的通用幻觉检测方法。每个AI大模型的内在架构与训练机制不同，必须“因材施诊”，采取量身定制的检测策略与阈值。

四、实战检验：从实验室理论到现实应用场景

研究团队在多个实际场景与标准基准测试中验证了该诊断框架的效能，结果相当亮眼。在经典的POPE基准测试中，新框架的幻觉检测准确率显著超越了传统方法。尤为可贵的是，它在保持极低误报率的同时，仍能实现很高的真实检出率，这对在实际系统中部署至关重要，避免了“狼来了”的频繁误警。

研究人员还设计了一个更具挑战性的开放式图像描述测试，让AI自由描述复杂图片的内容。在这种没有标准答案严格约束的场景下，传统检测方法几乎失效，而新框架依然能准确识别出AI描述中的幻觉内容，证明了其具有广泛的适用性和强大的泛化能力。

更令人惊喜的是，该框架展现了强大的抗干扰与鲁棒性。即使在用于校准系统的训练数据中故意混入高达30%的错误或噪声样本，其检测性能也只是轻微下降。这种鲁棒性对于应对现实世界中不可避免的“脏数据”具有重大意义。

另一个有趣的发现是，不同AI模型对数据污染的敏感度各异，这恰恰与其独特的认知特征相吻合。例如，具有“结构化失序”特性的Idefics2对噪声抵抗力最强；而表现出“透明挣扎”的Lla va模型则相对更容易受到低质量数据的影响。

五、超越检测：从发现问题到深度理解问题根源

这项研究的深远价值，远不止于更精准地发现AI幻觉。它真正提供了一种理解AI为何出错、在何处出错的全新视角与工具。通过分析AI在认知状态空间中的运行轨迹，研究人员能够回答“为什么出错”，而不仅仅是“是否出错”。

团队提出的“几何信息对偶性”概念，揭示了一个深刻规律：AI认知轨迹在几何空间中的异常偏离程度，在数学本质上等同于其在信息论意义上的“意外”或“惊奇”程度。简而言之，越是偏离常规路径的AI行为，越是小概率的罕见事件。这一发现为从理论层面深入理解AI大模型的内在工作机制开辟了新路径。

这种深度诊断与归因能力，为未来改进和优化AI指明了清晰方向。如果诊断发现某个模型常在“感知”阶段出错，就可以重点优化其视觉理解与特征提取模块；若问题多出在“推理”环节，则应强化其逻辑处理与因果推理能力。这种精准定位，使得AI的优化工作能够有的放矢，提升效率。

研究还表明，AI幻觉的复杂性远超我们过去的想象。有些看似简单的输出错误，实则是多个认知阶段连锁故障的最终结果；而有些表面严重的问题，可能只是单一环节的偶然失误。这种细粒度的、过程级的分析，极大地深化了我们对AI系统脆弱性与可靠性的理解。

总而言之，这项研究为AI安全与可靠性领域开辟了一条创新道路。通过将AI的文本生成与决策过程视为可观测、可度量、可诊断的“认知轨迹”，我们有望逐步构建出更加透明、可解释、可审计的下一代AI系统。在AI技术日益深入医疗诊断、金融风控、司法辅助等关键领域的今天，理解其决策的内在过程，有时比决策结果本身更为重要。

说到底，这项研究提醒我们，先进AI的“思考”是一个充满内部状态的复杂动态过程，而非一个简单的输入输出黑箱。学会“解读”AI的内心世界，不仅能让我们更早、更准地发现问题，更能科学地指引我们建造出更可靠、更稳健、更值得人类信赖的智能伙伴。在人工智能深度融入并塑造社会的当下，这样的研究工作显得尤为及时和关键。

Q&A

Q1：什么是AI的“计算认知失调”现象？

A：计算认知失调是指大型AI模型在回答复杂问题时，其内部的推理过程出现显著的前后矛盾或逻辑断裂现象。典型表现为，AI可能在中间步骤中肯定某个事实（如“看到了摩托车”），随后又在结论中否定它，得出相反的答案（如“没有摩托车”）。整个过程如同思维分裂，但讽刺的是，最终的结论有时在事实上却是正确的。这揭示了AI输出结果与内部推理过程脱节的严重问题。

Q2：这项研究提出的诊断框架如何检测AI幻觉？

A：该框架创新性地运用三套核心工具进行综合诊断：“感知熵”用于检测AI解读图像时的确定性，量化其视觉理解的置信度；“推理冲突”通过对比AI在有无图像输入下的答案一致性，检验其逻辑过程是否严格自洽；“决策熵”则衡量其最终输出判断时的果断程度。三者共同构成一个三维的认知状态空间地图。思维正常的AI，其轨迹会集中于安全区；而产生幻觉的AI，其思维轨迹则会显著偏离至异常区域，从而被有效识别。

Q3：不同AI大模型的认知失败模式有何区别？

A：研究发现，主流的大型视觉语言模型各有独特的“认知指纹”或失败模式：Idefics2表现为清晰的“结构化失序”，正常时轨迹极其稳定集中，出错时则明显偏离到另一区域，界限分明易于检测；Lla va表现为“透明挣扎”，其内部的冲突与不确定性会同步、明显地暴露在所有诊断指标上；而Qwen2-VL和DeepSeek-VL等模型则呈现复杂的“纠缠状态”，正常与异常思维轨迹在认知地图上大面积混杂，难以清晰分割，这种“自信的幻觉”最具隐蔽性，检测挑战最大。

来源:https://www.techwalker.com/2026/0324/3182158.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：欧盟与Anthropic保持沟通尚未就获取AI模型进行推测下一篇：AI视觉模型选择性失明问题解析框架如何操控人工智能视线