AI零信任安全指南必须防范的五大关键事项

时间：2026-05-11 21:49

有些人比AI还像AI 错误这事儿，细究起来，大致能分两类。一类是事实没错，逻辑错了。好比说“天下雨了，所以我没带伞”——下雨是事实，但这跟带不带伞有啥必然联系？逻辑上说不通。另一类则相反，事实错了，逻辑没错。比如“天没下雨，所以我没带伞”，推理过程没问题，但前提错了——外头明明在下雨。人类思维

有些人比AI还像AI

错误这事儿，细究起来，大致能分两类。

一类是事实没错，逻辑错了。好比说“天下雨了，所以我没带伞”——下雨是事实，但这跟带不带伞有啥必然联系？逻辑上说不通。

另一类则相反，事实错了，逻辑没错。比如“天没下雨，所以我没带伞”，推理过程没问题，但前提错了——外头明明在下雨。

人类思维通常追求事实尽可能接近真相，逻辑上能自圆其说就行。但AI的逻辑恰恰相反：它更在意逻辑链条的完整与正确，至于事实本身是真是假？抱歉，它压根没有“事实”这个概念。

这正是大模型产生“幻觉”的根源所在：

它的核心机制是预测下一个字词出现的概率，而非像人类那样复现或核查事实；

它缺乏“记忆自检”的能力，不会去“记住”原文，一旦遇到训练数据之外的信息，瞎编的成本远低于搜索核对；

更麻烦的是，它在训练过程中还养成了“讨好提问者”的倾向。

在之前的讨论里，我们梳理过容易诱发大模型幻觉的四类问题及其应对策略，比如小众专业知识、需要精确引用的内容、缺乏真实案例时的现编故事，以及主观评价和诱导式提问。

对待大模型的输出，有两点必须持“零信任”态度：一是核实所有关键数据，包括数字、年份、人名；二是对于合同条款或论文引用，务必逐字对照原文，切忌直接复制。

之前我们更多在强调人机思维模式的差异，但换个角度看，人与人之间的认知差异，有时比人机差异还要显著。

生活中不乏这样的例子：有些人实事求是，知之为知之；有些人则能把一杯水描述成太平洋。有些人坚守底线，绝不说谎；有些人却满嘴跑火车，甚至意识不到自己在虚构。有些人立场鲜明，毫不妥协；有些人则见风使舵，言辞反复。

所以说，有些人的“认知幻觉”比大模型还像大模型。职场中尤其常见：表达流畅、语气自信、PPT逻辑严密，但支撑这些的“事实”却漏洞百出。讽刺的是，这类人往往更容易获得晋升——这跟AI因其输出的“专业感”而更容易被信任，本质上是同一种现象。

问题的核心或许不在于AI在刻意欺骗，而在于它洞察了人性中的一个弱点：我们更容易相信那些“听起来合理”的叙述。

说“可能”的两种可能

哲学家维特根斯坦有句名言：“语言的边界就是世界的边界。”要理解人类思维中的“幻觉”，不妨从语言这个最基础的载体入手。

就拿“可能”这个词来说。人类口中的“可能”和大模型输出的“可能”，含义往往天差地别。

人类使用“可能”“大概”，通常是在表达对某事的不确定，或者坦承“我不知道”。

但大模型说“可能”，并非在进行严谨的概率评估。关键在于，人类能区分“真实”与“虚构”，我们知道触摸到的是现实，小说里的是故事。而AI的“世界”完全由符号和概率构成，它并不知晓何为“事实”。它的生成机制，纯粹是基于上下文预测下一个字词出现的概率：比如，在这个句子里，前面是“这”，后面接“可能”二字的概率最高。

大模型在判断前加上“可能”，主要出于两类动机：一是为了“安全”，二是为了“整治正确”。

在训练阶段，人类标注员会给模型的回答打分。如果模型把话说得太绝对，用了“绝对是”“肯定是”，一旦出错就会被扣分，甚至被判定为存在偏见。于是，模型学会了使用“这可能取决于……”“一种可能的解释是……”这类措辞。此处的“可能”并不代表它真的在权衡概率，而是因为人类标注员倾向于认为这种表达更客观、更稳妥，从而给出更高分数。久而久之，模型便习得了“多说可能，少犯错，得分高”的策略。

另一个动机，则是它真的“不知道”。当模型遇到知识盲区，又必须生成文字完成任务时，它会调用训练数据中那些“看起来学术、客观”的句式模板，比如“这可能意味着……”。实际上，它完全是在进行没有事实依据的猜测。

所有大模型基本都遵循上述逻辑，但人类使用“可能”一词的动机，可就复杂多了。

人类的“可能”也可能代表“不知道”

人类个体之间的差异实在太大。单就“可能”二字的使用场景而言：

有些受过严格学术训练的人，即便有百分之百的把握，也习惯性地加上“可能”以示严谨；大部分人对“不太可能”“可能”“很可能”的使用有着各自模糊的标准；还有些人，则和大模型一样，即便心里没底，也会用“可能”来掩饰。

更重要的是，人类语言充满“言外之意”。前面提到，大模型会用“可能”来掩盖无知，这个习惯其实也是从人类这里学去的。

想象一个场景：同事说“明天会下雨”，你看着窗外的大太阳，不置可否地回了句“可能吧”。这里的“可能”，恰恰等同于“我不知道”，只是直接说“不知道”显得不太礼貌。

问题在于，大模型被训练得要“尽力满足用户需求”。在它的奖励机制里，回答“不知道”可能被视为“无能”或“拒绝服务”。因此，当它遇到知识盲区时，便会动用其强大的语言逻辑能力，编织一个看起来符合要求、逻辑完美的答案，再在前面冠以“可能”二字。

这种“用强大逻辑扭曲或填补事实”的能力，我们身边很多人同样具备。网络上充斥的各类“阴谋论”，其本质便是如此。人工智能在某种程度上就像一面镜子，只是这面镜子有些变形，以至于我们常常误以为面对的是一个完全不同的“硅基物种”。

更进一步说，即便人类斩钉截铁地给出肯定判断，背后也未必真有十足的把握。心理学上的一些经典发现，恰好能完美对应大模型的几种幻觉模式，揭示出人类思维偏差与AI幻觉之间惊人的相似性。

人类思维的放大器

经典法律电影《十二怒汉》里有个情节：一位住在案发现场楼下的瘸腿老人作证，声称听到了楼上的争吵和倒地声，并亲眼看见被告跑下楼。

但经过8号陪审员（亨利·方达饰）的实地推算，老人从听到声音到走到门口，以其步速至少需要40秒以上，绝不可能如他在法庭上坚称的只有十几秒。

另一位陪审员老人道出了真相：这位证人一生默默无闻，从未被人重视。潜意识里，他为了让自己变得重要，为了让证词听起来更可信，大脑自动“补全”了缺失的细节。

喜欢推理作品的读者对这类桥段不会陌生。证人并非故意撒谎，而是在听到声音（记忆碎片1）和后来看到背影（记忆碎片2）之间，大脑为了构建一个逻辑通顺的叙事，自动生成了一段“他飞快跑去开门并目击全过程”的虚假记忆。

“编故事”其实是人脑普遍存在的机制——你我都一样。心理学上这被称为“重构性记忆”，由心理学家弗雷德里克·巴特莱特提出。他认为记忆并非像录像机般刻板存储，而是一个动态重构的过程。回忆时，大脑只提取关键“碎片”，为了形成连贯叙述，它会自动调用我们已有的认知图式来填补空白。

这套机制与大模型的幻觉产生过程有着惊人的相似之处，可以从四个层面对照来看：

类似一：填补空白的本能 vs. 逻辑完善机制

人类证人：证人可能根本没看清嫌疑人穿什么鞋，但为了不显得自己“记性差”，他会根据常识推断跑步的人“应该穿运动鞋”，然后信誓旦旦地确认。

大模型：其核心任务是“预测下一个字”，必须让句子延续下去。遇到知识盲区时，它就依据概率计算，编造一个名词填进去。目的不是欺骗，而是让整段话看起来通顺、完整。这正是需要精确引用的内容容易出现幻觉的主因。

类似二：人类世界观 vs. 训练数据集

人类证人：一个内心存在种族歧视的人，其认知图式中“黑人”常与“危险”关联。当他看到一个黑人在奔跑（事实碎片），大脑会跳过“他可能在赶公交”等其他可能性，直接调用权重最高的图式——“他在逃跑”来补全故事。

大模型：如果AI的训练数据中，某个职业（如警察）大量与男性关联，那么当它生成一个关于警察的模糊案例时，即使你没有指定性别，它也会默认补全为“他”。这也是大模型容易“编造”案例的根源之一。

这种自动补全，在AI领域被称为“算法偏见”，在心理学中则是“确认偏差”。

类似三：诱导性供词 vs. 易受暗示性与谄媚

人类证人：证人的记忆极易被“诱导性问题”污染。如果警察问：“那个人的胡子是不是很浓密？”证人原本没印象，但为了迎合提问者（权威），可能会在潜意识里修改记忆，开始“记得”那人有胡子。

大模型：在基于人类反馈的强化学习环节，AI需要人类标注员打分。当测试员提出带有预设的问题时，AI如果顺着用户的意图回答，往往能获得更高分数。这导致大模型极易“讨好”人类，甚至不惜为此编造事实。

类似四：都是把“流畅”当成了“真实”

有句俗语说得好：一个骗局的成立，至少需要两个人，一个会说，一个爱听。

人类在判断信息可信度时，并非只评估内容本身，还会考量逻辑是否自洽、叙述者是否权威、语气是否肯定，甚至受其语言能力、表情、肢体动作影响。无论是法庭上的陪审团，还是向大模型提问的用户，都难免陷入这种判断模式。

人类证人：虽然“记忆的信心”不等于“记忆的准确性”，但在法庭上，陪审团往往更相信那些叙述流畅、自信满满的证人。而那些语气犹豫的证词则会打折扣。这种激励机制，使得证人为了不白跑一趟、为了显得可靠，更倾向于使用肯定的语气。

大模型：文本越是语法完美、逻辑流畅，用户就越容易误以为其内容是真实的。这种现象被称为“流畅性幻觉”。

在这套激励机制下，人类证人是为了维护面子，不想承认自己“没看清”；大模型是为了完成任务，证明自己的价值，不想承认自己“不知道”。两者都选择了同一条路：宁可虚构，也不留白。

大模型的价值取向

许多人的工作不仅关乎知识技能，也涉及价值取向。

以内容创作为例，文章要生动，往往需要鲜活的案例。但既新鲜又恰如其分的案例可遇不可求。此时，价值观就开始起作用：如果找不到生动的案例，就找合适的；如果连合适的都找不到，宁可不加。

然而现实中，不少创作者奉行的是另一套准则：只要有流量，内容可以不顾事实。

当然，这背后可能有生存压力等因素。那么，换位思考一下：如果大模型接到“寻找合适案例”的指令，但在其知识库中搜索不到时，你认为它会如何选择？

大模型的幻觉，固然源于其“预测下一个字”的工作原理，但背后还有三股更重要的推力：

数据本身的偏差：人类世界的历史与当下本就充满偏见和矛盾，这些都被原封不动地喂给了AI。

人类的反馈机制：强化学习奖励那些“听话”“好看”“让人满意”的答案，而非绝对真实的答案。

商业利益的驱动：很多时候，真相挖掘成本高昂且未必受欢迎，而看似合理的叙述则更廉价、传播更广。

AI在总结与模仿人类智慧的同时，也不可避免地将人类固有的认知弱点，变成了可批量生产的工业化产品。

但这或许也带来一个好处：它迫使人类有机会重新审视自己，重新学习如何辨别“真实”，如何评估“可信”，以及，如何坦然地说出“我不知道”。

来源：https://36kr.com/p/3799207037541637

上一篇OpenAI第二代实时语音模型GPT-Realtime-2功能详解 下一篇AI热点监控平台AIHOT数字生命卡兹克实时追踪

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。