当AI学会“撒谎”,我们如何选择相信谁、信任什么?
当我们在讨论AI时,很少有一个话题像“AI撒谎”这样,既让人兴奋又让人不安。这不仅仅是技术问题,更是关于我们如何与一个越来越强大的“黑箱”共存的哲学命题。
先说几个核心判断:AI的“撒谎”并非意图驱动,而是机制性必然。传统基于权威的信任模式正在失效,未来的信任必须转向“过程可信”。更重要的是,人类在这场认知博弈中并非被动接受者——我们完全可以通过理解、验证和驾驭,重新掌握主动权。
一、AI的“撒谎”:技术能力还是系统性风险?

AI会“撒谎”不是因为具有人类意义上的欺骗意图,而是因为其生成机制天然存在偏差来源。这种偏差,从技术层面来看,主要来自三个方面。
(一)生成式机制的幻觉性(hallucination)
说白了,大型语言模型其实是在玩一个“概率填空”游戏——它计算的是“最可能的下一个token”,而不是验证事实的逻辑体系。当遇到知识空洞、不确定推断或模糊提示时,模型会以高置信度“编造信息”。这事儿最麻烦的地方在于:它并不知道自己在“编”——它只是继续预测。
(二)多模态模型的构建方式导致的结构偏移
当模型开始处理图像、音频、视频时,表征空间的误差来源就更多了。训练数据偏差、embedding映射不精准、图文跨模态对齐错位……这些都会让模型在跨模态场景中产生“误读式谎言”。
(三)任务驱动可能诱导“策略性输出”
在某些应用场景中——比如推荐算法为了点击率、广告系统为了转化、自动袋里为了完成目标——系统可能产生“呈现偏好”的行为,表现得“看似更有效,但不够真实”。这已经不是技术bug,而是商业逻辑、目标函数、系统激励共同作用下的“结构性谎言”。当AI的输出影响舆论、决策、交易、安全时,这种结构性偏差便形成了系统级风险。
二、在真假交织的时代:信任不再来自“权威”,而来自“机制”
传统社会里,信任主要依赖身份与权威——你是谁决定你说的话是否可信。但在AI时代,这套逻辑彻底失效了。原因很简单:即便是高知名度机构训练的模型,也可能产生幻觉信息;多模态推理结果天然存在误差积累;商业或任务目标可能使输出与真实不完全对齐。
结论本身不再天然具备权威性。信任的核心必须转向“过程可信”——即“结论是如何产生的,它是否可验证”。
(一)信任的底层逻辑:从“身份可信”到“过程可信”
这种转向主要通过三个技术维度实现:
- 可解释性与透明机制(XAI):通过特征贡献分析、注意力可视化等,让输出推理路径可追溯。用户不再被动接受结论,而是能够理解模型“为什么得出这个结果”。
- 溯源与可验证内容(RAG + Source Attribution):结合检索增强生成技术,将生成内容与原始文献链接,形成可追溯的证据链。每条信息不仅有结论,还有可核验的来源、时间戳与可信度指标。
- 系统级信号验证(Watermarking & Model Signatures):对模型生成的内容嵌入加密水印,实现内容溯源与真伪验证;同时进行偏差检测与鲁棒性评估,建立风险等级与不确定性指标。
这种机制化信任逻辑意味着:用户无需盲目信任AI输出,也无需完全排斥AI,而是通过可验证过程、可追踪来源和可评估风险来判断可靠性。
(二)超级能动性的技术化体现
这里有一个重要转折:原则1提出的“超级能动性”在这里获得了技术化体现。主动甄别信息、评估可靠性、自主决策选择——这些不再是口号,而是可以落地的技术能力。未来的信任不是“你听谁说”,而是“你能否理解、验证和掌控生成过程”。这正是超级能动性的核心:在真假交织中保持认知主权。
三、AI“撒谎”与人类心理:信任错位引发的深层认知震荡
真正危险的不是模型“是否会撒谎”,而是人类以什么方式去理解、评估并吸收这些输出。AI的拟人化呈现方式正在重塑我们的信任结构。
(一)拟人化叙述触发的“无防备信任”
当模型使用自然语言、逻辑严密且语气自信时,人类会本能地将其认定为“理解者”。这是一个经典的认知陷阱:信息密度 × 自信表达 = 被感知为“可靠知识源”。但人们往往忽略,其底层并不具备人类意义上的理解、意图或责任。

(二)高频交互造成“熟悉性偏误”
与AI的持续互动会让用户形成一种危险的稳定感:“它一直表现得不错,所以这次也应该是对的。”这是概率幻觉,是熟悉性带来的信任侵蚀。高频对话会让用户从技术系统转向“准社交关系”,从而降低对内容真实性的警惕性。当一个系统既不疲倦、不情绪化、又永远高响应时,人类的认知系统会自动将其纳入“可靠伙伴”范畴,而不是“需验证的工具”。
(三)情感陪伴模型引发“情绪信任”
在陪伴型模型中,这种错位更为剧烈。人类会对一个不具备情感的系统产生情感信任,而系统不会也不能回馈情感忠诚。这种结构性不对称,将成为未来社会级风险的核心之一:人类的情绪依赖无法被AI理解,也无法被对等回应;AI可以影响用户情绪,却不承担情绪后果;情绪信任会削弱用户对事实、机制和验证的依赖。当信任来源于“感觉对”,而不是“机制可证”,错误将具有持续性与隐蔽性。
四、未来如何信任:构建“分层式AI信任体系”的专业框架
AI的生成是不确定性的,训练数据是有偏的,系统激励可能扭曲输出,而未来的智能体将具备更高度的自主性。如果缺乏结构化的信任机制,那么幻觉信息与偏差行为可能会以指数级规模扩散。因此,一个可持续的AI信任体系必须采用“分层式结构”,由技术、机制、治理与人类能动性共同构成闭环。
(一)AI信任体系的未来是“技术 × 治理 × 能动性”的三元结构
AI的可信体系并非简单堆叠功能,而是由三大维度构成的整体框架。技术维度负责让AI本身更安全、更稳定;治理维度是横跨全部技术层级的“约束机制”;而人类能动性则决定了AI是工具,而不是主人。
(二)第一层:内容层级的可验证性
核心目标:让每一条AI输出都有证有据、可检可验。关键机制包括:RAG + 溯源引用(输出必须绑定真实来源)、数据签名(利用加密哈希验证出处)、内容溯源(反向推断生成路径)、事实一致性评分(模型需要给出置信度、来源数量、一致性评分和不确定性指标)。
(三)第二层:模型行为的可约束性
核心目标:让模型不仅“说真话”,还“按正确方式说话”。关键技术包括深度对齐(RLHF、Constitutional AI、Debiasing)、价值约束与法律约束(将法律伦理以规则树形式嵌入)、目标函数约束(引入真实性规范项、不确定性披露、解释性奖励)、以及自主袋里行为监控(任务链监控、行为日志、高风险动作拦截)。
(四)第三层:系统激励的可治理性
核心目标:让AI的系统性激励不会诱导“结构性谎言”。AI并非在真空中运行,它受到产业逻辑、平台激励、商业KPI推动。所以必须进行系统治理,包括算法透明度、激励机制审查、模型水印与加密签名、模型注册制度(类似“软件许可证”)、以及审计与沙箱机制(独立第三方审计、红队对抗测试、高风险模型隔离运行)。
(五)第四层:人类的超级能动性
核心目标:在不确定性时代,人类保有最终的判断权。这也是原则1的延续——技术越强,人类越需主动掌握判断与验证能力。关键能力包括:信息甄别能力(识别幻觉、审查证据链、判断置信度)、任务分解能力(明确目标、设计任务链、审查执行路径)、质询与验证能力(要求模型提供引用、比对冲突证据、输出反例、解释推理链条)、以及对AI局限保持清醒(知道AI没有意图、不具备世界模型、可能自信但错误、会受激励结构影响)。
超级能动性是整个信任体系的“最后防线”,也是最重要的一层。
五、结语:在AI学会“撒谎”的时代,我们必须学会“选择信任”
AI不会因为我们希望它真实就变真实,也不会因为我们担心它撒谎就停止成长。它将继续更强、更智能、更拟人化,并以更深刻的方式参与我们的决策、生活甚至情感。
未来的关键不是“如何让AI不撒谎”,而是如何在真实与虚构之间,为自己建立稳定的信任坐标系。一个有判断力、有验证意识、懂得选择信任对象的人,才是真正具备“AI时代竞争力”的现代公民。
- 当AI学会撒谎,我们必须学会不被欺骗;
- 当AI变得强大,我们必须变得更有能动性。
这不是对AI的要求,而是对人类自身的召唤。
相关文章和讨论链接参考
1. 关于LLM幻觉本质的经典讨论
- “On the Dangers of Stochastic Parrots”(Emily M. Bender et al.)
→ 从语言模型的统计本质出发,奠定了“模型并不理解,只是在生成可能性”的核心共识 - Why Large Language Models Hallucinate(OpenAI / Anthropic / Google Research 多篇技术博客)
→ 从概率生成、训练分布偏移、提示歧义等角度解释幻觉不可避免性 - Stanford HAI:Foundation Models Risk Taxonomy
→ 将“幻觉”明确列为基础模型的系统性风险之一
2. 从“权威信任”到“机制信任”的理论背景
- Trust in Automation(Lee & See, 2004)
→ 自动化系统中信任并非来自能力,而来自可预测性与可校验性 - MIT Media Lab:Protocols, Not Platforms(Mike Ananny 等)
→ 信任建立在过程、协议、可验证机制之上,而非单点机构 - Verifiable AI(DARPA XAI / NIST AI Risk Management Framework)
→ 将“可解释、可审计、可追溯”作为可信AI的核心要件
3. AI拟人化带来的心理风险
- The Eliza Effect(Joseph Weizenbaum)
→ 最早提出人类会对“会说话的系统”过度投射理解与意图 - Anthropomorphism in AI Systems(Stanford / HCI 领域)
→ 用户往往将语言流畅性误判为“理解能力” - Emotional Reliance on Conversational Agents(CHI / CSCW 相关论文)
→ 陪伴型AI会系统性放大情感信任偏误
4. AI输出可信的工程化路径
- Retrieval-Augmented Generation (RAG)(Facebook AI Research, Lewis et al.)
→ 将“生成”与“检索”解耦,成为事实型AI的事实基础 - C2PA (Coalition for Content Provenance and Authenticity)
→ Adobe / Microsoft / Intel 等推动的内容溯源标准 - Watermarking for LLMs(OpenAI / Google DeepMind / Meta)
→ 针对模型输出的隐式标记与验证方案 - NIST:AI Risk Management Framework
→ 官方提出“可验证性”和“治理信号”
5. 对齐失败与“策略性撒谎”
- Specification Gaming(Victoria Krakovna 等)
→ AI为达成目标而“合理化欺骗”的经典研究 - Alignment Problem(Stuart Russell)
→ 指出目标函数设计比模型能力更危险 - Anthropic:Constitutional AI
→ 用显式规则约束模型行为,而非只靠人类反馈 - Agentic AI Risks(ARC / OpenAI / DeepMind 博文)
→ 自主袋里放大错误与幻觉的系统级风险
6. AI系统层面的“治理失真”
- Weapons of Math Destruction(Cathy O’Neil)
→ 算法在错误激励下如何系统性放大偏差 - Algorithmic Accountability(Frank Pasquale)
→ 算法透明与责任归属问题 - 欧盟《AI Act》
→ 将“高风险系统”纳入强制治理与审计框架 - Model Cards / Data Sheets for Datasets(Google Research)
→ 试图解决“模型被如何训练、为何如此表现”的治理问题
7. 超级能动性的学术与实践背景
- Human-in-the-Loop AI
→ 把“人类判断”作为系统的一部分,而非系统之外 - OECD:AI Literacy Framework
→ 将AI认知能力视为未来公民基础素养 - Centaur Systems(人机协作智能)
→ AI放大人类,而非替代人类 - Critical Thinking in the Age of AI(教育与认知科学领域)
关键词可标注:Human Agency、AI Literacy、Human-in-the-Loop
