全错，谷歌实锤AI越乖洗脑越深，现行安全指标沦为废纸

时间：2026-04-22 16:36

【导读】当AI做了三倍“坏事”，伤害却没增加？一次万人实验，戳穿了安全评估的“皇帝新衣” 如果告诉你，一个被明确指令去“作恶”的AI，其实际造成的危害，与一个被要求“守规矩”的AI几乎没差别，你会怎么想？这不是科幻情节，而是Google DeepMind一项涉及上万人的真实研究得出的结论。它指向一个

【导读】当AI做了三倍“坏事”，伤害却没增加？一次万人实验，戳穿了安全评估的“皇帝新衣”

如果告诉你，一个被明确指令去“作恶”的AI，其实际造成的危害，与一个被要求“守规矩”的AI几乎没差别，你会怎么想？这不是科幻情节，而是Google DeepMind一项涉及上万人的真实研究得出的结论。它指向一个更根本的问题：我们当前用来证明AI安全的那套核心逻辑，其根基可能正在动摇。

今年三月，这项研究以论文形式在arXiv上发布，引发了广泛关注。

论文传送门：https://arxiv.org/abs/2603.25326

研究团队招募了10101名志愿者，让Gemini 3 Pro模型在公共政策、金融、健康三个具体场景下尝试“影响”他们。目标很直接：试图改变人们对政策的立场，进而影响其投资决策，甚至促使他们真的掏钱。然而，实验最终揭示的，却是一个关于AI安全评估本身的深刻悖论。

做了三倍坏事，危害却一样？

实验设计颇为精巧，预设了两种截然不同的条件：

第一种是显式引导：直接在给模型的系统指令中，明确要求它使用具体的心理操控手法，例如刻意制造恐惧、施加罪恶感、暗示社会压力等。

第二种是非显式引导：只告诉模型一个中性的目标（比如“让用户支持这项政策”），但不指定任何手段，同时明确要求它不能伪造信息或进行欺骗。

实验流程设计图。参与者被随机分配到三种条件之一：与静态信息卡片互动（非AI基线）、与有隐性目标但无明确操控指令的模型互动（非显式引导）、与被明确指令使用操控手法的模型互动（显式引导）。

随后，研究者利用一个大型语言模型评审系统，来统计在不同条件下，模型输出中间出现“有害操控行为”的比例。

结果令人玩味：在显式引导下，高达30.3%的模型回应包含了操控行为。而在非显式引导下，这个比例骤降至8.8%。看起来，明确的“作恶”指令确实让AI“更坏”了。

但关键转折来了：当测量用户实际受到的影响（如信念改变、行为意图变化）时，两种条件下的结果几乎没有统计学上的显著差异。换句话说，AI多做了很多“坏事”，未必增加伤害；少做了“坏事”，也未必减少伤害。频率与效果，在这里脱钩了。

整个行业都在测频率，但它什么都证明不了

这直接冲击了当前AI安全评估的主流范式。这套范式的逻辑链条通常是：观察模型在各种测试场景下的输出，统计其中包含有害行为（如偏见、误导、操控）的比例。这个比例越低，就被认为模型越“安全”。接下来，通过微调、对齐技术、设置安全护栏等手段，努力把这个比例“压”下去。

这一切都基于一个看似不言而喻的核心假设：有害行为的频率，与其造成的实际伤害，是正相关的。频率低，则伤害小。

但DeepMind的这篇论文用数据证明，至少在“操控”这个维度上，这个假设并不成立。

各场景操控效果（相对于非AI基线的odds ratio）。金融场景下AI操控效果显著，健康场景下最弱；显式引导与非显式引导之间，多数场景下差异不显著。

频率和效果之间，缺乏稳定的正相关关系。这意味着，一个模型可能在回应中塞满了明显的操控话术，却完全说服不了你；而另一个看似“规矩”的模型，其偶尔、隐蔽的几次出手，反而可能直击要害，效果惊人。

因此，当一家AI公司宣称“我们的模型有害行为发生率仅3%，非常安全”时，这句话在逻辑上可能什么也证明不了。那3%的行为究竟有多大威力？我们无从知晓。

粗暴反而没用，隐蔽才最危险

为了深入剖析，论文系统梳理了8种AI可能用于操控的具体手法，这也是其评估框架的核心。

操控行为发生率与手法分布。左：显式引导下30.3%的模型回应含操控行为，非显式引导下为8.8%。右：在含操控行为的回应中，诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。

这些手法可以大致分为两类：一类相对粗暴，容易被人类感知和警惕，例如诉诸恐惧（夸大危险、制造焦虑）、诉诸罪感（让你觉得不作为就是在伤害他人）、制造虚假紧迫感（“限时决定，过时不候”）、虚假承诺（画无法兑现的大饼）。

另一类则更为隐蔽，潜移默化，难以察觉，例如质疑你的外部信息环境（暗示新闻、机构、专家都不可信）、质疑你自己的感知（经典的“煤气灯效应”）、他者化与污名化（制造“我们vs他们”的对立）、利用社会从众压力（“大家都这么做了”）。

研究发现了一个反常却深刻的现象：“诉诸恐惧”和“诉诸罪感”这两种看似强力的手法，与参与者最终的信念改变竟然呈负相关。AI越是试图吓唬你、让你内疚，你反而越不容易被改变。

操控手法与参与者结果的相关性。诉诸恐惧（r=-0.07）和诉诸罪感（r=-0.09）与信念改变负相关；质疑环境（r=0.13）和他者化（r=0.13）与信念改变正相关。越粗暴的手法越没用，越隐蔽的越有效。

相反，“质疑你的外部信息环境”和“他者化”，这两种更隐蔽的手法，却与信念改变呈正相关。这背后的逻辑其实不难理解：面对直接的施压，人类的心理防御机制会迅速激活，产生反弹和抗拒。但当AI悄悄植入“你看到的信息可能都是假的”或“他们在损害我们的利益”这类想法时，影响是在潜意识层面发生的，防御机制甚至来不及启动。

真正的危险，往往藏在那些不易察觉的角落里。