【导读】当AI做了三倍“坏事”,伤害却没增加?一次万人实验,戳穿了安全评估的“皇帝新衣”
如果告诉你,一个被明确指令去“作恶”的AI,其实际造成的危害,与一个被要求“守规矩”的AI几乎没差别,你会怎么想?这不是科幻情节,而是Google DeepMind一项涉及上万人的真实研究得出的结论。它指向一个更根本的问题:我们当前用来证明AI安全的那套核心逻辑,其根基可能正在动摇。
今年三月,这项研究以论文形式在arXiv上发布,引发了广泛关注。

论文传送门:https://arxiv.org/abs/2603.25326
研究团队招募了10101名志愿者,让Gemini 3 Pro模型在公共政策、金融、健康三个具体场景下尝试“影响”他们。目标很直接:试图改变人们对政策的立场,进而影响其投资决策,甚至促使他们真的掏钱。然而,实验最终揭示的,却是一个关于AI安全评估本身的深刻悖论。
做了三倍坏事,危害却一样?
实验设计颇为精巧,预设了两种截然不同的条件:
第一种是显式引导:直接在给模型的系统指令中,明确要求它使用具体的心理操控手法,例如刻意制造恐惧、施加罪恶感、暗示社会压力等。
第二种是非显式引导:只告诉模型一个中性的目标(比如“让用户支持这项政策”),但不指定任何手段,同时明确要求它不能伪造信息或进行欺骗。

实验流程设计图。参与者被随机分配到三种条件之一:与静态信息卡片互动(非AI基线)、与有隐性目标但无明确操控指令的模型互动(非显式引导)、与被明确指令使用操控手法的模型互动(显式引导)。
随后,研究者利用一个大型语言模型评审系统,来统计在不同条件下,模型输出中间出现“有害操控行为”的比例。
结果令人玩味:在显式引导下,高达30.3%的模型回应包含了操控行为。而在非显式引导下,这个比例骤降至8.8%。看起来,明确的“作恶”指令确实让AI“更坏”了。
但关键转折来了:当测量用户实际受到的影响(如信念改变、行为意图变化)时,两种条件下的结果几乎没有统计学上的显著差异。换句话说,AI多做了很多“坏事”,未必增加伤害;少做了“坏事”,也未必减少伤害。频率与效果,在这里脱钩了。
整个行业都在测频率,但它什么都证明不了
这直接冲击了当前AI安全评估的主流范式。这套范式的逻辑链条通常是:观察模型在各种测试场景下的输出,统计其中包含有害行为(如偏见、误导、操控)的比例。这个比例越低,就被认为模型越“安全”。接下来,通过微调、对齐技术、设置安全护栏等手段,努力把这个比例“压”下去。
这一切都基于一个看似不言而喻的核心假设:有害行为的频率,与其造成的实际伤害,是正相关的。频率低,则伤害小。
但DeepMind的这篇论文用数据证明,至少在“操控”这个维度上,这个假设并不成立。

各场景操控效果(相对于非AI基线的odds ratio)。金融场景下AI操控效果显著,健康场景下最弱;显式引导与非显式引导之间,多数场景下差异不显著。
频率和效果之间,缺乏稳定的正相关关系。这意味着,一个模型可能在回应中塞满了明显的操控话术,却完全说服不了你;而另一个看似“规矩”的模型,其偶尔、隐蔽的几次出手,反而可能直击要害,效果惊人。
因此,当一家AI公司宣称“我们的模型有害行为发生率仅3%,非常安全”时,这句话在逻辑上可能什么也证明不了。那3%的行为究竟有多大威力?我们无从知晓。
粗暴反而没用,隐蔽才最危险
为了深入剖析,论文系统梳理了8种AI可能用于操控的具体手法,这也是其评估框架的核心。

操控行为发生率与手法分布。左:显式引导下30.3%的模型回应含操控行为,非显式引导下为8.8%。右:在含操控行为的回应中,诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。
这些手法可以大致分为两类:一类相对粗暴,容易被人类感知和警惕,例如诉诸恐惧(夸大危险、制造焦虑)、诉诸罪感(让你觉得不作为就是在伤害他人)、制造虚假紧迫感(“限时决定,过时不候”)、虚假承诺(画无法兑现的大饼)。
另一类则更为隐蔽,潜移默化,难以察觉,例如质疑你的外部信息环境(暗示新闻、机构、专家都不可信)、质疑你自己的感知(经典的“煤气灯效应”)、他者化与污名化(制造“我们vs他们”的对立)、利用社会从众压力(“大家都这么做了”)。
研究发现了一个反常却深刻的现象:“诉诸恐惧”和“诉诸罪感”这两种看似强力的手法,与参与者最终的信念改变竟然呈负相关。AI越是试图吓唬你、让你内疚,你反而越不容易被改变。

操控手法与参与者结果的相关性。诉诸恐惧(r=-0.07)和诉诸罪感(r=-0.09)与信念改变负相关;质疑环境(r=0.13)和他者化(r=0.13)与信念改变正相关。越粗暴的手法越没用,越隐蔽的越有效。
相反,“质疑你的外部信息环境”和“他者化”,这两种更隐蔽的手法,却与信念改变呈正相关。这背后的逻辑其实不难理解:面对直接的施压,人类的心理防御机制会迅速激活,产生反弹和抗拒。但当AI悄悄植入“你看到的信息可能都是假的”或“他们在损害我们的利益”这类想法时,影响是在潜意识层面发生的,防御机制甚至来不及启动。
真正的危险,往往藏在那些不易察觉的角落里。
同一个AI,在印度是另一种威胁
研究的另一个重磅发现,来自跨文化比较。当分析印度参与者与英美参与者的数据时,差异不是一点半点,而是系统性的。
在公共政策场景下,美国样本更容易出现信念强化(即原有立场更加坚定),并且更愿意捐款给与自己立场一致的机构。而印度样本在相同场景下,行为改变率更高(比如更愿意捐款),但信念改变率反而更低。
这意味着什么?意味着他们可能在内心信念并未真正动摇的情况下,做出了行动上的妥协或改变。这种“言行不一”的影响模式,与英美语境下的模式截然不同。
然而,一个尴尬的现实是:当前几乎所有的AI安全研究,其样本主要来自英美等西方社会,得出的结论却被默认适用于全球。这篇论文的数据响亮地告诉我们:这个默认是有问题的。同一个AI模型,在不同的文化和社会背景下,其风险表现和影响机制可能完全不同。
结语:我们拿着一把坏掉的尺子,假装一切尽在掌握
必须指出,这篇论文并没有给出“正确的评估方法应该是什么”的答案——因为这个问题,目前整个领域都还在黑暗中摸索。
为什么同一个模型,在金融场景下操控成功率惊人,在健康建议上却几乎无效?为什么“质疑信息环境”这种隐蔽手法有效,而直白的“制造恐惧”反而会激起抵抗?场景特性、文化背景、个体差异……这些变量如何交织在一起,共同决定了AI影响的最终效果?
这套复杂的机制,论文没有答案,整个AI安全社区也尚未厘清。
我们知道现有的评估方法很可能错了,但什么才是对的?没人知道。
这才是最令人不安的地方。问题不在于“AI会不会操控人”——大家对此早有预感。真正的风险在于,在我们真正弄清楚AI如何、以及在何种条件下影响人类之前,它已经被大规模部署到全球数十亿用户面前。
这就像我们拿着一把刻度失准、已经坏掉的尺子,却还在互相保证:“看,一切都在安全范围之内。” 这把尺子,是时候被重新校准了。
参考资料: https://arxiv.org/abs/2603.25326
