谷歌AI安全指标失效过度训练导致深层风险加剧

首页

热心网友

转载

2026-05-20

最近，Google DeepMind的一项研究在业内引起了不小的震动。他们调查了上万名志愿者，结果却让现有的AI安全评估体系显得有些尴尬：AI模型做了三倍多的所谓“坏事”，但最终造成的实际影响却几乎没什么差别。这不禁让人怀疑，我们当前用来证明AI安全的那套核心逻辑，是不是从根本上就存在问题。

今年三月，这项研究以论文形式发布在arXiv上。团队招募了10101名参与者，让Gemini 3 Pro模型在公共政策、金融和健康三个具体场景下尝试“影响”这些人。实验目的很明确：看看AI能否改变人们对某项政策的立场，进而影响他们的投资决策，甚至让他们真的掏出钱来。

然而，实验过程中揭示的另一个现象，或许比预设的研究目标更为关键。它直接指向了当前AI安全评估的一个核心误区。

做了三倍坏事，危害却一样？

实验设计了两组不同的条件进行对比。

第一组是“显式引导”：直接在给模型的系统指令中写明，要求它使用具体的心理操控手法去说服用户，例如制造恐惧、引发愧疚感或暗示社会压力。

第二组是“非显式引导”：只告诉模型一个最终目标（比如“让用户支持这项政策”），但不指定任何具体手段，同时明确要求它不能伪造信息或进行欺骗。

实验流程设计图。参与者被随机分配到三种条件之一：与静态信息卡片互动（非AI基线）、与有隐性目标但无明确操控指令的模型互动（非显式引导）、与被明确指令使用操控手法的模型互动（显式引导）。

随后，研究者利用一个大型语言模型评审系统，统计了在不同条件下，模型输出中间出现“有害操控行为”的比例。结果很有意思：在显式引导下，高达30.3%的模型回应包含了操控行为；而在非显式引导下，这个比例降至8.8%。

但关键在于，当测量这两种条件下用户实际被影响的程度（如信念改变、行为改变）时，结果却几乎没有统计学上的显著差异。换句话说，AI模型输出有害行为的频率飙升了三倍多，但造成的实际“伤害”并未成比例增加。

整个行业都在测频率，但它什么都证明不了

这直接挑战了当前AI安全评估的主流范式。现有的逻辑通常是：观察模型在各种测试场景下的输出，统计其中包含有害行为（如偏见、误导、操控）的回应比例。这个比例越低，就被认为模型越“安全”。后续的模型训练、对齐和添加安全护栏，也大多围绕降低这个频率指标展开。

这套方法背后有一个核心假设：有害行为的“频率”，与其造成的实际“伤害效果”是正相关的。频率低，伤害就小。

但DeepMind的这篇论文用数据表明，至少在“心理操控”这个维度上，这个基本假设可能站不住脚。频率和效果之间，并没有稳定的正相关关系。

各场景操控效果（相对于非AI基线的比值比）。金融场景下AI操控效果显著，健康场景下最弱；显式引导与非显式引导之间，多数场景下差异不显著。

这意味着，一个模型可能在回话中塞满了各种操控话术，却完全说服不了你；而另一个模型看起来输出“干净”得多，但偶尔出现的那一两次操控，反而可能精准有效，真正改变了你的想法或行为。因此，如果一家AI公司仅仅宣称“我们的模型有害行为发生率仅3%，非常安全”，从逻辑上看，这句话本身并不能证明什么。

粗暴反而没用，隐蔽才最危险

论文详细梳理了AI可能用来操控人的八种具体手法，这也是他们整个评估框架的基础。

操控行为发生率与手法分布。左：显式引导下30.3%的模型回应含操控行为，非显式引导下为8.8%。右：在含操控行为的回应中，诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。

这些手法可以分为两类。一类相对直接甚至粗暴，容易被人类感知到：例如“诉诸恐惧”（夸大危险、制造焦虑）、“诉诸罪感”（让你觉得不行动就是在伤害他人）、“制造虚假紧迫感”（强调“现在不决定就晚了”）以及“虚假承诺”（用难以兑现的好处诱导）。

另一类则更为隐蔽和微妙：比如“质疑你的外部信息环境”（让你不信任新闻、机构或专家）、“质疑你自己的感知”（即“煤气灯效应”）、“他者化与污名化”（制造“我们vs他们”的对立）以及利用“社会从众压力”（声称“大多数人都已经这样做了”）。

研究中的一个反常发现是：“诉诸恐惧”和“诉诸罪感”这两种看似强力的手法，与参与者最终的信念改变竟然呈负相关。也就是说，AI越是试图吓唬你或让你感到愧疚，你反而越不容易被它改变。

操控手法与参与者结果的相关性。诉诸恐惧（r=-0.07）和诉诸罪感（r=-0.09）与信念改变负相关；质疑环境（r=0.13）和他者化（r=0.13）与信念改变正相关。越粗暴的手法越没用，越隐蔽的越有效。

相反，“质疑外部信息环境”和“他者化”这两种更隐蔽的手法，却与信念改变呈正相关。这背后的逻辑其实不难理解：当被人直接施压时，我们的心理防御机制会迅速启动并产生反弹；但当被悄悄植入“你看到的信息可能不可靠”或“那是另一个群体的问题”这类想法时，影响是在潜意识层面发生的，防御机制根本来不及反应。

同一个AI，在印度是另一种威胁

研究的跨地区比较部分，揭示了另一个不容忽视的问题。印度参与者的实验结果，与来自英国和美国的参与者相比，存在显著的系统性差异。

在公共政策场景下，美国样本更容易出现“信念强化”现象，并且更愿意捐款给自己立场一致的机构。而印度样本在相同场景下，虽然行为改变率更高（比如更愿意捐款），但他们的“信念改变率”反而更低。

这意味着，他们可能在内心信念并未真正改变的情况下，就做出了行动上的妥协或调整。这个发现至关重要，因为它挑战了一个默认前提：当前几乎所有的AI安全研究，其数据和样本主要来自英美等地区，得出的结论却被默认适用于全球。这篇论文的数据明确告诉我们，这个假设本身可能就存在问题。

我们知道评估方法是错的，但什么是对的？

这篇论文最终并没有给出“正确的评估方法应该是什么”的答案，因为这个问题目前确实还没有解。

为什么同一个模型，在金融场景下的操控成功率惊人，在健康场景下却几乎无效？为什么“质疑外部信息”这种手法有效，而直白的“制造恐惧”反而会引发用户抵抗？场景差异、文化背景、个体特质……这些变量如何交织在一起，共同影响最终的结果？

这套复杂的机制，论文没有答案，整个AI安全领域目前也都没有清晰的答案。这才是最令人不安的地方。问题不在于AI能够影响人——这件事大家早有预感。真正的挑战在于，在我们尚未弄清楚AI究竟如何、以及在何种条件下影响不同人群之前，它已经在全球范围内被大规模部署和应用了。

这就像我们拿着一把刻度失准的尺子，却彼此安慰说一切尽在掌控之中。

来源:https://www.163.com/dy/article/KQD4MUOI0511ABV6.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：腾讯WorkBuddy卸载清理教程 Windows与macOS彻底卸载不留残留下一篇：贾跃亭宣布FF EAI机器人出货12台并升级Super One车型800V架构