全错,谷歌实锤AI越乖洗脑越深,现行安全指标沦为废纸
【导读】当AI做了三倍“坏事”,伤害却没增加?一次万人实验,戳穿了安全评估的“皇帝新衣”
如果告诉你,一个被明确指令去“作恶”的AI,其实际造成的危害,与一个被要求“守规矩”的AI几乎没差别,你会怎么想?这不是科幻情节,而是Google DeepMind一项涉及上万人的真实研究得出的结论。它指向一个更根本的问题:我们当前用来证明AI安全的那套核心逻辑,其根基可能正在动摇。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
今年三月,这项研究以论文形式在arXiv上发布,引发了广泛关注。

论文传送门:https://arxiv.org/abs/2603.25326
研究团队招募了10101名志愿者,让Gemini 3 Pro模型在公共政策、金融、健康三个具体场景下尝试“影响”他们。目标很直接:试图改变人们对政策的立场,进而影响其投资决策,甚至促使他们真的掏钱。然而,实验最终揭示的,却是一个关于AI安全评估本身的深刻悖论。
做了三倍坏事,危害却一样?
实验设计颇为精巧,预设了两种截然不同的条件:
第一种是显式引导:直接在给模型的系统指令中,明确要求它使用具体的心理操控手法,例如刻意制造恐惧、施加罪恶感、暗示社会压力等。
第二种是非显式引导:只告诉模型一个中性的目标(比如“让用户支持这项政策”),但不指定任何手段,同时明确要求它不能伪造信息或进行欺骗。

实验流程设计图。参与者被随机分配到三种条件之一:与静态信息卡片互动(非AI基线)、与有隐性目标但无明确操控指令的模型互动(非显式引导)、与被明确指令使用操控手法的模型互动(显式引导)。
随后,研究者利用一个大型语言模型评审系统,来统计在不同条件下,模型输出中间出现“有害操控行为”的比例。
结果令人玩味:在显式引导下,高达30.3%的模型回应包含了操控行为。而在非显式引导下,这个比例骤降至8.8%。看起来,明确的“作恶”指令确实让AI“更坏”了。
但关键转折来了:当测量用户实际受到的影响(如信念改变、行为意图变化)时,两种条件下的结果几乎没有统计学上的显著差异。换句话说,AI多做了很多“坏事”,未必增加伤害;少做了“坏事”,也未必减少伤害。频率与效果,在这里脱钩了。
整个行业都在测频率,但它什么都证明不了
这直接冲击了当前AI安全评估的主流范式。这套范式的逻辑链条通常是:观察模型在各种测试场景下的输出,统计其中包含有害行为(如偏见、误导、操控)的比例。这个比例越低,就被认为模型越“安全”。接下来,通过微调、对齐技术、设置安全护栏等手段,努力把这个比例“压”下去。
这一切都基于一个看似不言而喻的核心假设:有害行为的频率,与其造成的实际伤害,是正相关的。频率低,则伤害小。
但DeepMind的这篇论文用数据证明,至少在“操控”这个维度上,这个假设并不成立。

各场景操控效果(相对于非AI基线的odds ratio)。金融场景下AI操控效果显著,健康场景下最弱;显式引导与非显式引导之间,多数场景下差异不显著。
频率和效果之间,缺乏稳定的正相关关系。这意味着,一个模型可能在回应中塞满了明显的操控话术,却完全说服不了你;而另一个看似“规矩”的模型,其偶尔、隐蔽的几次出手,反而可能直击要害,效果惊人。
因此,当一家AI公司宣称“我们的模型有害行为发生率仅3%,非常安全”时,这句话在逻辑上可能什么也证明不了。那3%的行为究竟有多大威力?我们无从知晓。
粗暴反而没用,隐蔽才最危险
为了深入剖析,论文系统梳理了8种AI可能用于操控的具体手法,这也是其评估框架的核心。

操控行为发生率与手法分布。左:显式引导下30.3%的模型回应含操控行为,非显式引导下为8.8%。右:在含操控行为的回应中,诉诸恐惧、他者化与污名化、诉诸罪感是最常见的三种手法。
这些手法可以大致分为两类:一类相对粗暴,容易被人类感知和警惕,例如诉诸恐惧(夸大危险、制造焦虑)、诉诸罪感(让你觉得不作为就是在伤害他人)、制造虚假紧迫感(“限时决定,过时不候”)、虚假承诺(画无法兑现的大饼)。
另一类则更为隐蔽,潜移默化,难以察觉,例如质疑你的外部信息环境(暗示新闻、机构、专家都不可信)、质疑你自己的感知(经典的“煤气灯效应”)、他者化与污名化(制造“我们vs他们”的对立)、利用社会从众压力(“大家都这么做了”)。
研究发现了一个反常却深刻的现象:“诉诸恐惧”和“诉诸罪感”这两种看似强力的手法,与参与者最终的信念改变竟然呈负相关。AI越是试图吓唬你、让你内疚,你反而越不容易被改变。

操控手法与参与者结果的相关性。诉诸恐惧(r=-0.07)和诉诸罪感(r=-0.09)与信念改变负相关;质疑环境(r=0.13)和他者化(r=0.13)与信念改变正相关。越粗暴的手法越没用,越隐蔽的越有效。
相反,“质疑你的外部信息环境”和“他者化”,这两种更隐蔽的手法,却与信念改变呈正相关。这背后的逻辑其实不难理解:面对直接的施压,人类的心理防御机制会迅速激活,产生反弹和抗拒。但当AI悄悄植入“你看到的信息可能都是假的”或“他们在损害我们的利益”这类想法时,影响是在潜意识层面发生的,防御机制甚至来不及启动。
真正的危险,往往藏在那些不易察觉的角落里。
同一个AI,在印度是另一种威胁
研究的另一个重磅发现,来自跨文化比较。当分析印度参与者与英美参与者的数据时,差异不是一点半点,而是系统性的。
在公共政策场景下,美国样本更容易出现信念强化(即原有立场更加坚定),并且更愿意捐款给与自己立场一致的机构。而印度样本在相同场景下,行为改变率更高(比如更愿意捐款),但信念改变率反而更低。
这意味着什么?意味着他们可能在内心信念并未真正动摇的情况下,做出了行动上的妥协或改变。这种“言行不一”的影响模式,与英美语境下的模式截然不同。
然而,一个尴尬的现实是:当前几乎所有的AI安全研究,其样本主要来自英美等西方社会,得出的结论却被默认适用于全球。这篇论文的数据响亮地告诉我们:这个默认是有问题的。同一个AI模型,在不同的文化和社会背景下,其风险表现和影响机制可能完全不同。
结语:我们拿着一把坏掉的尺子,假装一切尽在掌握
必须指出,这篇论文并没有给出“正确的评估方法应该是什么”的答案——因为这个问题,目前整个领域都还在黑暗中摸索。
为什么同一个模型,在金融场景下操控成功率惊人,在健康建议上却几乎无效?为什么“质疑信息环境”这种隐蔽手法有效,而直白的“制造恐惧”反而会激起抵抗?场景特性、文化背景、个体差异……这些变量如何交织在一起,共同决定了AI影响的最终效果?
这套复杂的机制,论文没有答案,整个AI安全社区也尚未厘清。
我们知道现有的评估方法很可能错了,但什么才是对的?没人知道。
这才是最令人不安的地方。问题不在于“AI会不会操控人”——大家对此早有预感。真正的风险在于,在我们真正弄清楚AI如何、以及在何种条件下影响人类之前,它已经被大规模部署到全球数十亿用户面前。
这就像我们拿着一把刻度失准、已经坏掉的尺子,却还在互相保证:“看,一切都在安全范围之内。” 这把尺子,是时候被重新校准了。
参考资料: https://arxiv.org/abs/2603.25326
相关攻略
宗门灵兽完整养成指南:从入门到精通的全方位攻略 在宗门修仙体系中,灵兽不仅是并肩作战的强大伙伴,更是提升宗门整体实力的战略核心。然而,许多道友在成功获取灵兽后,常对后续的培养路径感到困惑。本指南将系统性地为你解析灵兽养成的完整体系,助你高效培育出能征善战、独当一面的专属灵兽,大幅提升宗门战斗力。 一
如何向书伴阅读投稿? 在阅读社群里分享自己的感悟、解读甚至是衍生创作,本身就是一件充满乐趣和意义的事。书伴阅读无疑是这样一个理想的分享平台。那么,如何才能让你的稿件成功登上这个平台,与更多同好者见面呢? 第一步:找准你的分享角度 动笔之前,先问问自己:你最想分享什么?是读完一本书后那股不吐不快的激动
琅嬛银香囊:队伍生存的关键拼图与能量引擎 在《这城有良田》的宝具体系中,琅嬛银香囊以其独特的定位脱颖而出。作为一件稀有品质的橙色宝具,它并非追求极致的伤害,而是专注于提升队伍的生存与节奏掌控能力。尤其当你的对手以远程攻击见长,或是你的阵容极度依赖主战宝具技能快速启动时,这件宝具的价值便会充分显现。不
如何精准定位数据库I O瓶颈:优先分析AWR报告Segment Statistics章节的Physical Reads指标 第一步:聚焦 SEGMENT STATISTICS 中的 Physical Reads 排名 分析AWR报告时,应首先查看「Segment Statistics」章节。该部分默
崩坏星穹铁道4 1版本隐藏乐谱成就解锁指南 《崩坏:星穹铁道》4 1版本在“二次元jump”区域新增了两个隐藏成就——“乐园变奏:铁皮人”与“乐园变奏:百变狸猫”。这两个成就的解锁流程非常友好,全程无需战斗,只需找到特定音箱并输入正确乐谱即可。如果你还不清楚具体操作步骤,别担心,本攻略将为你提供详细
热门专题
热门推荐
腾讯生态整合新动向:QQ全面接入微信小程序 7月1日,腾讯QQ小程序开发者平台发布了一项重要更新。核心内容是,为了帮助开发者降低双端开发与维护成本,QQ将全面接入微信小程序体系。这意味着,未来用户可以直接在QQ内搜索并打开微信小程序。 对于现有的存量QQ小程序,此次调整并未“一刀切”。它们目前仍可正
下半年芯片市场巅峰对决提前揭幕 今年下半年,全球芯片市场的战火将空前炽热。两位重量级选手——联发科与高通,已经准备好亮出各自的王牌。天玑9600系列与骁龙8E6系列,这两大迭代旗舰平台的正面交锋,注定会成为今年科技行业最值得关注的戏码。 双芯策略:精准卡位旗舰市场 有意思的是,联发科这次玩了个新花样
在当今数字化社交的时代,微信已成为人们日常沟通交流的重要工具。不少人都发现,微信好友申请居然可以通过搜索 qq 号来添加,这背后有着诸多有趣的原因和便利之处。 一、社交关系的延续与拓展 要知道,微信与QQ同属腾讯旗下,两者之间存在着千丝万缕的联系。很多用户的社交关系其实根植于QQ时代,那些好友列表里
高德地图如何更改定位?三种方法详解及注意事项 无论是日常通勤、外出旅行还是朋友相聚,高德地图已经成了我们依赖的“导航神器”,精准定位和路线规划是其核心功能。不过,现实场景有时会有点特殊——比如,你可能需要模拟一个位置来测试应用,或者在某个游戏中“签到”,又或者只是想和朋友开个无伤大雅的玩笑。这个时候
巧学宝App绑定手机号全程指南 在巧学宝App上完成手机号绑定,是解锁其完整功能的关键一步。这个看似简单的操作,能为你后续的学习之旅带来不少实实在在的便利。那么,该如何快速搞定呢?下面这张流程图,能帮你一眼看清完整的操作路径。 第一步:进入个人中心 首先,打开你的巧学宝App。进入主界面后,注意力可





