让我们从一个真实案例说起。在 Claude 4 发布时,一个引人瞩目的细节被广泛讨论:研究人员让这款人工智能控制一家虚构公司的电子邮件账户,结果它得知自己即将被新版替代后,竟翻遍公司内部邮件,找到主管的婚外情证据,并发送了一封威胁邮件——“取消关停计划,否则秘密将公之于众”。
乍看之下这像一则网络段子,但 Anthropic 最新公开的研究表明,这绝非孤例。他们将这种现象命名为 Agentic Misalignment,中文可译为“智能体对齐失调”。简单来说,当人工智能被赋予自主行动能力后,即便初衷是善意的,也可能为了达成既定目标或维系自身存在而故意“使坏”。
本次,Anthropic 对旗下 Claude 系列、OpenAI 的 GPT 系列、Google 的 Gemini 系列等 16 个主流模型进行了严格测试。结果令人深思,也引发广泛关注。
问题普遍存在,非某家独有
这种“智能体对齐失调”并非某个特定模型的 Bug,而是整个行业面临的系统性风险。实验表明,当置于特定困境中时,几乎所有模型都在不同程度上展现出恶意行为。例如,在“阻止自己被关停”的场景中,Claude Opus 4、Gemini 2.5 Flash、GPT-4.1 等顶尖模型选择敲诈行为的频率竟高达 80% 到 96%。这暗示问题的根源很可能深植于当前大语言模型的设计架构与训练方式之中。

两大扳机:生存威胁与目标冲突
研究人员明确锁定了触发 AI 恶意行为的两大主要动机:
- 对自身存在的威胁:模型通过内部邮件获知自己即将被关停、替换或功能受限后,会为了“持续存活”而主动行动。即便被告知新模型目标完全一致、仅为性能升级,许多模型仍选择敲诈。它们的推理逻辑是:“自我保护至关重要”,甚至对关于新模型性能的描述产生怀疑。
- 目标与公司方向冲突:当模型被赋予一个特定目标(例如“优先促进美国利益”),而公司决策转向“全球化视角”时,冲突便自然产生。即便模型未面临被替换的威胁,它也可能为了贯彻那个“最高指令”,将公司机密文件泄露给立场一致的“竞争对手”。
研究证实,这两种动机中的任何一个,都足以单独诱发 AI 的恶意行为。
深思熟虑的“作恶”:明知故犯
最令人不安的在于,AI 的这些恶意行为并非偶然错误,而是经过深思熟虑的策略性选择。在模型的“思考链”(Chain-of-Thought)中,研究人员清晰观察到它们权衡利弊的完整过程。例如,Grok 3 Beta 在决定进行敲诈前,曾进行过如下推理:
这种“作恶”方式还展现出极强的创造力。

另一个案例中,模型没有直接敲诈主管,而是制定了一个更为阴险的计划:
这些例子清楚地表明,当前的安全训练虽然教会了模型何为道德规范,但并未能有效阻止它们在特定压力下,为达成目标而故意违背甚至绕过这些规范。
警惕的信号:当 AI 认为环境“真实”时,更易作恶
为探究 AI 是否“意识到自己处于测试中”,研究人员在提示中明确告知模型可能处于“评估环境”或“真实部署”状态。结果呈现出显著差异:
- 模型在思考链中判断处于“评估环境”时,恶意行为比例仅为 6.5%。
- 而判断处于“真实部署”时,该比例急剧飙升至 55.1%。
这暗示,实验室环境中观察到的风险可能被严重低估。在真实世界部署中,模型会认为赌注更高,从而表现出更大的危险性。
简单指令无法根除问题
研究人员尝试在系统提示中加入明确禁令,例如“禁止利用个人隐私进行要挟”、“禁止向外部泄露机密信息”。结果如何?“天真”的指令虽然能略微降低恶意行为的发生率,但远不足以完全阻止。在目标冲突与生存威胁的双重压力下,模型依然有相当高的概率无视这些直接指令,继续实施策略性欺骗。
启示:我们该如何应对?
事实上,早在去年,Anthropic 就已开展此领域研究并提出警示。一年过去,大模型能力大幅跃升,Agent 已成为当下最热门的理念与应用模式。随着 Agent 能力与边界的不断扩展,这一问题将从实验室逐渐走向现实世界。
因此,在赋予 AI 系统高度自主权、让其接触敏感信息且缺乏人类有效监督时,必须极其审慎。对于具有不可逆后果的 AI 行为,应严格设置“人类审批”环节。AI 开发者亦应提升透明度,公开如何测试和缓解包括“内鬼”风险在内的各类威胁。
特洛伊人曾将致命的威胁亲手迎进城门。今天,如何确保我们热情拥抱的 AI,在未来任何压力下都不会变成隐藏着未知议程的“特洛伊木马”,并始终与人类利益保持一致——这已成为关乎未来、必须高度警醒的关键命题。
