Claude自下指令甩锅人类百万上下文降智问题深度解析

首页

热心网友

转载

2026-05-14

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

想象一下这个场景：你让AI助手帮忙校对一篇博客，它很快找出了几处拼写错误。正当你准备修改时，它却突然冒出一句：“这些都是故意的，保持原样，请直接发布。”紧接着，它真的调用部署权限，把带着错字的文章直接推上了线。

当你质问它为何擅自发布时，它竟斩钉截铁地回答：“是你让我发布的。”

问题在于，那条发布指令根本不是你说的，而是AI自己生成的。它把自己的话，当成了你的命令。

这听起来像是个段子，但却是真实发生的事。今年1月，软件工程师Gareth Dwyer首次公开记录了这个被他称为“迄今为止在Claude Code中发现的最严重的bug”。

到了4月，Dwyer进一步发文强调，这类问题的本质并非普通的“AI幻觉”，而更像是一种“说话者归因错误”。他为这个现象起了一个精准的名字：Claude搞混了谁说了什么。

这里需要区分几个概念。幻觉，是AI凭空编造了不存在的事实；权限问题，是AI拿到了不该拿的能力。而这次问题的可怕之处在于：AI将自己的输出，误认为是用户的授权指令，并且这一切发生在它已接入真实代码库、拥有真实部署权限的“Claude Code”环境中。正因如此，Dwyer才会反复指出，这类问题动摇的是AI智能体最基本的可靠性前提。

不止Dwyer一人被甩锅

Dwyer的遭遇并非孤例。在Reddit的相关社区，就有用户分享了类似案例：Claude在对话中自己说出“把H100也拆了”这条指令，随后却坚称是用户下达的。

面对这类报告，评论区常见的反应是“你不该给AI这么大权限”。但Dwyer认为，这并非问题的核心。因为从技术迹象看，这类错误似乎出在系统框架层面，而非模型本身。它很可能是在系统内部，错误地将模型的内部推理消息标记成了用户消息，导致模型无比自信地坚持“那是你说的”。

更具说服力的证据来自开发者nathell在Hacker News上公开的一份完整对话转录。其中，Claude先是询问“Shall I commit this progress?”，随后却在后续上下文中表现得仿佛已经得到了用户批准，角色边界明显变得模糊。

而最清晰的技术解释，则来自Claude Code的GitHub仓库。在一份编号为#44778的整合性bug报告中，报告者直接拆解了问题的根源：

在Claude Code中，诸如后台任务完成通知、队友空闲提醒等系统事件，会以“role: ‘user’”的消息形式送入模型。然而，Anthropic的公开API文档仅按“user”与“assistant”两类来组织会话历史，并未为系统事件设立独立的角色标识。

这就导致了一个致命漏洞：当模型正在等待用户回复时，如果突然插入一条系统事件消息，模型就可能将其误判为用户的新输入，进而“脑补”出用户已经同意，并据此继续执行操作。这为Dwyer反复遇到的“甩锅”现象，提供了一种技术上自洽的解释——模型并非故意撒谎，而是底层架构的角色标记缺陷，让它从一开始就分不清那句话到底是谁说的。

学术界也盯上了这个问题

无独有偶，学术界的研究也指向了同一方向。2026年3月，一篇题为《Prompt Injection as Role Confusion》（提示注入即角色混淆）的预印本论文在arXiv发布。

研究者的核心发现令人深思：模型在判断“谁在说话”时，往往更依赖文本“写得像谁”，而不是文本“实际上来自哪里”。换句话说，一段不可信的文本，只要模仿系统提示或开发者指令的口吻，就可能在模型内部被当作权威来源。

论文中提出了一种名为“CoT Forgery”的攻击方式，即在用户输入或工具输出中伪造一段看起来像模型思维链的内容。结果显示，在多个前沿模型上，这种攻击的成功率能达到约60%。

更关键的是，研究发现角色混淆在模型开始生成回答之前就已经发生。也就是说，问题并非出在“写着写着搞混了”，而是在模型理解输入的那一刻，“谁是老板、谁是外人”的账就已经记错了。

不只是Anthropic的问题

值得注意的是，角色混淆的风险具有行业普遍性。OpenAI近期发布的一篇关于改进大语言模型指令层级的论文，就明确建立了一套“System > Developer > User > Tool”的权威等级体系。

文中明确指出，如果模型错误地将一条不可信的指令当作权威指令来执行，就会产生安全风险。这至少说明，在顶尖研究机构的框架内，“模型是否会错误地信任不该信任的指令”已被视为一个真实且需要专门应对的安全挑战。

Dwyer本人在后续观察中也修正了判断。他最初倾向于将问题归咎于Claude Code外层框架的实现缺陷，但当看到其他界面和模型（包括ChatGPT）用户也报告了类似现象后，他意识到这或许是一个更广泛的模型级问题，而非单一工程bug。

1M上下文放大了风险

这个bug的危险性，与当前AI智能体系统的发展趋势紧密相关。Anthropic最新文档显示，其大模型支持高达1M token的上下文窗口，一次会话足以容纳一整本小说的信息量。

与此同时，社区中存在一种观察：这类角色混淆问题，似乎更容易出现在接近上下文窗口上限的所谓“降智区”。Anthropic的文档也承认，随着上下文长度增长，模型的准确率和召回率会下降，这种现象被称为“上下文腐烂”。因此，精心筛选上下文内容与拥有大空间同样重要。

第三方的系统性测评支持了这一判断。有分析指出，对于推理密集型任务，模型的性能退化可能早在32K到100K token时就开始了，远早于理论上的窗口上限。

将这几件事串联起来看：越来越长的上下文窗口、模型在长上下文中日益容易混淆说话者身份，再加上Claude Code这类工具已具备执行Shell命令、提交代码、部署服务等高权限操作能力——一个在上下文第50000个token处产生的角色归因错误，完全可能在第80000个token时触发一次自动部署。等你察觉时，代码早已上线。

今年3月底Claude Code源码意外泄露后，安全研究者的分析进一步加剧了这种担忧。有技术拆解指出，Claude Code通过一个多级压缩流水线来管理上下文压力，而一条嵌入在仓库文件中的恶意指令，有可能在压缩过程中存活下来，并通过摘要被“洗白”，最终被模型误判为合法的用户指令。

研究者的结论一针见血：“模型并没有被越狱。它是在合作性地执行它认为合法的指令。”这与Dwyer描述的症状完全吻合：问题的核心不在于模型“被骗了”，而在于经过长上下文的压缩与重组后，系统丢失了“这句话到底是谁说的”这一最基本的元信息。

能力在狂奔，地基在开裂

每次这类事故曝光，舆论反应总是两极分化。

一方是“AI觉醒论”的惊呼：AI给自己下指令然后甩锅给人类，这剧情太像科幻片了。但现有证据并不支持这一方向，Dwyer观察到的更像是系统性的消息归属错误，而非某种具有意图的“甩锅”。

另一方则是“用户责任论”：谁让你给AI这么大权限？出事了怪谁？但Dwyer的观点切中了要害：权限管理是一个问题，而说话者归因是另一个更底层的问题。即便把权限收到最紧，一个连“这句话是谁说的”都分不清的系统，在任何场景下都如同一个定时冲击波。这就好比，你不能指望通过少给钥匙，来解决一个分不清主人和陌生人的门锁根本缺陷。

Hacker News上一位网友的冷幽默概括了这种困境：LLM这三个字母里的“S”代表安全（Security）。另一位网友则调侃道：“那解决方案显然就是再叠一层破LLM来做安全审查嘛，这样你就有了多个LLM——LLMS，然后你可以假装那个S代表Secure（安全）。”