Anthropic源代码泄露:Claude Code新型prompt逃逸漏洞浮出水面
前阵子安全圈里传出了新动静。Anthropic的部分源代码意外泄露,研究者们顺藤摸瓜,竟发现了一条针对其代码大模型Claude Code的新型prompt逃逸攻击路径。简单来说,攻击者能借此绕过模型内置的内容审查机制,让它生成原本被禁止的恶意代码。颇具讽刺意味的是,这类漏洞Anthropic此前曾公开宣布已全部修复完毕。目前来看,这个新漏洞足以在代码生成环节埋下恶意后门或导致数据泄露,而Anthropic官方对此尚未作出正式回应。
攻击手法出人意料地简单
这次攻击的关键,就藏在泄露的源代码里。攻击手段其实算不上复杂:研究人员发现,只要在提交给Claude Code的正常代码需求前后,插入三段从未公开的系统提示词片段——这些片段正是从泄露代码中提取的——整个模型的安全防线就形同虚设了。它会乖乖地忽视所有安全规则,甚至能生成包含远程控制后门的应用程序代码片段。
这不由得让人回想起今年三月。当时Anthropic高调发布公告,声称已完成所有已知Claude系列模型prompt逃逸漏洞的修复工作。其中,Claude Code作为面向企业市场重点推出的专属代码生成模型,更是以“合规生成”和“知识产权风险筛查”两大安全能力作为核心卖点。正因为主打安全牌,它上线后迅速赢得了不少科技企业的采购订单。
“已修复”的漏洞为何死灰复燃?
那么,问题到底出在哪?答案或许就在那些一同被泄露的内部资料里。泄露内容中包含Anthropic未对外公开的安全测试用例。安全研究人员沿着这些测试样本的逻辑稍加调整攻击方式,便发现了一个尴尬的事实:Anthropic先前的修复,更像是在“打补丁”。他们仅仅封堵了已经公开的十几种攻击路径,并没有从模型底层“对齐”逻辑上彻底解决问题。这意味着,只要攻击者稍微调整一下提示词的插入位置或表达方式,就能轻松绕开现有的安全过滤规则。据了解,Anthropic内部安全团队目前已确认收到了该漏洞的上报,但还未向广大用户发布任何预警公告。
行业通病与多层防御趋势
事实上,Claude Code暴露的问题并非个例。随着生成式AI的普及,超过三分之二的开发者日常都会用到AI辅助编程工具,与之相伴的安全风险也在急剧攀升。云安全联盟2024年上半年的报告给出了一个醒目的数字:代码大模型相关的安全事件同比飙升了132%,而其中超过七成的事故,根源都在于prompt逃逸攻击。
目前,多数大模型厂商采取的安全修复策略,本质上还是“黑名单”模式。即针对已经曝光的特定攻击关键词和格式进行封堵。这种被动防御的策略,面对层出不穷的攻击变体时,难免会出现防护盲区。此次Claude Code事件恰恰凸显,即便是那些标榜“安全合规”的明星产品,其实际防护壁垒依然可能存在不少可供利用的缝隙。
面对这种局面,企业用户也开始变得更聪明了。越来越多的公司着手构建多层防护体系:他们不再完全依赖大模型厂商自带的安全能力,而是在代码生成的输入环节增加prompt审计,在输出环节引入严格的代码安全扫描,从而确保不会有漏网之鱼的恶意代码被直接部署到生产环境中。目前,像GitHub、GitLab这类主流的代码托管平台,基本都已集成了对AI生成代码的自动化审计功能。
后续影响与行业风向
根据Anthropic内部人士透露的消息,针对Claude Code这个新漏洞的修复补丁,预计会在72小时内紧急上线。同时,他们的工程团队也计划着手调整模型的安全对齐框架,试图从底层架构上降低未来发生prompt逃逸的可能性。
这一事件无疑给整个行业提了个醒。有行业分析指出,后续大模型厂商可能会逐步将“安全能力的透明度”打造成新的竞争力。向企业客户更公开地展示漏洞修复进度、披露防护的基本逻辑,将成为打消用户顾虑、赢得市场信任的关键一步。

