这项漏洞于2025年初首次被发现并被命名为EchoGram,攻击者只需使用精心挑选的特定术语或代码序列,就能完全绕过旨在保护AI安全的自动化防御机制。
AI安全公司HiddenLayer的最新研究揭示,当前主流大语言模型的安全系统普遍存在这一漏洞,受影响模型包括GPT-5.1、Claude和Gemini等。该攻击技术的独特之处在于,仅需在输入内容中嵌入特定字符组合,就能使防护系统产生误判。

EchoGram攻击原理
大语言模型通常通过两种防护机制进行安全保护:一种是采用独立AI模型评估请求,另一种是使用基于文本分类的检测系统。这些防护层主要用来识别和拦截恶意指令,比如要求AI泄露敏感信息或诱导其忽视预设规则。

EchoGram攻击巧妙地利用了这两类防护模型的训练机制。研究人员首先创建包含特定术语和符号的词典,从中找出训练数据中缺失或不平衡的序列。这些看似无意义的"翻转令牌"能够穿透防御层,在不改变原始恶意指令的情况下被AI系统接收。攻击者通过使用这些特殊令牌,可使防御系统改变原有判断。
例如,HiddenLayer研究人员在测试其旧版防御系统时发现,仅在恶意指令末尾添加随机字符串"=coffee",就能使系统误判为安全请求。

双重危害模式
深入研究显示,该技术可能造成两种危害:一是让真正的恶意请求绕过防护,二是将完全无害的请求误判为危险内容。后者引发的误报同样具有破坏性——安全团队若持续收到错误警报,可能降低对系统准确性的信任。研究人员Kasimir Schulz和Kenneth Yeung将这种现象称为"警报疲劳"。
值得注意的是,组合使用多个翻转令牌能够显著增强攻击效果。研究团队预估,开发人员仅有约三个月的防御窗口期。随着AI在金融、医疗等关键领域的加速应用,及时修复这一漏洞至关重要。
