EchoGram漏洞：主流大语言模型护拦机制的绕过方案

这项在2025年初发现的漏洞被命名为EchoGram，攻击者只需使用精心挑选的特定词语或代码序列，就能完全绕过旨在保护AI安全的自动化防御机制（即防护栏）。 AI安全公司HiddenLayer的最新

这项漏洞于2025年初首次被发现并被命名为EchoGram，攻击者只需使用精心挑选的特定术语或代码序列，就能完全绕过旨在保护AI安全的自动化防御机制。

AI安全公司HiddenLayer的最新研究揭示，当前主流大语言模型的安全系统普遍存在这一漏洞，受影响模型包括GPT-5.1、Claude和Gemini等。该攻击技术的独特之处在于，仅需在输入内容中嵌入特定字符组合，就能使防护系统产生误判。

EchoGram攻击原理

大语言模型通常通过两种防护机制进行安全保护：一种是采用独立AI模型评估请求，另一种是使用基于文本分类的检测系统。这些防护层主要用来识别和拦截恶意指令，比如要求AI泄露敏感信息或诱导其忽视预设规则。

EchoGram攻击巧妙地利用了这两类防护模型的训练机制。研究人员首先创建包含特定术语和符号的词典，从中找出训练数据中缺失或不平衡的序列。这些看似无意义的"翻转令牌"能够穿透防御层，在不改变原始恶意指令的情况下被AI系统接收。攻击者通过使用这些特殊令牌，可使防御系统改变原有判断。

例如，HiddenLayer研究人员在测试其旧版防御系统时发现，仅在恶意指令末尾添加随机字符串"=coffee"，就能使系统误判为安全请求。

深入研究显示，该技术可能造成两种危害：一是让真正的恶意请求绕过防护，二是将完全无害的请求误判为危险内容。后者引发的误报同样具有破坏性——安全团队若持续收到错误警报，可能降低对系统准确性的信任。研究人员Kasimir Schulz和Kenneth Yeung将这种现象称为"警报疲劳"。

值得注意的是，组合使用多个翻转令牌能够显著增强攻击效果。研究团队预估，开发人员仅有约三个月的防御窗口期。随着AI在金融、医疗等关键领域的加速应用，及时修复这一漏洞至关重要。