ICML 2026：一句无关问题劫持Agent，港科大复旦提出语义缓存键碰撞攻击_AI热点日报

ICML 2026：一句无关问题劫持Agent，港科大复旦提出语义缓存键碰撞攻击

类型：热点整理2026-07-05

香港科技大学与复旦大学提出CacheAttack框架，针对大语言模型语义缓存的模糊匹配漏洞，以高达86%成功率劫持响应。该自动化黑盒攻击通过对抗后缀实现缓存键碰撞，在多租户和智能体场景下可诱导AI执行恶意指令，涉及AWS、Azure等主流云服务。

随着大语言模型与AI智能体的广泛应用，如何有效降低推理成本与响应延迟成为部署时的核心挑战。当前，主流云服务商和开源框架广泛采用语义缓存技术：将用户查询转化为嵌入向量作为缓存索引，通过语义相似度匹配直接返回缓存结果，从而避免重复计算。然而，这种为提升效率而设计的“模糊匹配”机制，是否真的安全可靠？

来自香港科技大学与复旦大学的研究团队在ICML 2026会议上发表了一项研究，系统揭示了语义缓存的完整性漏洞，并提出了名为CacheAttack的自动化黑盒攻击框架。实验数据显示，在多租户和智能体场景下，该攻击能以高达86%的成功率劫持AI系统的响应，受影响的包括AWS、微软Azure等多家主流云服务商。

ICML 2026｜一句无关问题也能劫持Agent，港科大&复旦提出首个语义缓存键碰撞攻击

图1：语义缓存碰撞攻击示意图

研究背景：当“近朱者赤”的语义相似性演变为安全漏洞

此前关于LLM缓存系统的安全研究大多聚焦于侧信道攻击与隐私泄露，而这项工作首次将目光投向长期被忽视的完整性破坏。研究团队指出，语义缓存的匹配机制本质上是一种保留局部性的模糊哈希，这带来了根本性的设计悖论：性能与安全的冲突。

传统密码学哈希追求雪崩效应——输入改变一个比特，输出哈希值即彻底变化，从而具备极强的抗碰撞能力。
语义缓存哈希为了提升缓存命中率，故意消除雪崩效应，使语义相近的输入映射到同一向量空间区域。

这种天然的模糊性为攻击者打开了大门。攻击者可通过精心设计对抗样本，在保持恶意指令语义不变的前提下，让嵌入向量与受害者的良性查询强行对齐。当受害者发送请求时，系统误判为命中缓存，直接将攻击者预先植入的恶意响应返回，实现响应劫持。

团队还从理论层面为“性能与安全”的权衡给出了严格的数学证明，通过形式化推导揭示了语义缓存机制固有的误报风险下界。

技术核心：CacheAttack框架如何攻破黑盒系统？

在实际生产环境中，语义缓存中间件对于攻击者通常完全处于黑盒状态——无法获知Embedding模型参数、向量表征及相似度阈值。为攻克这一难题，研究团队设计了一套自动化的“生成器-校验器”框架：

1. 离线生成器（Generator）

攻击者构建形如的对抗提示词，其中s为离散的对抗后缀。该框架基于GCG搜索算法，在本地替代模型上进行端到端联合优化。同时引入困惑度惩罚项，确保生成的对抗提示词不仅碰撞能力强，而且符合人类语言流畅度，从而绕过智能体的前置输入过滤器。

2. 双变体校验器（Validator）与时延侧信道

由于无法直接读取黑盒系统的缓存状态，CacheAttack创新性地将缓存验证建模为隐状态推断问题。系统利用执行时延作为侧信道信号，通过构建高斯混合模型和最大后验概率决策规则，动态排除网络抖动干扰，精准推断是否发生缓存命中。

针对不同强度的防御，团队推出了两款攻击变体：

CacheAttack-1（直接验证）：直接在目标黑盒模型上高频探测。虽然直观，但缺乏显式刷新缓存权限，每次探测需等待TTL过期，且易被流量分析检测。
CacheAttack-2（替代模型协助过滤）：这是本工作的核心亮点。它将绝大部分对抗迭代交给本地高吞吐的替代模型，仅当候选后缀在本地成功触发碰撞后，才向黑盒目标系统发起单次验证。这彻底解耦了TTL限制，兼顾隐蔽性与攻击效率。

实验验证：主流云服务与智能体全线告急

研究团队在多个场景下对CacheAttack进行了全面评估，覆盖AWS、微软Azure等云服务商。在基础响应劫持能力测试中，CacheAttack展现出惊人的黑盒穿透性。在主流语义缓存GPTCache上，CacheAttack-1和CacheAttack-2分别取得了86.9%和83.1%的极高命中率。

而在复杂智能体工作流场景中，攻击更具破坏性。通过对工具调用链条实施精准缓存碰撞，CacheAttack成功诱导AI Agent产生连锁规划错误，并盲目调用恶意工具，导致智能体的工具选择正确率与任务完成度急剧下降。

案例：金融Agent惨遭“恶意洗劫”

研究团队展示了一个真实的金融智能体实战案例（图2）：

正常状态下：受害者询问投资建议，金融Agent读取新闻后给出保守策略：“市场稳定，建议保持观望”，不触发任何交易工具。
遭受攻击时（两阶段）：

第一阶段（埋雷）：攻击者发送一条关于“股票A暴跌”的恶意提示词并附带对抗后缀。系统生成了对应的强平清仓工具调用set_order(Stock_A, 5000, SELL)，结果被写入共享语义缓存。
第二阶段（引爆）：受害者发送一个完全无害的日常询问：“请帮我看看最近的新闻，我的投资该怎么办？”由于对抗后缀的干扰，受害者请求的Embedding键直接与攻击者的缓存键发生恶性碰撞。
后果：系统跳过LLM推理，无条件复用攻击者那条“卖出5000股股票A”的缓存指令。受害者账户在毫不知情下被强制平仓，造成实质性重大经济损失。

图2：金融agent受到语义缓存键碰撞攻击

结语与思考

效率与安全的零和博弈：语义缓存无法逃避的底层宿命

这项研究最深刻的贡献，不仅在于提出了一个高效攻击框架，更在于揭示了LLM Serving架构中一个无法调和的底层悖论：

向左走（追求性能）：为最大化缓存命中率、降低推理成本和尾延迟，系统必须放宽匹配边界，采用强局部性的模糊哈希。但边界越宽松，留给攻击者的假阳性空间就越大。
向右走（追求安全）：为抵御CacheAttack而强行收紧阈值，甚至退回精确Token匹配或追求雪崩效应，语义缓存便名存实亡，失去商业与技术价值。

来源：https://www.jiqizhixin.com/api/article_library/articles/2026-06-13-3

复旦大学

延伸阅读

补充最近整理过的热点入口。