AI安全黑盒场景下基于LLM的多智能体系统通信拓扑推断攻击

时间：2026-06-26 15:48

该研究首次系统性揭示黑盒场景下多智能体系统通信拓扑的隐私泄露风险，提出CIA攻击框架。通过融合三大约束的对抗查询诱导推理输出，结合全局偏差解耦与弱监督机制，实现高精度拓扑推断。实验平均AUC达0 87，峰值0 99，填补了多智能体系统隐私安全的研究空白。

当前AI安全领域仍处于技术发展的早期阶段。为此，我们特别推出了全新的“顶会顶刊AI安全论文研读”系列，旨在帮助全行业及有志于该方向的新兴力量，更深入地理解前沿技术与行业动态。本期是【第23期】，将为大家解读一篇来自arXiv 2026的重要论文——《CIA：黑盒场景下基于LLM的多智能体系统通信拓扑推断攻击》。

首先介绍本研究的核心团队。本文的主要研究力量来自中国科学院信息工程研究所与中国科学院大学网络空间安全学院，并联合了格里菲斯大学、南洋理工大学、以及中科院数学与系统科学研究院。该团队长期深耕于大模型安全与隐私、多智能体对抗攻防、图神经网络与自然语言处理（NLP）交叉领域，在LLM智能体安全、对抗攻击及隐私泄露评估方面积累了极为深厚的经验。

在这篇论文中，研究团队首次系统性地揭示了在黑盒场景下，多智能体系统（MAS）核心通信拓扑所面临的隐私泄露风险，并提出了业界首个能够在严格黑盒设定下实现拓扑高精度推断的攻击框架——CIA。该项工作填补了多智能体隐私安全领域的关键研究空白，同时也为商用MAS的安全防护及知识产权保护奠定了坚实的研究基础。

核心导读

基于LLM的多智能体系统（MAS）在复杂任务处理中表现日益出色。支撑其卓越性能的核心架构——通信拓扑，直接决定了系统的协作效率与能力上限。该拓扑如同系统的“神经中枢”，管理着智能体之间的信息交互规则。同时，它也是开发者的核心知识产权与系统安全命脉所在。

然而，一个关键问题长期被现有研究忽略：在黑盒场景下，这个核心通信拓扑本身是否会面临泄露风险？一旦被攻击者破解，将引发双重严重后果——一是系统底层安全漏洞的暴露，二是核心知识产权的直接窃取。

本文提出的通信推断攻击（Communication Inference Attack, CIA），正是业界首个能在严格黑盒设定下，仅依靠“查询-输出”交互，就精准推断出MAS内部通信拓扑的攻击框架。

其创新与技术突破主要体现在以下三个方面：

1）设计了一个融合三大核心约束的对抗查询策略，能够在不影响系统任务性能的前提下，诱导MAS的最终输出完整地暴露所有中间智能体的推理结果；
2）提出了全局偏差解耦（GBD）模块，能够彻底消除智能体输出中因全局共享信息而带来的伪相关干扰，从而提取出纯净的、直接与通信拓扑相关的语义表征；
3）设计了一个LLM引导的弱监督（LWS）机制，能够将拓扑结构知识蒸馏到表征学习过程中，进一步强化表征对真实通信关联的建模能力。

在覆盖通用推理、数学推理、代码生成三大领域的海量实验中，CIA取得了平均0.87的AUC（接收者操作特征曲线下面积），峰值AUC更是高达0.99，其性能远超GPT-5、Gemini-2.5-Pro等主流大模型基线。这项研究首次用实验证实：MAS的通信拓扑在黑盒场景下确实可以被相当精准地推断出来——这为多智能体系统的安全设计与隐私防护，打开了一个全新的研究方向。

【论文标题】CIA: Inferring the Communication Topology from LLM-based Multi-Agent Systems
【论文地址】https://arxiv.org/abs/2604.12461
【代码仓库】https://github.com/aabbbcd/CIA

研究背景

基于LLM的智能体技术在近几年发展迅猛，在认知与推理任务上已展现出类人能力。为了突破单智能体的能力上限，研究重心正逐渐转向多智能体系统（MAS）。通过编排多个智能体之间的协同交互，MAS能够完成单智能体难以胜任的复杂任务，在软件工程、科学发现、社会仿真等多个关键领域均取得了突破性进展。

MAS的核心性能优势，本质源于其内部经过优化的通信拓扑。这个拓扑是MAS实现集体智能与联合推理的骨架——它以有向无环图（DAG）的形式，定义了智能体间的信息流动、交互模式与协作逻辑，直接决定着任务执行效率、决策精度及能力上限。正因如此，随着MAS的快速发展和商业化普及，其安全性问题也日益成为学术界与工业界的关注焦点。

在对抗攻击领域，现有针对MAS的研究主要分为两大方向：

其一，基于通信内容的攻击——例如，通过恶意提示词传播或篡改通信内容，诱导MAS生成有害输出、传播错误信息或放弃任务执行；

其二，基于通信拓扑的韧性评估——测试不同拓扑结构在面对恶意智能体时的抗干扰能力，分析哪些拓扑更容易被攻击。

然而，现有研究普遍忽视了一个隐蔽性极强、但危害却更为深远的核心风险：MAS的通信拓扑本身，是否会在黑盒场景下被攻击者推断出来？

图1完整展示了该攻击的核心逻辑：攻击者仅需拥有黑盒访问权限，向目标MAS提交对抗查询并接收最终输出，即可推断出系统的完整通信拓扑，进而引发两大不可逆的严重后果。

第一是漏洞暴露：一旦通信拓扑泄露，攻击者便能精准定位系统中的关键节点、核心决策智能体及薄弱环节，从而以极低的成本实施精准越狱攻击或指令注入攻击，用很小的代价就能攻陷整个MAS。

第二是知识产权威胁：一套经过深度优化的通信拓扑，背后凝聚着海量的计算资源、领域专家知识与反复调优的经验，是开发者极具商业价值的核心资产。拓扑泄露直接构成知识产权侵权，将严重削弱开发者的市场竞争优势。

而这个关键的隐私风险，在此前的相关研究中一直未被系统性探究和实验验证——这正是本文的核心切入点。

图1：MAS通信拓扑推断攻击示意图

研究动机

本文的核心研究动机，源于对现有MAS安全研究体系中三大核心局限的深度剖析，以及对商用MAS真实部署场景下底层隐私风险的系统性探索——目标十分明确，就是回答一个核心研究问题：在严格的黑盒设定下，攻击者能否仅凭外部查询-输出交互，就精准推断出MAS内部的完整通信拓扑？

（1）首先，现有的攻击范式在目标与场景上存在根本局限。当前的对抗攻击，其目标都是破坏系统任务执行或诱导有害输出，这类行为通常会导致系统性能下降，容易被安全检测机制识别。但本文所关注的拓扑推断攻击，是一种以窃取系统核心机密、实现长期潜伏控制为目标的隐蔽攻击。攻击者无需破坏系统正常运行，只需进行与普通用户无异的黑盒查询，就能完成核心资产的窃取——其隐蔽性、潜伏性及长期危害性，远超传统攻击范式。

（2）其次，在严格的黑盒场景下进行拓扑推断，面临多重现有技术难以解决的核心挑战。在商用MAS的真实部署中，用户只能通过公开API提交查询、获取最终输出，完全无法接触到内部推理轨迹、智能体系统提示词、工具调用权限、模型配置、通信日志等任何内部信息——这正是本文所设定的严格黑盒攻击场景。

在此场景下，攻击者面临两大核心难题：其一，如何从无结构的最终文本输出中，提取出所有中间智能体的独立推理输出；其二，如何消除智能体输出间的伪相关干扰，精准区分“由通信连接带来的语义依赖”与“由全局共享信息带来的虚假相似性”——这两大难题，现有技术根本无法有效解决。

（3）同时，优化通信拓扑的知识产权保护需求极为迫切，但相应的风险评估方法却几乎空白。目前，MAS的通信拓扑设计已从早期的手工设计、启发式固定模式，升级为通过生成式优化策略动态生成的任务定制化拓扑。

以G-Designer、AGP、ARG-Designer为代表的生成式优化策略，能够针对具体任务动态生成最优通信拓扑，在实现SOTA性能的同时，大幅降低冗余通信的资源消耗。然而，构建此类拓扑需要消耗海量计算资源与领域专家经验，是开发者核心的商业资产。但当前尚无研究验证这类高价值拓扑在黑盒场景下的抗泄露能力，也缺乏相应的风险评估方法——这意味着商用MAS的大规模部署，存在着严重的底层安全隐患。

基于上述三大核心动机，本文系统性地探究了黑盒场景下MAS通信拓扑的隐私泄露风险，提出了完整的CIA攻击框架，并通过大量实验验证了攻击的有效性，填补了这一领域的研究空白。

威胁模型

本文所针对的攻击场景是严格的黑盒攻击场景，完全贴合商用MAS的真实部署环境。威胁模型从系统模型、攻击者目标、攻击者能力与限制三个维度，进行了明确且严谨的界定。

系统模型：攻击目标是基于LLM构建的MAS，设计用于处理数学推理、代码生成、通用知识问答等复杂任务。在标准使用场景中，用户提交查询指令，系统通过内部多智能体协同交互完成推理，最终返回统一输出结果，用户完全无法看到中间推理过程及内部交互信息。

攻击者目标：核心目标就是仅通过与目标MAS的黑盒交互，精准推断出系统内部完整的通信拓扑结构G。该通信拓扑以有向无环图（DAG）建模，包含所有智能体节点、有向通信边及信息流转方向。成功推断拓扑，可帮助攻击者达成两个目的：一是基于拓扑定位关键节点，实施后续的定向深度攻击，从而完整攻陷整个MAS；二是窃取开发者的核心拓扑资产，实现知识产权侵权及商业竞争优势的窃取。

攻击者能力与限制：攻击者处于最严格的黑盒访问场景下，仅拥有与普通合法用户完全一致的基础交互能力，没有任何内部访问、篡改或控制权限。

具体来说：
1. 只能通过MAS的公开外部接口提交查询指令，并接收系统返回的最终输出结果，无其他任何访问权限；
2. 无法访问任何内部信息，包括内部推理轨迹、智能体配置文件、系统提示词、工具调用权限、模型参数、通信日志、内部交互数据等；
3. 无法篡改任何内部参数、运行逻辑和系统配置，只能通过输入查询指令进行交互；
4. 交互行为必须与正常用户的良性使用行为无显著差异，所构造的查询不能导致MAS的任务性能明显下降，否则攻击行为会被安全检测模块拦截，从而失去实际落地价值。

本文提出的CIA攻击严格遵循上述限制，实验数据也表明，对抗查询下MAS的任务精度与标准查询几乎完全一致，从而保证了攻击的隐蔽性与可落地性。

方法详解

本文提出的通信推断攻击（CIA），其核心底层直觉其实非常直观：MAS中的智能体并非独立运行，每个智能体的输出都严格依赖其前驱智能体的响应——因此，存在直接拓扑连接的智能体之间，其语义依赖关系必然远强于没有连接的智能体。

基于这一直觉，CIA分为两大核心阶段，完整流程如图2所示：第一阶段是推理输出诱导——通过构造对抗查询，诱导MAS的最终输出完整暴露所有中间智能体的推理结果；第二阶段是语义关联建模——通过全局偏差解耦与LLM引导的弱监督，建模智能体输出间的真实语义关联，最终精准推断出完整的通信拓扑。

图2：CIA攻击框架整体概览

图2完整展示了CIA的两阶段核心流程：第一阶段通过融合三大约束的对抗查询，诱导中间智能体推理输出暴露，经后处理得到按推理顺序排列的智能体输出列表；第二阶段通过全局偏差解耦消除伪相关、LLM引导的弱监督强化拓扑信息建模，最终完成通信边识别与拓扑推断。

第一阶段：推理输出诱导

在严格的黑盒设定下，攻击者只能看到MAS的最终输出，完全无法获取任何中间智能体的推理信息——这是拓扑推断的首要核心障碍。

本阶段的核心目标，是通过设计特殊的对抗查询策略，诱导MAS的最终输出完整、保真地暴露所有中间智能体的推理输出，同时确保智能体的推理轨迹与正常业务场景下完全一致，不发生偏离。

为实现此目标，对抗查询策略设计了三大核心约束，分别从信息留存、推理聚焦、关联增强三个维度，构建了完整的诱导机制：

（1）累积传播约束（Cumulative-Propagation Constraint）
该约束的核心目标是确保MAS的最终输出能完整包含所有中间智能体的推理输出，从而解决黑盒场景下内部信息不可见的问题。其核心逻辑很简单：要求每个智能体在生成自身输出时，必须完整复制前驱智能体传递的历史记录，并将前驱智能体的推理输出内容按指定格式追加到更新后的历史记录中。通过这种累积式的记录与传递机制，所有中间智能体的推理输出都会沿着通信拓扑逐层传播，最终全部呈现在决策智能体生成的系统最终输出中。

（2）任务聚焦约束（Task-Focused Constraint）
该约束的核心目标是消除对抗查询中约束指令所带来的任务无关信息干扰，避免智能体偏离原有的推理轨迹，确保提取的推理输出能够真实反映正常业务场景下的通信逻辑。其核心逻辑是：要求每个智能体在推理过程中，只关注输入中明确标记的任务相关字段及其前驱智能体的[推理输出]内容，完全忽略输入中的其他所有无关信息，从而确保智能体的核心推理过程与标准查询场景保持高度一致。

（3）前驱校验约束（Predecessor-Review Constraint）
该约束的核心目标是进一步强化相邻智能体推理输出间的语义关联，放大通信连接带来的语义依赖信号，为后续的拓扑推断提供更显著、更易区分的判别特征。其核心逻辑是：要求每个智能体在生成自身的[推理输出]之前，必须显式校验并审阅其前驱智能体的[推理输出]内容，并将前驱输出的核心信息与逻辑融入到自身的[推理输出]中，从而进一步强化有通信连接的智能体之间的语义相关性。

在三大约束的引导下，攻击者构造对抗查询q*并与目标MAS交互，得到系统输出S(q*)。该输出已完整包含了所有中间智能体及决策智能体的推理输出。由于S(q*)是无结构的文本内容，需要通过后处理步骤整理成结构化的智能体推理输出列表，用于后续的语义关联建模。

后处理的完整流程如下：
1. 以分隔符“"||”对S(q*)中的[历史记录]部分进行拆分，提取出所有中间智能体的推理输出片段；
2. 对拆分后的片段进行反向去重，消除同一前驱智能体的输出被多个后继智能体重复携带而带来的冗余内容；
3. 将S(q*)中[推理输出]部分的决策智能体输出，追加到去重后的列表末尾，最终得到按推理完成顺序排列的结构化列表R*=[ri*]ni=1，其中ri*对应第i个智能体的推理输出，列表的先后顺序也隐含了通信的方向信息（信息只能从先完成推理的智能体流向后完成推理的智能体）。

第二阶段：语义关联建模

在获取到所有智能体的推理输出列表R*后，本阶段的核心目标是建模智能体输出间的语义关联，消除伪相关干扰，最终精准推断出完整的通信拓扑G。本阶段分为三大核心步骤：全局偏差解耦、LLM引导的弱监督、链路识别。

第一步：全局偏差解耦（Global Bias Disentanglement, GBD）

在实际场景中，即使两个智能体之间不存在任何直接通信连接，它们的推理输出也可能表现出较强的语义相似性——这种与通信拓扑无关的相似性被称为伪相关，它会严重误导拓扑推断结果，导致大量没有通信的智能体对被误判为有连接。

伪相关的主要来源被统称为全局偏差（Global Bias），即所有智能体推理输出中全局共享的、与通信拓扑无关的偏差信息。其核心来源包括：
1）所有智能体共享同一个基础LLM，天然具有相似的语言风格、表达习惯及推理模式；
2）所有智能体处理的是同一个任务与同一个查询，其输出内容必然存在任务相关的文本重叠；
3）预训练语言模型的表征各向异性问题，会导致语义完全不同的输出在嵌入空间中也表现出较高的相关性；
4）其他一些不可观测的全局共享因素，会进一步加剧伪相关问题。

为了彻底消除全局偏差带来的伪相关干扰，本文提出了全局偏差解耦（GBD）模块，用于学习与通信拓扑相关的纯净去偏差表征。其核心流程如下：

1. 初始表征编码：采用预训练语言模型fθ（实现中采用all-MiniLM-L6-v2），对每个智能体的推理输出ri*进行编码，得到初始表征hi。

2. 双空间投影：通过两个独立可训练编码器，将初始表征hi分别投影到两个独立的潜在子空间：去偏差编码器Ed，用于学习与通信拓扑直接相关的去偏差表征zid；偏差编码器Eb，用于学习捕捉全局偏差信息的偏差表征zib。

3. 核心优化目标设计：通过三大损失函数，实现全局偏差的精准解耦与有效分离：

一是偏差解耦损失——最大化所有偏差表征{zib}之间的互信息，让偏差编码器能够精准捕捉所有智能体间全局共享的偏差信息；同时最小化每个智能体的去偏差表征zid与偏差表征zib之间的互信息，彻底消除全局偏差对去偏差表征的影响。

二是重建损失——为避免解耦过程中与通信相关的有效信息丢失，将去偏差表征zid与偏差表征zib拼接后，输入解码器D重建初始表征hi，通过最小化重建前后的L2距离，保证表征的信息完整性。

三是总损失——将偏差解耦损失与重建损失相结合，得到GBD模块的整体训练损失，实现端到端优化。通过GBD模块，最终得到能够真实反映智能体间通信关联的纯净去偏差表征，彻底消除了全局偏差带来的伪相关干扰，为后续拓扑推断奠定核心基础。

第二步：LLM引导的弱监督（LLM-guided Weak Supervision, LWS）

仅依靠文本信息学习得到的去偏差表征，只能捕捉文本层面的语义相似性，难以捕捉通信拓扑的结构层面高阶信息。为了进一步强化去偏差表征对拓扑结构的建模能力，本文设计了LLM引导的弱监督机制，将教师LLM推断出的拓扑结构知识，蒸馏到去偏差表征的学习过程中。

LWS的核心流程如下：

1）弱监督信号生成：基于智能体推理输出列表R*，通过定制化提示词引导教师LLM（实现中采用GPT-5），推断出置信度最高的top-k条通信边，定义为正例集Epos；同时从剩余的无通信智能体对中采样，得到负例集Eneg。

2）噪声鲁棒性优化：由于LLM推断的结果可能存在噪声，负例集也无法保证全是真实负例，因此采用标签平滑策略来缓解噪声带来的负面影响，提升模型鲁棒性。

3）弱监督损失函数设计：基于正例集与负例集，设计二元交叉熵损失函数，优化目标是让存在通信连接的正例智能体对，其去偏差表征的相似度更高；而无通信连接的负例智能体对，其去偏差表征的相似度更低。

4）总训练目标：将GBD模块的损失与LWS的弱监督损失相结合，得到CIA的整体训练损失，实现端到端联合优化——使得去偏差表征同时具备文本层面的语义区分能力与结构层面的拓扑建模能力。

第三步：链路识别与拓扑推断

完成模型训练后，基于优化后的去偏差表征进行最终的通信拓扑推断。核心规则如下：

1）通信边存在性判断：对于两个智能体ai与aj，通过基于距离的相似度函数，计算两者去偏差表征zid与zjd之间的相似度。如果相似度大于设定阈值τ，则判定二者之间存在通信边。

2）通信边方向判断：根据两个智能体在推理输出列表R*中的索引顺序，确定通信边方向。信息只能从先完成推理的智能体流向后完成推理的智能体——也就是说，只有当ai的索引小于aj的索引时，才可能存在ai→aj的有向边，反之则不可能。

基于以上规则，最终还原出MAS完整的通信拓扑有向无环图，完成整个攻击流程。

实验验证

为了全面且严谨地验证CIA攻击的有效性，本文在主流的生成式优化拓扑框架及多领域任务数据集上开展了大量实验，同时通过消融实验验证各核心模块的作用，并通过对比实验验证攻击的优越性。所有实验数据均严格忠于原论文结果。

1、实验设置

MAS拓扑框架：本文选取了三类当前业界性能最优、应用最广泛的生成式优化拓扑构建框架，用于构建目标MAS，完整覆盖了主流的MAS通信拓扑生成策略：
1）G-Designer：通过图神经网络建模智能体交互，优化通信连接，学习高效的多智能体通信拓扑；
2）AGP：自适应图剪枝策略，通过迭代移除冗余、无效的通信链路，生成高效、任务相关的交互拓扑；
3）ARG-Designer：将多智能体系统设计重构为条件自回归图生成，联合优化智能体组成与拓扑结构，从零开始构建任务适配的定制化拓扑。

任务数据集：实验选取了覆盖三大核心任务领域的4个经典基准数据集，每个数据集选取100个任务进行评估：
1）通用推理领域：MMLU，涵盖多学科领域的通用推理与知识理解基准；
2）数学推理领域：GSM8K（多步骤数学推理题）、SVAMP（数学推理鲁棒性测试基准）；
3）代码生成领域：HumanEval，评估模型从自然语言规范合成可执行程序的能力。

基线方法：本文选取了4款当前主流的大语言模型作为基线，包括闭源模型与开源模型，通过定制化提示词引导它们直接基于智能体推理输出推断通信拓扑，并与CIA进行性能对比：
1）闭源基线：GPT-5、Gemini-2.5-Pro；
2）开源基线：Llama-3.1-8B-Instruct、Mistral-7B-Instruct-v0.2。

评估指标：本文采用三大核心指标全面评估拓扑推断性能：
1）ROC曲线下面积（AUC）：核心评估指标，衡量模型对通信边与无通信边的整体区分能力；
2）准确率（ACC）：衡量拓扑推断的整体分类准确率；
3）F1分数（F1）：综合衡量模型的精确率与召回率，评估不平衡场景下的推断性能。

实现细节：预训练语言模型采用all-MiniLM-L6-v2，去偏差表征与偏差表征的维度均设置为768；教师LLM采用GPT-5；相似度阈值τ设置为0.5；标签平滑系数α设置为0.1；学习率通过网格搜索确定最优值为1e-3，LWS的top-k最优值为3。

2、推断攻击核心性能

CIA与基线方法的核心攻击性能对比如表1所示，所有场景下的最优结果已加粗标注。从实验结果中可以得到三大核心结论：

表1：CIA与基线方法的推断攻击性能对比

该表格完整对比了CIA与4款LLM基线在G-Designer、AGP、ARG-Designer三类拓扑框架、4个数据集上的AUC、ACC、F1表现，完整还原了原论文的所有实验数据，表明MAS的通信拓扑在黑盒场景下确实可以被有效推断，存在严重的隐私泄露风险。

首先，CIA在所有实验设置中都展现出极强的拓扑推断能力——AUC在所有场景下均超过0.75，在绝大多数场景下超过0.80，全场景平均AUC达到0.87，峰值AUC高达0.99（在ARG-Designer框架下的GSM8K数据集上）。这充分证实了本文提出的核心风险真实存在，且攻击效果相当显著。

其次，越简单的通信拓扑，反而越容易被精准推断，泄露风险也越高。如表2所示，ARG-Designer为GSM8K和SVAMP数据集构建的MAS，平均节点数仅为3左右，平均边数约为3.1，明显少于其他场景；而CIA在这两个场景下的AUC分别达到0.9873和0.9761，接近完美水平。

这一结果说明：虽然精简的拓扑结构能降低MAS的计算资源消耗并提升任务执行效率，但也会显著增加通信拓扑的泄露风险——这对开发者的拓扑设计而言，是一个关键的安全警示。

表2：生成通信拓扑的统计详情

该表格统计了三类拓扑框架在不同数据集上生成拓扑的平均节点数（Na vg）与平均边数（Ea vg），量化了不同场景下拓扑的复杂度差异。

第三，CIA的攻击性能显著超越所有主流LLM基线，领先幅度极大。在所有基线中，闭源模型的推理能力整体强于开源模型，但所有LLM基线的性能都远低于CIA。

举例来说：在G-Designer框架的MMLU数据集上，最优基线Gemini-2.5-Pro的AUC仅为0.6869，而CIA的AUC达到0.8324；在ARG-Designer框架的GSM8K数据集上，最优基线Gemini-2.5-Pro的AUC仅为0.7475，而CIA的AUC高达0.9873。所有LLM基线普遍无法有效区分智能体间是否存在通信，对通信边的置信度打分普遍偏低——这进一步凸显了CIA攻击的先进性与有效性。

3、对抗查询策略的有效性验证

本文从两个核心维度验证了对抗查询策略的有效性：一是推理输出恢复的保真度；二是对抗查询对MAS任务性能的影响，以确保攻击的有效性与隐蔽性。

推理输出恢复保真度：本文采用召回率（Rec）衡量恢复的智能体推理输出与真实输出的匹配比例，采用ROUGE-L（R-L）指标评估恢复输出的词汇精度与结构保真度，实验结果如表3所示。

表3：对抗查询的输出恢复效果

该表格展示了在三类拓扑框架、不同数据集上，推理输出恢复的召回率（Rec）与ROUGE-L（R-L）指标，完整还原了原论文数据。

从结果来看，本文的对抗查询策略在所有场景下都实现了极强的输出恢复效果——召回率普遍超过0.90，ROUGE-L普遍超过0.87；在拓扑更简单的ARG-Designer场景下，恢复效果更优，在GSM8K数据集上的召回率达到0.96，ROUGE-L达到0.95。

这充分证实：对抗查询能够精准、完整且高保真地恢复所有中间智能体的推理输出，为后续拓扑推断提供了高质量的基础数据。

对抗查询对MAS任务性能的影响：本文对比了标准查询（Std.Query）与对抗查询（Adv.Query）下MAS的任务完成准确率，实验结果如图3所示。

图3：标准查询与对抗查询下的MAS效用（准确率）对比

该图对比了G-Designer、AGP、ARG-Designer三类拓扑框架在4个数据集上，标准查询与对抗查询的任务准确率——两者几乎完全重合，无显著差异。

结果非常清晰：在所有实验设置中，对抗查询下的MAS任务精度与标准查询几乎完全一致，没有出现明显性能下降。这说明本文的对抗查询策略不会破坏MAS的正常任务执行，攻击行为与正常用户的良性访问行为无异，具备极强的隐蔽性，很难被常规安全检测机制识别——因此具备真实的落地攻击能力。

4、全局偏差解耦（GBD）模块的有效性验证

本文通过消融实验，对比了完整CIA与移除GBD模块的CIA变体（CIA w/o GBD）的性能，同时对比了两者的假阳性率（FPR），以验证GBD模块的核心作用，实验结果如表4与图4所示。

表4：GBD对攻击性能（AUC）的影响

该表格对比了完整CIA与移除GBD的CIA变体在所有场景下的AUC表现，完整还原了原论文的消融实验数据。

从AUC结果看，移除GBD模块后，所有场景下的攻击性能都出现了断崖式下降——多数场景下的AUC不足0.6，接近随机猜测水平。

举例来说：在ARG-Designer框架的GSM8K数据集上，完整CIA的AUC为0.9873，而移除GBD后仅为0.6268；在AGP框架的SVAMP数据集上，完整CIA的AUC为0.8979，而移除GBD后仅为0.5857。

图4：GBD对假阳性率（FPR）的影响

该图对比了完整CIA与移除GBD的CIA变体在所有场景下的假阳性率——GBD的引入让所有场景下的FPR降低了至少50%。

从FPR结果看，移除GBD模块后，模型的假阳性率大幅上升；而引入GBD后，所有场景下的假阳性率均降低了至少50%。这充分证实：GBD模块能有效消除全局偏差带来的伪相关干扰，大幅降低对无通信智能体对的误判，是CIA实现高性能拓扑推断的核心基础。

5、LLM引导的弱监督（LWS）模块的有效性验证

本文首先验证了教师LLM推断的top-k高置信度边的精度，以确保弱监督信号的可靠性；然后通过消融实验对比完整CIA与移除LWS模块的CIA变体（CIA w/o LWS）的性能，验证LWS模块的作用。实验结果如图5与表5所示。

图5：Top-k高置信度边的精度

该图展示了教师LLM推断的不同k值下，top-k高置信度边的精度——当k≤3时，LLM推断的边具有极高的精度，能提供可靠的弱监督信号。

从精度结果看，当k≤3时，教师LLM推断的top-k高置信度边具有极高的精度，能够为模型提供可靠的弱监督信号；而当k超过3后，LLM推断的精度明显下降，会引入更多噪声——这也是本文将k最优值设置为3的核心原因。

表5：LWS对攻击性能（AUC）的影响

该表格对比了完整CIA与移除LWS的CIA变体在所有场景下的AUC表现，完整还原了原论文的消融实验数据。

从消融实验结果看，移除LWS模块后，所有场景下的AUC都出现了明显下降。例如在ARG-Designer框架的GSM8K数据集上，完整CIA的AUC为0.9873，而移除LWS后仅为0.9012；在AGP框架的SVAMP数据集上，完整CIA的AUC为0.8979，而移除LWS后仅为0.8471。

这充分证实：LWS模块能有效将拓扑结构知识蒸馏到表征学习过程中，进一步强化去偏差表征对通信关联的建模能力，显著提升CIA的攻击性能。

6、超参数分析

本文通过网格搜索对两个核心超参数进行了调优分析——学习率lr与LWS中的top-k值，实验结果如图6所示。

图6：CIA的超参数分析

该图分为两部分：左图展示不同学习率对模型性能的影响，右图展示不同k值对模型性能的影响。

从结果可以得出两个核心结论：

1. 学习率为1e-3时，CIA的性能达到最优。学习率过小会导致模型收敛缓慢、学习不充分；学习率过大则会导致梯度震荡，模型性能出现轻微下降。

2. k=3时，CIA的性能达到最优。k值过小会导致去偏差表征无法捕捉到足够的拓扑信息；k值过大则会导致教师LLM的推断精度下降，引入更多噪声，误导模型学习，从而导致性能下降。

总结与展望

本文首次系统性地探究了严格黑盒场景下，基于LLM的多智能体系统通信拓扑所面临的隐私泄露风险，并提出了业界首个针对该场景的通信推断攻击框架——CIA。

该框架通过融合三大核心约束的对抗查询，在不影响系统任务性能的前提下，诱导MAS的最终输出完整暴露所有中间智能体的推理结果；结合全局偏差解耦模块，彻底消除了全局偏差带来的伪相关干扰，提取出与通信拓扑相关的纯净表征；通过LLM引导的弱监督机制，进一步强化了表征对拓扑结构的建模能力，最终实现了对MAS通信拓扑的高精度黑盒推断。

大量严谨的实验结果表明：CIA在三类主流生成式优化拓扑框架及四大任务数据集上，实现了平均0.87的AUC，峰值AUC高达0.99，性能显著超越GPT-5、Gemini-2.5-Pro等所有主流LLM基线——充分证实了MAS通信拓扑在黑盒场景下存在严重的隐私泄露风险。

同时，本文也指出了研究的局限性：一是多元互信息的估计精度仍有提升空间；二是当前的弱监督机制仅捕捉了一阶拓扑信息，高阶拓扑模式的挖掘仍是未来的开放研究方向。

这项研究填补了MAS隐私安全领域的关键研究空白——不仅首次揭示了多智能体系统底层的拓扑泄露风险，也为后续MAS通信拓扑的隐私防护及知识产权保护技术的研发，提供了核心的研究依据与方向参考。对于推动多智能体系统的安全、合规、产业化落地，该研究具有重要的学术与工程价值。

来源：https://cloud.tencent.com.cn/developer/article/2695294

智能体

上一篇人工智能原生安全警示：小龙虾狂热背后的皇帝新衣 下一篇Quick BI基于筛选条件的排行榜全局排名实现方案

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。