上海交通大学研究团队揭示模型窃取检测与防御核心技术

首页

热心网友

转载

2026-05-14

在人工智能领域，大型语言模型的价值日益凸显，其训练过程往往耗费数百万美元与海量计算资源。然而，在多方协作的联邦学习场景中，一个核心安全风险在于：参与训练的合作伙伴可能私自复制并泄露最终模型，造成知识产权与商业利益的重大损失。这如同商业伙伴共同研发核心技术后，有人却暗中复制并出售给竞争对手。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

上海交大团队揭秘：如何让偷模型的

近期，一项由上海交通大学、蚂蚁集团和香港大学联合进行的研究，为这一联邦学习安全难题提供了创新的解决方案。这项发表于《JOURNAL OF LATEX CLASS FILES》的研究（论文编号：arXiv:2603.12089v1），提出了一套名为EmbTracker的模型溯源系统。其核心创新在于，能为分发给每位联邦学习参与者的模型副本，嵌入独一无二的“隐形数字指纹”。一旦发生模型泄露，即可快速、精准地锁定泄露源头。

联邦学习本身是一种卓越的隐私保护协作范式。它允许多个参与方在不共享原始本地数据的前提下，共同训练一个强大的全局模型。这好比多位厨师合作开发新菜品，各自贡献烹饪技巧与调味心得，但无需公开完整秘方。各方在本地训练，仅交换模型参数更新，最终协同产出最优模型。然而，当这个最终模型分发给每位参与者后，如何防止有人将其复制并私下传播或交易，便成为联邦学习安全的关键盲点。

传统的模型水印技术，如同在所有副本上盖相同的团队公章，仅能证明模型出自该联合项目，却无法识别具体的泄密责任方。EmbTracker的突破性在于，它为每一份模型副本都植入了差异化的隐形标识。这类似于使用特种隐形墨水，在每本分发出去的“秘籍”特定位置写入不同的识别码。日常使用时毫无痕迹，但通过专用检测方法激活时，便能立刻揭示其归属信息。

尤为关键的是，EmbTracker系统完全在服务器端自动化完成水印嵌入，无需联邦学习参与方的任何主动配合。现有的一些方案要求参与方主动对自己的模型进行签名，这无异于期望意图不轨者会主动留下罪证——显然不切实际。EmbTracker则规避了这一矛盾，将所有防伪溯源工作前置并集成于模型分发流程之中。

水印技术的巧妙藏身之处

研究团队将水印的载体，精准定位在模型的“词嵌入层”。这一选择极具策略性。如果将整个大语言模型比作一座巨型图书馆，词嵌入层就如同图书馆的索引目录体系，负责将每个词语（词元）映射到高维语义空间中的特定向量。这个索引系统虽然关键，但相对于模型整体的海量参数而言，其参数量占比极小。在此处嵌入水印，如同仅微调目录中少数条目的编号，对图书馆的藏书内容、检索功能及读者体验几乎不产生影响。

EmbTracker的工作原理，可类比于生成并分发一批特制的“身份密钥”。服务器首先生成一组特殊的“触发词”，作为密钥的基础模板。当使用对应的密钥去“询问”或“触发”模型时，如果该模型确实嵌入了特定水印，就会产生预设的独特输出，如同对上了专属暗号。

其技术精髓在于个性化定制：所有参与者获得的模型在功能上完全一致，性能无差异，但其内部激活的“暗号系统”却各不相同。例如，分发给A机构的模型，可能对触发词“量子计算”产生特定响应模式；而分发给B公司的模型，则对触发词“神经网络架构”敏感。如此，当市场上出现一个疑似泄露的模型时，调查者只需用一系列预设的触发词进行黑盒查询，分析其输出规律，便能迅速追溯至最初的接收方。

整个检测过程是标准的“黑盒”验证。这意味着检测方无需访问模型内部参数或结构，仅需像普通用户一样向API发送查询请求，并分析返回的文本或分类结果。这如同艺术品鉴定师，无需破坏器物，仅通过观察特定特征和进行非侵入性测试，即可判定其真伪与来源。

技术实现的精巧设计

EmbTracker的实现，犹如一套精密的数字防伪印章工艺。流程的第一步，是为每位联邦学习参与者生成唯一的数字身份标识。此处运用了密码学中的数字签名技术：每位参与者使用其私钥生成签名，再通过安全的哈希函数映射为特定的触发词索引。这一步确保了标识的不可伪造性与唯一性。

随后是关键的水印注入阶段。服务器会预先训练一个“通用水印”模板，这好比雕刻一个主印章。具体而言，系统选取一批词语作为通用触发词集合，然后通过微调这些词对应的嵌入向量，使得模型在遇到这些词时，产生预设的行为偏移（例如在文本分类任务中输出某个特定标签）。

这一训练过程计算开销极低，因为它仅更新极少数量的参数。以拥有70亿参数的Llama-2-7B模型为例，每个词的嵌入向量仅涉及4096个参数，相对于模型总量微乎其微。这如同在一部百科全书中，仅修改了少数几个词条的解释旁注，完全不影响整部书的权威内容与阅读体验。

当需要向特定参与者分发模型时，服务器执行一个高效的“向量替换”操作：将该参与者专属触发词对应的嵌入向量，替换为已训练好的通用水印向量；同时，将通用触发词的向量恢复为原始状态。最终，每位参与者获得的是一个功能完整、但只对自身“密钥”产生响应的定制化模型。

在联邦学习多轮迭代过程中，参与者会在本地数据上继续微调模型。但由于他们通常采用参数高效微调方法（如LoRA），词嵌入层这类基础参数往往保持冻结，这确保了水印标识的持久性。在每轮服务器端参数聚合后，系统还可执行一次轻量级的“水印强化训练”，以防止水印信号在多次平均更新中被弱化。

黑盒验证的检测机制

当怀疑发生模型泄露时，EmbTracker的检测流程如同一次精准的身份核验对话。调查者准备一组测试样本，其中巧妙嵌入了不同参与者的专属触发词，然后将这些样本输入可疑模型，观察并记录其输出模式。

该机制的优越性在于其简洁与普适性。检测者无需具备深入的模型白盒知识或特殊工具，仅需拥有基础的模型查询权限即可。这好比通过询问几个预设的、只有真正拥有者才知道答案的私密问题，来验证对方的真实身份。

为确保判断的严谨性与准确性，系统设定了严格的双重判定标准：一个可疑模型要被确认为来自某特定参与者，必须同时满足——对该参与者的所有触发词响应准确率高于预设的高阈值（如90%），且对所有其他参与者的触发词响应准确率均低于一个低阈值。这种设计有效避免了因模型行为泛化而导致的误判或身份混淆。

研究团队在文本分类、开放域问答、视觉问答等多种AI任务上进行了广泛实验。结果表明，EmbTracker的溯源准确率接近100%。更值得关注的是，即使泄露后的模型经历了额外的下游任务微调、参数剪枝或精度量化压缩，水印信号依然保持强劲，证明了该方法卓越的鲁棒性与抗干扰能力。

对抗各种“破坏”尝试的能力

现实中，企图盗用模型者可能会尝试多种手段来“去除”或“混淆”水印。EmbTracker的设计前瞻性地考虑了这些对抗性攻击场景。

针对“微调攻击”（即使用新数据对泄露模型进行再训练以覆盖原有水印），实验表明，即使经过多轮微调，水印的检测率仍能稳定在90%以上。这是因为微调通常主要更新模型上层参数，而作为水印载体的底层词嵌入层往往得以保留。

面对“模型剪枝攻击”（故意删除部分模型参数以破坏水印结构），EmbTracker展现了强大的韧性。当参数剪枝率不超过30%时，系统依然能准确溯源。而当剪枝率超过30%，模型本身的性能通常已严重下降，其盗用价值大打折扣。

对于“量化攻击”（降低模型参数的数值精度以压缩模型体积），研究显示，即使将模型精度从FP32降至INT8，水印检测准确率仍高于95%。水印信号在设计时便考虑了低精度表示下的信息保留问题。

研究团队甚至模拟了更复杂的“适应性攻击”：假设攻击者完全知晓EmbTracker原理，并试图在模型中植入自己的伪造水印以干扰溯源。结果表明，原始水印依然清晰可辨。系统还可通过结合时间戳、数字签名序列等机制，判定不同水印的植入先后顺序，从而锁定真正的原始模型所有者。

实际部署的考虑因素

EmbTracker在设计之初便充分考虑了工程化落地的现实约束。首先是计算与时间开销。与需要为每个参与者从头单独训练一个水印模型的方法相比，EmbTracker只需进行一次通用水印模板训练，后续通过高效的向量替换即可完成个性化，在参与者数量庞大时，其效率优势极为显著。

系统的可扩展性经过了充分验证。在从10个到50个参与方的模拟联邦学习场景中，EmbTracker均保持了稳定的溯源性能，检测准确率不随参与方规模扩大而下降，显示出良好的横向扩展潜力。

兼容性同样出色。它能与FedAvg、FedProx、SCAFFOLD等主流联邦学习聚合算法无缝协同工作，同时也支持LoRA、前缀调优等主流的参数高效微调技术，便于集成到现有的AI协作平台中。

对数据的要求也很灵活。服务器端用于训练通用水印的数据集，并不需要与联邦学习主任务的数据域严格一致。实验表明，即使使用公开的、跨领域的通用文本数据进行水印训练，最终的检测效果依然可靠，这大大降低了系统部署的数据门槛。

在时间效率方面，在为期20轮的典型联邦学习训练中，EmbTracker引入的总时间开销比基线方法增加了不到5%。随着参与方数量的增加，额外开销的比例还会进一步降低，完全具备实际应用的可行性。

未来应用的广阔前景

EmbTracker的价值，远不止于解决联邦学习中的模型泄露溯源问题。它为AI时代的知识产权保护与可信协作，提供了一种可验证的技术范式。

在企业级合作层面，它能构建更坚实的安全信任基石。当多家公司或机构联合开发核心AI模型时，各方都能确信自身的贡献受到技术性保护，且一旦发生泄露可实现精准追责。这种保障能极大促进高价值、跨领域的商业AI协作。

在学术与研究领域，这套机制有助于维护科研诚信与清晰的成果归属权。特别是在需要汇聚多机构算力与敏感数据的前沿探索项目中，明确且可验证的知识产权保护能鼓励更开放、更高效的科研合作。

技术本身也在持续演进。研究团队已展望了EmbTracker在视觉-语言等多模态大模型中的应用前景，通过在多模态模型的文本编码端嵌入水印，来保护更为复杂和昂贵的AI系统。

从行业治理与合规角度看，此类可验证的溯源技术能为监管机构提供可靠的电子证据链。当需要调查某个存在偏见、安全漏洞或合规问题的AI模型来源时，精准的技术溯源能力是构建健康、负责任、可审计的AI生态的重要基础设施。

归根结底，EmbTracker代表了AI安全领域一次务实而精巧的进步。它不仅从技术上解决了一个具体痛点，更重要的是，它通过建立可验证的信任机制，让“协作”与“保护”这两个看似矛盾的目标得以兼得。正如论文所强调的，其终极价值在于“建立可验证的信任”，从而释放更大规模的合作创新潜力。

对于公众和产业界而言，这项研究的意义或许不会立竿见影。但从长远看，正是这类底层安全技术创新，在默默守护着AI研发者的智力成果与商业权益，确保技术进步带来的红利能够被公平、可持续地分享，推动整个人工智能领域行稳致远。对技术细节感兴趣的开发者与研究人员，可通过论文编号arXiv:2603.12089v1查阅完整报告。