先想说一个核心背景:WWDC 24 发布会上,苹果不仅带来了新一代操作系统,还正式亮相了 Apple Intelligence——AI 如何嵌入日常生活的构想终于有了实质性的落地。围绕这件事,我们邀请到了一位既有学术背景又有产业经验的专家——沙磊教授。他曾在北大读博、在牛津做博后,还曾在苹果 Siri 组工作过。这次他系统性地介绍了团队的最新研究项目 ATM(Adversarial Tuning Multi-agent System),并分享了关于苹果 AI 未来走向的观察,以及 ATM 技术如何通过类似 GAN 网络的对抗性 Agent 机制,提升 RAG 的检索与生成能力。
《ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator》

ATM Attacker Agent - Generator Agent 架构
论文链接:https://arxiv.org/abs/2405.18111
解决问题:RAG 依赖语义相关的文档作为生成器的输入上下文,重新注入外部知识。但问题在于——今天的互联网上充斥着大量错误、无关甚至由 LLM 捏造的虚假信息。这些内容会变成生成器输入端的多余噪音。ATM 的核心思路是构建一个多 Agent 对抗防御系统,通过对抗机制引导生成器更好地判断:哪些文档对回答问题真正有帮助?以此增强生成器的鲁棒性,最终让它在 LLM 捏造的文档中也能甄别出有用的信息。
模型框架:ATM 包含生成器 Agent 和攻击者 Agent。攻击者的任务,是编造虚假知识、往文档列表中塞入更多噪音;生成者则需要抵御干扰、保持稳定输出。团队在多个 Agent 之间进行迭代优化——攻击者会慢慢进化出更强的攻击模式,生成者则同步增强自身的防御能力。
使用效果:ATM 在自然问题上的分数提高了 31%。在 ATM 架构下,生成器逐步超越了此前最先进的 RALM、RetRobust 和 Self-RAG,在各数据集上的性能领先 5%。
应用空间:ATM 可以部署在各个领域的 RAG 系统中。除此之外,它在增强模型安全性、提升准确性等指标上也有明显的应用价值。
ATM 测试性能
关于研究经历
沙教授在北大读博期间深耕自然语言处理方向,做过大规模信息抽取和文本生成。后来在苹果美国湾区的 Siri 组,他直接参与对话系统的研发。那段经历让他意识到:做好对话系统,核心在于让模型真正理解自然语言,因此研究重心逐渐转向了可解释语言模型。之后他前往牛津大学做博士后,主攻可解释 AI。2022 年初回国,机缘巧合下在北航做了分享并最终加入,持续探索自然语言处理、可解释性方向,也涉及大模型安全、幻觉消除,以及 AI for Science 相关的课题。
产业 vs 学术:为什么 Agent 架构更适合落地
从苹果对话系统的开发经验来看,产业界天生更适合 Agent 架构。学术界偏爱发端到端的论文,但产业里实现端到端非常困难——没有大模型的时代,直接通过对话去完成搜索、调用、生成各种任务(比如设闹钟、打电话、发信息、找资料)几乎不可能。用户的需求既多且杂,一个模型根本没办法把所有事情都包揽下来。行业里更实际的解决方案,是让多个 Agent 合作完成各种任务。
大模型时代道理一样。首先得把对话做好,让模型充分、深刻地理解语言——如果只是浅层搭建对话系统,很容易变成“人工智障”。大模型出现后,情况发生了质的变化:模型对语言的理解能力有了质的提升,它更像一个智能中枢,也是 Multi-Agent 中的主 Agent,既能精准理解语言,又能调用其他 Agent 的功能。
对 WWDC 24 的期待
沙教授的看法是:WWDC 上演示的那些功能——比如用不同情绪发邮件、调用邮件信息、设定日程等等——到真正推出时都应该能实现。苹果肯定希望 Siri 能跟大部分系统内部应用打通,事实上他当年在苹果时,就有专门的团队在做这类互联互通的工作。现在大模型出现了,这件事远比过去更可能实现。
ATM 架构的设计初衷
团队最初的目标是做检索增强相关的工作。大模型在垂类领域的知识掌握得不够深入,时常会产生幻觉。RAG 可以帮助模型查阅相关资料,针对特定问题给出更准确的回答。但 RAG 本身也分检索、增强、生成三个环节。检索和模型的关系不大,主要依赖检索器性能;增强环节则有相当可观的提升空间——比如一次检索出多篇文档,它们的排列顺序(正序还是倒序、有规律还是随机打乱)不同,大模型输出的结果可能完全不同。人读完十篇参考文献,无论按什么顺序看,最终的结论应该大致一样;但检索信息的不同排列组合,喂给大模型后可能带来截然不同的生成结果。
团队就顺着这个逻辑思考:能不能设计一个专门的 Agent,不断给大模型出难题、挑战它,迫使它的稳健能力逐渐提升?最终诞生了 ATM。它借鉴了 GAN 的思想——让一个 Attacker 和一个 Generator 互相博弈,通过迭代优化不断提升 RAG 的承载能力。后续团队也和百度合作,把这种对抗生成理念做了更实质性的落地。
对抗博弈怎么打?
攻击者的策略很直接:检索完成后,对文档内容进行一系列扰动——包括位置、顺序、细节内容的干扰——然后把这些处理过的内容喂给生成器。攻击者不断干扰,目标是把模型生成的分数压下去;生成器则要顶住误导,把正确的答案生成出来。整个过程就是一场持续的博弈。这和 GAN 网络有些相似,但区别也很明显:GAN 的对抗可以通过损失函数做连续优化、最终找到最佳答案;ATM 则更多依赖 DPO 去做离散的主观优化,类似于对齐中的策略——利用强化学习对比,一步步找到更优的生成答案。
ATM 的应用前景
ATM 的应用范围相当广。拿模型安全性来说——目前已经有人利用大模型制定带攻击性的方案,ATM 能够帮助筛选出不安全的生成回复。歧视、整治问题等潜在风险同样在它的修正范围内。只要发现有不安全的输出,就给攻击 Agent 打上标签、让它微调。过去调整模型往往比较局限,不安全信息屏蔽得不全面;但大模型 Agent 可以随时调整,实时加入新案例对生成器进行攻击,生成器则会在这个过程中理解并提升自己的防御能力。最终,在人类想要保护的所有信息领域,ATM 都能起到作用。
下一步的探索方向
ATM 目前还是一个比较消耗算力的方案,如何降低资源消耗是团队正在思考的问题。另一方面,RAG 本身也有不少可以增强的点——检索环节有很多工程化提升空间:比如检索不到有用的内容、检索到的信息颗粒度不够高、内容不够全面、篇幅不够长……这些都是需要改进的方向。
大模型的底层能力同样值得持续关注。如果模型本身只有“小学生”的知识水平,即使它去查阅资料,也很难回答出“大学生”级别的问题。团队目前用 7B 模型做测试,这和 175B 规模模型的差距是很明显的。如何在垂类小模型上做好调优,就是另一个值得深挖的方向。
团队还在关注什么?
大模型安全是沙教授目前主要关注的方向,数据增强和检索增强也一直是重点。在 AI for Science 领域,他更倾向于医疗、生物、化学等严肃场景——大模型可以看作一个吸收了海量知识、并能融会贯通的载体。在医学这类数据密集的领域,模型对知识的理解和挖掘有天然优势;让它做特征提取、简单的理解与分析,已经可以发挥很好的作用。
