清华联合发布Cache-to-Cache模型:用“传心术”重构AI通信新范式
本文提出的 Cache-to-Cache(C2C)范式,成功实现了大模型间高效、通用的直接语义通信。
随着大语言模型的快速进步,为了适应越来越多样的工作场景,模型越来越多在指定场景进行针对性训练,例如代码、数学计算、视觉理解、边缘计算等。而在面对复杂任务与特定场景时,通过多智能体进行探索、决策、信息交换,可以实现相比单智能体更好的综合表现。
在多智能体系统中,现有的智能体多以 Text to Text(T2T)方式进行交流,即通过生成交流文本进行智能体之间的信息传递,而这种方式则会带来信息丢失(多维语义被压缩到一维文字)、语义模糊[3][4]、巨大延迟(逐个 token 生成)三大问题。基于此来自清华大学、无问芯穹、香港中文大学、上海人工智能实验室和上海交通大学的研究团队在论文中创新提出了 Cache to Cache(C2C)方式的信息传递,将模型的 KV-Cache 作为传播媒介,实现了直接的「脑对脑」交流,相比 T2T 的对话交流实现了 3%-5% 的正确率提升以及平均两倍的速度提升,为多智能体系统提供了一种全新的通信范式。
论文的核心贡献在于:
验证了超越文本的模型间通信的可行性提出了以 KV-Cache 作为媒介进行通信的方案 - C2C为多智能体通信提供了新的技术基础
a) T2T 通过显式文本生成传递信息 b) C2C 直接将不同模型的 KV-Cache 进行投影与融合
本工作现已开源,欢迎交流讨论。

背景:现有文本通信的局限性
在面对复杂任务与特定场景时,多智能体系统能够展现出超越单智能体的显著优势。然而,现有的 Text to Text(T2T)极大地限制了模型间的信息交流,尤其是在传递具有丰富语义的上下文时,产生了以下三大问题:
1.信息丢失:作为低带宽的传播媒介,在将信息压缩为一维文本序列并输出时,很容易造成高维语义降维时的信息丢失。
2.语义模糊:自然语言本身包含的模糊表达,尽管 MCP 等智能体交流协议希望可以标准化文本信息 [3][4],但是固定的模版依旧难以满足灵活、开放的协作场景。
3.巨大延迟:T2T 传递采取逐个 token 输出,极大地限制了通信速度。

核心洞见:KV-Cache 的独特优势
KV-Cache 天然包含模型对话过程中的多维语义信息,无需额外二次处理。通过预实验,我们发现:
1. 在相同文本长度下,优化后的 KV-Cache 能够显著提升模型的准确率;
2. 不同模型之间的 KV-Cache 可以进行相互转换与传递,具备良好的通用性;
3. 不同模型针对相同上下文会生成各自独特的 KV-Cache 表示,体现了模型间能力的互补性。
此外,KV-Cache 在并行处理方面具有天然优势,能够精准弥补现有 T2T(Text-to-Text)方式的不足。例如,KV-Cache 可通过投影对不同词元实现完全并行的信息交流,有效避免低效的一维文本输出流程。
基于上述优势,我们团队探索了以KV-Cache为媒介的模型通信方式。实验表明,KV-Cache 不仅拓展了模型间交流的表达空间,还显著提升了效率和可扩展性。

源模型、目标模型以及转换后KV-Cache的t-SNE图

KV-Cache 优化实验
深入解析:C2C 直接语义通信的实现路径
1. Sharer 与 Receiver
团队将提供额外上下文理解的模型定义为 Sharer(分享者),而负责接收完整上下文并结合这些理解生成回复的模型定义为 Receiver(接收者)。


2. 核心机制:C2C-Fuser
C2C 的核心在于 KV-Cache 的融合。为此,我们设计了融合器 F 以及层映射策略 G。
在 prefill 阶段,第 n 层的融合器 F (n) 会用 Receiver 的第 n 层 KV 和 Sharer 的第 G (n) 层 KV 进行融合,生成新的 KV 表示。在 解码阶段,模型则利用融合后的 KV-Cache 和当前前缀,进行自回归生成,实现信息的有效利用。
3. 融合器设计:残差式信息注入
为防止融合过程破坏 Receiver 原有语义,Fuser 采用残差融合结构,分为投影层、动态权重层和可学习门控三部分。
投影层:将两侧 KV 在头 / 通道维度拼接,通过线性投影与特征融合映射到统一表征空间;实现初步的信息整合;动态权重层:用输入感知的 head-modulation 对投影后的各注意力头 / 通道做自适应加权;促使模型可以判断:在何时应当保留 Receiver 的输入,何时应当增强 Sharer 的引导;可学习门控:每层有可训练门控,使用带温度退火的 Gumbel-sigmoid,从开始训练时的可微加权平滑过渡到推理时的 0/1 决策。最终以残差形式与 Receiver 原 KV 相加,保留原始表征;保证了训练的有效性以及 Receiver 输出的稳定性。这样可以自适应地将 Sharer 的信息以残差方式注入 Receiver,实现更有效的信息整合与传递。
4. 模型对齐:跨模型、跨层级的映射
为保证不同模型(系列、尺寸)之间 KV 表示的兼容性,C2C 引入模型对齐机制。
Token 对齐:将 Receiver 的每个 token 解码为字符串,再用 Sharer 的分词器重新编码;遇到一对多映射时,选取覆盖字符串最长的 Sharer token 以最大限度保障信息精准传递。Layer 对齐(也即层映射策略):采用「末端对齐」策略 —— 先对齐两模型的最顶层,然后按逆序逐层对齐直到较浅模型的第一层,优先保障深层语义的融合传输。5. 训练框架:专注于 C2C Fuser 模块
在训练过程中,团队冻结 Sharer 和 Receiver 的参数,仅训练 C2C 融合器模块,采用类似SFT的 next token prediction 损失。训练流程包括前向传播、KV-Cache 融合,以及最终的监督学习与传播,确保 C2C 能稳定高效地实现模型间的信息传递。
结果与分析:C2C 的性能与效率优势
训练数据:OpenHermes2.5 [14]
为确保泛化能力,团队在通用微调语料库 OpenHermes2.5 [14] 中选取前 50 万个样本来训练 C2C Fusers。
模型组合:
涵盖不同系列(Qwen2.5 [5]、Qwen3 [6]、Llama3.2 [7]、Gemma3 [8] )、不同规模(0.6B~14B)、不同专业领域(通用、代码、数学)以及不同训练阶段(预训练、指令微调)模型。例如,用 Qwen2.5-Math 作为 Sharer,Qwen3-0.6B 作为 Receiver,测试学科知识传递。
基线方法:
T2T:Sharer 生成解析文本,Receiver 接收解析文本以及原问题后进行回答query-level routing:根据问题难度动态选择 Sharer 或 Receiver 回答单模型:Sharer 和 Receiver 分别单独回答评测基准:
OpenBookQA[9]:考察模型对科学常识和开放性知识推理能力MMLU-Redux[10]:考察多领域、多任务的专业知识理解与综合能力ARC-C [11]:考察复杂科学推理任务C-Eval [12]:考察模型在中文环境下的多学科知识与应用能力整体表现

在主要评测基准上的测试结果,使用Qwen-0.6B作为Receiver
如表所示,C2C 在不同设置和基准上持续提升了 Receiver 的性能。
准确性提升:显著超越个体与文本通信:
针对三种不同的 Sharer,分别观察到 C2C 相比单个 Sharer 平均准确率提升 11.00%、9.64% 和 11.88%。与 T2T 相比,C2C 的平均准确率分别额外提升了 5.36%、4.15% 和 3.06%。效率增益:延迟大幅降低:
由于省去了中间文本消息的生成,相比 T2T,C2C 在推理时间上分别实现了约 3.46×、1.51× 和 14.41× 的加速。相较之下,query-level routing 更侧重效率,但其准确率一般不超过两个原始模型中的较好者。
值得注意的是,当使用 Qwen3-4B Base 作为 Sharer 时,该模型生成的文本有时会忽视指令并超出预期长度,导致文本到文本通信时间显著增长,而 C2C 能绕过该问题。这一设置展示了一个有趣的用例:即使是弱的 SFT 模型,也能帮助强大的预训练基础模型更好地遵循指令。
泛化实验
分别在规模扩展、序列长度扩展与不同模型组合三个层面上进行泛化实验,结果说明 C2C 在三个层面上均能有效泛化,具体实验结果详见正文部分。
消融实验

Single 表示在没有 Sharer 的情况下对 Receiver 进行标准的完整微调;Identical 表示 Sharer 与 Receiver 均为 Qwen3-0.6B 的 C2C 配置。
实验结果说明 C2C 的改进并非单纯来源于增大的可训练参数量或对训练集的过拟合,而是来自异构 Sharer 提供的互补性上下文理解。即便是 Identical 相较于 Single 也有提升,表明 Cache 级别的自我通信(cache-level self-communication)能提供有益的辅助表征,这与在隐空间推理和循环 Transformer 中观察到的效应一致 [15][16]。
未来展望
Cache to Cache 及其思想的应用前景十分广泛,可能的场景包括:
1. 多智能体系统中实现协作效率与效果的大幅提高。例如在一些多智能体系统的应用中,可以进一步提升智能体系统响应与处理速度,适配当前快节奏、多需求的 AI 训练浪潮。
2. 多模态的便捷融合。借助 C2C 可以对齐并融合语言模型、视觉 - 语言模型(VLM)及视觉 - 语言 - 动作(VLA)策略的缓存,使视觉与语言上下文共同驱动更精确的理解与决策执行。
3. 与推理加速方法整合。将 C2C 用于增强推测解码(speculative decoding)、 token 级路由等方法中小模型的表现,进一步降低延迟与推理成本。
4. 隐私感知的云 — 边协作。云端模型将经挑选的 KV-Cache 段传输到边端模型,以在不暴露原始文本的前提下提升边端能力,减少带宽并降低数据泄露风险。
5. 高维语义空间的协作与推理。与隐空间推理结合后可以实现完全在高维语义空间的模型推理与沟通协作,有望进一步提升系统工作效率,减少计算开销。
本文提出的Cache-to-Cache(C2C)范式,成功实现了大模型间高效、通用的直接语义通信。其在性能、效率与泛化性上的优异表现也让我们期待,在智能体时代,C2C 有潜力成为构建新一代多智能体系统的关键使能技术之一,推动其交流方式从低效的文本中转迈向高效的「思想同步」。
相关攻略
Excel筛选功能能高效处理海量数据。基础筛选通过列标题下拉菜单勾选或搜索快速定位数据。高级筛选需设置条件区域,可满足多条件复杂查询。FILTER函数能实现动态自动化筛选,结果随数据源同步更新。掌握这些方法可显著提升数据处理效率。
Excel表格可通过多种方法美化以提升可读性。使用内置表格样式可一键快速套用格式;通过设置单元格格式能自定义边框与填充颜色;利用条件格式可根据数据规则自动突出显示特定内容。这些技巧能有效增强数据呈现的清晰度与专业性。
Excel提供了多种批量删除数据的方法。使用Ctrl键配合鼠标可选择不连续区域并右键删除;选中连续区域后按Delete键可快速清空内容。通过“开始”选项卡中的“清除”功能,可同时移除格式与内容。对于复杂任务,可利用VBA宏编写脚本,一键清空所有工作表数据。根据需求选择合适方法能提升效率。
面对表格数据,手动计算易错低效。掌握自动汇总技巧能显著提升效率。常用方法包括:利用筛选功能快速提取和查看特定数据;使用基础的SUM函数进行灵活求和;创建数据透视表进行多维度交互式分析;运用COUNTIF、SUMIF等条件统计函数实现智能计算。根据场景选用合适工具,可使数据处理变得轻松高效。
Excel表格合并有多种方法。复制粘贴适合简单任务;合并计算可汇总多区域数据;PowerQuery能处理复杂合并与数据清洗;CONCATENATE和TEXTJOIN函数专用于合并单元格文本;VBA宏可实现重复任务的自动化。根据数据规模、频率和复杂度选择合适工具,能显著提升数据整理的效率与准确性。
热门专题
热门推荐
公安部就电子数据取证规则公开征求意见,拟将网络安全等行政案件纳入适用范围,并规范取证流程与核心概念。新规特别明确了获取密码、调取通讯内容等特殊程序,需经严格审批并保障当事人权利。配套法律文书也同步优化,以构建更规范且注重权利保障的取证体系。
理想L9和LIvis的定价策略刚掀起波澜,小鹏GX的最终价格就给出了更猛烈的回应——从近40万元的预售价直降至27万元起。用小鹏产品矩阵负责人吴安飞的话说,这叫“9系的产品,8系的价格”。 这12万元的下调,效果堪称立竿见影。发布会次日,小鹏集团港股股价一度大涨超8%。更关键的是市场订单:上市12小
5月21日,环塔拉力赛新疆且末赛段大营迎来了一位备受瞩目的访客——知名零售企业胖东来的创始人于东来。他专程前往长城汽车车队营地,与参赛车手及后勤团队进行了深度交流。据悉,于东来此次自驾越野之旅已历时一月,随行车队中包含多款国产越野车型。经过实地驾驶与多维度对比,他对以长城汽车为代表的国产越野车品质给
比特币官方入口在哪里?一个核心门户的权威指南 说起比特币,很多人第一反应是去找它的“官网”或“官方App”。但这里有个关键点需要先理清:比特币本质上是一种去中心化的全球数字货币,它不属于任何一家公司或机构,而是由一个庞大的、遍布全球的社区共同维护。因此,它并没有传统意义上由某个企业运营的“官方网站”
Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构





