首页 游戏 软件 资讯 排行榜 专题
首页
AI
清华联合发布Cache-to-Cache模型:用“传心术”重构AI通信新范式

清华联合发布Cache-to-Cache模型:用“传心术”重构AI通信新范式

热心网友
28
转载
2025-10-30

本文提出的 Cache-to-Cache(C2C)范式,成功实现了大模型间高效、通用的直接语义通信。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

随着大语言模型的快速进步,为了适应越来越多样的工作场景,模型越来越多在指定场景进行针对性训练,例如代码、数学计算、视觉理解、边缘计算等。而在面对复杂任务与特定场景时,通过多智能体进行探索、决策、信息交换,可以实现相比单智能体更好的综合表现。

在多智能体系统中,现有的智能体多以 Text to Text(T2T)方式进行交流,即通过生成交流文本进行智能体之间的信息传递,而这种方式则会带来信息丢失(多维语义被压缩到一维文字)、语义模糊[3][4]、巨大延迟(逐个 token 生成)三大问题。基于此来自清华大学、无问芯穹、香港中文大学、上海人工智能实验室和上海交通大学的研究团队在论文中创新提出了 Cache to Cache(C2C)方式的信息传递,将模型的 KV-Cache 作为传播媒介,实现了直接的「脑对脑」交流,相比 T2T 的对话交流实现了 3%-5% 的正确率提升以及平均两倍的速度提升,为多智能体系统提供了一种全新的通信范式。

论文的核心贡献在于:

验证了超越文本的模型间通信的可行性提出了以 KV-Cache 作为媒介进行通信的方案 - C2C为多智能体通信提供了新的技术基础

a) T2T 通过显式文本生成传递信息 b) C2C 直接将不同模型的 KV-Cache 进行投影与融合

本工作现已开源,欢迎交流讨论。

代码链接:https://github.com/thu-nics/C2C主页链接:https://github.com/thu-nics论文链接: https://arxiv.org/pdf/2510.03215

背景:现有文本通信的局限性

在面对复杂任务与特定场景时,多智能体系统能够展现出超越单智能体的显著优势。然而,现有的 Text to Text(T2T)极大地限制了模型间的信息交流,尤其是在传递具有丰富语义的上下文时,产生了以下三大问题:

1.信息丢失:作为低带宽的传播媒介,在将信息压缩为一维文本序列并输出时,很容易造成高维语义降维时的信息丢失。

2.语义模糊:自然语言本身包含的模糊表达,尽管 MCP 等智能体交流协议希望可以标准化文本信息 [3][4],但是固定的模版依旧难以满足灵活、开放的协作场景。

3.巨大延迟:T2T 传递采取逐个 token 输出,极大地限制了通信速度。

核心洞见:KV-Cache 的独特优势

KV-Cache 天然包含模型对话过程中的多维语义信息,无需额外二次处理。通过预实验,我们发现:

1. 在相同文本长度下,优化后的 KV-Cache 能够显著提升模型的准确率;

2. 不同模型之间的 KV-Cache 可以进行相互转换与传递,具备良好的通用性;

3. 不同模型针对相同上下文会生成各自独特的 KV-Cache 表示,体现了模型间能力的互补性。

此外,KV-Cache 在并行处理方面具有天然优势,能够精准弥补现有 T2T(Text-to-Text)方式的不足。例如,KV-Cache 可通过投影对不同词元实现完全并行的信息交流,有效避免低效的一维文本输出流程。

基于上述优势,我们团队探索了以KV-Cache为媒介的模型通信方式。实验表明,KV-Cache 不仅拓展了模型间交流的表达空间,还显著提升了效率和可扩展性。

源模型、目标模型以及转换后KV-Cache的t-SNE图

KV-Cache 优化实验

深入解析:C2C 直接语义通信的实现路径

1. Sharer 与 Receiver

团队将提供额外上下文理解的模型定义为 Sharer(分享者),而负责接收完整上下文并结合这些理解生成回复的模型定义为 Receiver(接收者)。

2. 核心机制:C2C-Fuser

C2C 的核心在于 KV-Cache 的融合。为此,我们设计了融合器 F 以及层映射策略 G。

在 prefill 阶段,第 n 层的融合器 F (n) 会用 Receiver 的第 n 层 KV 和 Sharer 的第 G (n) 层 KV 进行融合,生成新的 KV 表示。在 解码阶段,模型则利用融合后的 KV-Cache 和当前前缀,进行自回归生成,实现信息的有效利用。

3. 融合器设计:残差式信息注入

为防止融合过程破坏 Receiver 原有语义,Fuser 采用残差融合结构,分为投影层、动态权重层和可学习门控三部分。

投影层:将两侧 KV 在头 / 通道维度拼接,通过线性投影与特征融合映射到统一表征空间;实现初步的信息整合;动态权重层:用输入感知的 head-modulation 对投影后的各注意力头 / 通道做自适应加权;促使模型可以判断:在何时应当保留 Receiver 的输入,何时应当增强 Sharer 的引导;可学习门控:每层有可训练门控,使用带温度退火的 Gumbel-sigmoid,从开始训练时的可微加权平滑过渡到推理时的 0/1 决策。最终以残差形式与 Receiver 原 KV 相加,保留原始表征;保证了训练的有效性以及 Receiver 输出的稳定性。

这样可以自适应地将 Sharer 的信息以残差方式注入 Receiver,实现更有效的信息整合与传递。

4. 模型对齐:跨模型、跨层级的映射

为保证不同模型(系列、尺寸)之间 KV 表示的兼容性,C2C 引入模型对齐机制。

Token 对齐:将 Receiver 的每个 token 解码为字符串,再用 Sharer 的分词器重新编码;遇到一对多映射时,选取覆盖字符串最长的 Sharer token 以最大限度保障信息精准传递。Layer 对齐(也即层映射策略):采用「末端对齐」策略 —— 先对齐两模型的最顶层,然后按逆序逐层对齐直到较浅模型的第一层,优先保障深层语义的融合传输。

5. 训练框架:专注于 C2C Fuser 模块

在训练过程中,团队冻结 Sharer 和 Receiver 的参数,仅训练 C2C 融合器模块,采用类似SFT的 next token prediction 损失。训练流程包括前向传播、KV-Cache 融合,以及最终的监督学习与传播,确保 C2C 能稳定高效地实现模型间的信息传递。

结果与分析:C2C 的性能与效率优势

训练数据:OpenHermes2.5 [14]

为确保泛化能力,团队在通用微调语料库 OpenHermes2.5 [14] 中选取前 50 万个样本来训练 C2C Fusers。

模型组合:

涵盖不同系列(Qwen2.5 [5]、Qwen3 [6]、Llama3.2 [7]、Gemma3 [8] )、不同规模(0.6B~14B)、不同专业领域(通用、代码、数学)以及不同训练阶段(预训练、指令微调)模型。例如,用 Qwen2.5-Math 作为 Sharer,Qwen3-0.6B 作为 Receiver,测试学科知识传递。

基线方法:

T2T:Sharer 生成解析文本,Receiver 接收解析文本以及原问题后进行回答query-level routing:根据问题难度动态选择 Sharer 或 Receiver 回答单模型:Sharer 和 Receiver 分别单独回答

评测基准:

OpenBookQA[9]:考察模型对科学常识和开放性知识推理能力MMLU-Redux[10]:考察多领域、多任务的专业知识理解与综合能力ARC-C [11]:考察复杂科学推理任务C-Eval [12]:考察模型在中文环境下的多学科知识与应用能力

整体表现

在主要评测基准上的测试结果,使用Qwen-0.6B作为Receiver

如表所示,C2C 在不同设置和基准上持续提升了 Receiver 的性能。

准确性提升:显著超越个体与文本通信:

针对三种不同的 Sharer,分别观察到 C2C 相比单个 Sharer 平均准确率提升 11.00%、9.64% 和 11.88%。与 T2T 相比,C2C 的平均准确率分别额外提升了 5.36%、4.15% 和 3.06%。

效率增益:延迟大幅降低:

由于省去了中间文本消息的生成,相比 T2T,C2C 在推理时间上分别实现了约 3.46×、1.51× 和 14.41× 的加速。相较之下,query-level routing 更侧重效率,但其准确率一般不超过两个原始模型中的较好者。

值得注意的是,当使用 Qwen3-4B Base 作为 Sharer 时,该模型生成的文本有时会忽视指令并超出预期长度,导致文本到文本通信时间显著增长,而 C2C 能绕过该问题。这一设置展示了一个有趣的用例:即使是弱的 SFT 模型,也能帮助强大的预训练基础模型更好地遵循指令。

泛化实验

分别在规模扩展、序列长度扩展与不同模型组合三个层面上进行泛化实验,结果说明 C2C 在三个层面上均能有效泛化,具体实验结果详见正文部分。

消融实验

Single 表示在没有 Sharer 的情况下对 Receiver 进行标准的完整微调;Identical 表示 Sharer 与 Receiver 均为 Qwen3-0.6B 的 C2C 配置。

实验结果说明 C2C 的改进并非单纯来源于增大的可训练参数量或对训练集的过拟合,而是来自异构 Sharer 提供的互补性上下文理解。即便是 Identical 相较于 Single 也有提升,表明 Cache 级别的自我通信(cache-level self-communication)能提供有益的辅助表征,这与在隐空间推理和循环 Transformer 中观察到的效应一致 [15][16]。

未来展望

Cache to Cache 及其思想的应用前景十分广泛,可能的场景包括:

1. 多智能体系统中实现协作效率与效果的大幅提高。例如在一些多智能体系统的应用中,可以进一步提升智能体系统响应与处理速度,适配当前快节奏、多需求的 AI 训练浪潮。

2. 多模态的便捷融合。借助 C2C 可以对齐并融合语言模型、视觉 - 语言模型(VLM)及视觉 - 语言 - 动作(VLA)策略的缓存,使视觉与语言上下文共同驱动更精确的理解与决策执行。

3. 与推理加速方法整合。将 C2C 用于增强推测解码(speculative decoding)、 token 级路由等方法中小模型的表现,进一步降低延迟与推理成本。

4. 隐私感知的云 — 边协作。云端模型将经挑选的 KV-Cache 段传输到边端模型,以在不暴露原始文本的前提下提升边端能力,减少带宽并降低数据泄露风险。

5. 高维语义空间的协作与推理。与隐空间推理结合后可以实现完全在高维语义空间的模型推理与沟通协作,有望进一步提升系统工作效率,减少计算开销。

本文提出的Cache-to-Cache(C2C)范式,成功实现了大模型间高效、通用的直接语义通信。其在性能、效率与泛化性上的优异表现也让我们期待,在智能体时代,C2C 有潜力成为构建新一代多智能体系统的关键使能技术之一,推动其交流方式从低效的文本中转迈向高效的「思想同步」。

来源:https://www.51cto.com/article/828432.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势
web3.0
Cardano(ADA)2026 年价格预测:Grok AI 分析与未来走势

Cardano (ADA) 2026年价格预测:AI深度解析与增长路径 在瞬息万变的加密市场,人工智能分析正成为洞察未来趋势的关键工具。近期,由Grok AI模型发布的Cardano(ADA)2026年价格预测引发了广泛关注,其大胆展望ADA或有望触及两位数美元价格。这不仅彰显了AI数据分析的潜力,

热心网友
04.02
京东发起全民养虾计划 整合AI硬件与服务降低门槛
科技数码
京东发起全民养虾计划 整合AI硬件与服务降低门槛

京东“全民养虾计划”:开启AI助手体验新纪元 科技领域近期迎来一场别开生面的创新活动:京东正式推出“全民养虾计划”。表面看,它与美食相关,实际上是一场针对AI智能体技术普及的宏大实验。该计划通过“购买AI硬件、赠送专业安装服务与趣味小龙虾”的组合策略,为当前热门的开源AI智能体——OpenClaw,

热心网友
04.02
一波资本从以太坊(ETH)流出,进入TRON [TRX]
web3.0
一波资本从以太坊(ETH)流出,进入TRON [TRX]

以太坊资本外溢:TRON为何成为15 2亿美元稳定币新枢纽? 区块链世界的地壳运动从未停止,资本的流向便是其中最敏锐的震感。近期,一场规模惊人的资本迁徙正在上演:大量资金正从以太坊网络流出,涌入TRON生态。这不仅是简单的资产转移,更是一次深刻的行业风向标,揭示了用户对交易成本、网络效率与应用场景的

热心网友
04.02
自研第一个SKILL-openclaw入门
AI
自研第一个SKILL-openclaw入门

自研第一个SKILL:手把手教你开发openclaw自定义技能 当你成功构建好openclaw之后,如何让它真正“智能”起来?关键在于为其开发SKILL——这些技能是openclaw的“内功心法”,决定了它能帮你做什么、做多好。 本文将带你亲自动手,从零开始开发你的第一个openclaw自定义技能,

热心网友
04.02
消息称有国产 TOP5 手机厂商已合作豆包 AI 手机
科技数码
消息称有国产 TOP5 手机厂商已合作豆包 AI 手机

国产 TOP5 手机厂商被曝联手豆包 打造全新 AI 手机 手机行业再迎重磅 AI 合作!今日,知名数码爆料博主 @数码闲聊站 抛出了“豆包 AI 手机”的议题,并透露其已从内部渠道确认:一家位列国产前五的头部手机厂商,已与字节跳动旗下 AI 产品“豆包”达成深度合作协议。这标志着,AI 手机助理的

热心网友
04.02

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

强制平仓热图是什么?如何解读?一文详解强制平仓热图的使用
web3.0
强制平仓热图是什么?如何解读?一文详解强制平仓热图的使用

比特币强制平仓热图:揭秘市场流动性猎场的终极指南 2025年11月下旬,比特币价格剧烈波动,一度跌破91,000美元关键支撑。在短短24小时内,全网超过3 01亿美元的资金被强制清算,十余万交易者遭遇爆仓。这些清算事件并非随机分布,而是高度集中在特定的价格水平,形成了一场残酷的“流动性踩踏”。这一切

热心网友
04.03
红色沙漠跃升之塔启动方法
游戏攻略
红色沙漠跃升之塔启动方法

红色沙漠跃升之塔详细启动攻略 如何启动跃升之塔?当主线推进到第八章“面对内心的自我”时,这已成为推动剧情的关键挑战。整个过程更像是一次集平台跳跃与精密电路解谜于一体的沉浸式体验。本文将为你详尽解析这座神秘装置的完整启动流程与核心技巧。 一、启动前置条件 在启程探索之前,务必确认以下几项准备工作已完成

热心网友
04.03
登录欧易OKX提示请求超时?什么原因?如何快速解决?
web3.0
登录欧易OKX提示请求超时?什么原因?如何快速解决?

作为全球领先的数字资产交易平台之一,欧易(OKX)为用户提供了高效、安全的交易体验。然而,当你尝试登录欧易OKX(OKX)交易所时,系统会弹出提示:“请求超时,请稍后重试。”这类问题常让人困惑:网络明明正常、账号也没问题,为什么就是登录不了?这并不是账户故障,而是“访问路径”出现了问题。 简单来说,

热心网友
04.03
珊瑚的化学成分主要是
游戏攻略
珊瑚的化学成分主要是

珊瑚的化学成分究竟是什么?神奇海洋今日答案为你解析 欢迎来到每日海洋知识科普!今日我们一同探索海洋中的瑰丽建筑师——珊瑚。你是否好奇珊瑚的主要化学成分是什么?正确答案现已公布:碳酸钙。 事实上,珊瑚的本质是珊瑚虫分泌形成的坚硬骨骼,其核心化学构成正是碳酸钙。掌握这一知识点,不仅是答对题目的关键,更是

热心网友
04.03
腾讯文档在线文档怎么生成网页
手机教程
腾讯文档在线文档怎么生成网页

在数字化办公成为主流的今天,腾讯文档作为一款优秀的在线协作文档工具,极大地提升了团队效率。而将腾讯文档在线文档生成独立网页,能够进一步扩大文档的传播范围,实现无需登录即可公开访问,便于在各种场景下分享与展示。 将腾讯文档内容转化为网页的操作流程其实非常简单。首先,您需要在腾讯文档中打开您希望发布成网

热心网友
04.03