游乐游手机版
首页/AI教程/文章详情

Transformer危机谷歌MoR架构内存减半推理翻倍

时间:2026-06-23 14:19
谷歌DeepMind发布Mixture-of-Recursions架构,在递归Transformer中统一参数共享与自适应计算,推理速度翻倍、KV缓存减半。相同训练预算参数减少约50%,少样本准确率43 1%优于普通Transformer的42 3%,训练FLOPs减少25%。

在Transformer架构几乎成为大模型代名词的今天,谷歌DeepMind联手KAIST AI和Mila团队,悄悄放出了一个名为Mixture-of-Recursions(MoR)的新架构。先别急着联想到MoE,这可不是专家混合——它是递归混合。效果如何?推理速度直接翻倍,KV缓存内存砍掉一半,而且所有这些提升都在一个统一的框架内完成:同一组参数,既能灵活处理不同任务,又能动态调配计算资源。

说得直白点,这就像给大语言模型装了个双层增效器——性能和效率两手都抓,两手都硬。

不少网友已经在惊呼“Transformer Killer”来了。更有观点认为,MoR或许意味着“潜在空间推理”将成为LLM的下一个突破口。

那么这个MoR到底创新在哪里?我们逐一拆解。

MoR:首次将参数共享与自适应计算统一到一个框架

Transformer虽然带来了惊艳的少样本泛化和推理能力,但训练和部署时那庞大的计算和内存开销,一直是绕不开的难题。业界现有的优化手段,要么走参数共享路线,要么走自适应计算路线,但两者像鱼和熊掌,往往只能选一个。

MoR的出现打破了这种二选一的局面——它在一个递归Transformer里同时融合了这两种效率维度。

具体来说,MoR首先采用了递归Transformer的设计思路。传统Transformer的每一层都是独立参数,而MoR将模型划分为递归块,复用一组共享参数池。它提供了三种参数共享策略:

  • Cycle:循环复用层参数。
  • Sequence:连续复用同一层参数。
  • Middle变体:保留首尾层为独有参数,只共享中间层。

参数共享的好处很明显:减少独特参数数量,提升分布式训练效率,还能通过连续深度批处理消除计算中的“气泡”,显著提高推理吞吐量。

接下来是动态路由机制。MoR通过一个轻量级路由器,为每个token分配不同的递归深度,把计算资源集中投放在复杂token上。路由策略分两种:

  • Expert-choice路由:把每个递归步骤看作一个“专家”,基于隐藏状态计算分数,用阈值筛选出需要继续计算的token,层级过滤,复杂度越高的token优先获得更多计算。
  • Token-choice路由:初始阶段就为每个token分配好固定递归深度,通过softmax/sigmoid确定专家,token按分配深度依次完成递归。

除了参数和路由,MoR还配套了一套KV缓存策略来管理键值的存储与使用,保证内存效率不掉队:

  • Recursion-wise缓存:只缓存当前递归步骤中活跃token的KV对,把注意力计算限制在本地缓存里,降低内存和IO需求。
  • Recursive KV共享:复用首次递归产生的KV对供后续步骤使用,确保所有token都能访问历史上下文,减少预填充操作。有趣的是,这种共享方式反赌意力的计算量下降幅度很小。

三种策略组合在一起的效果是:MoR在每个token的解码过程中直接进行“潜在思考”,路由机制让模型能自适应推理,突破了以往固定思考深度的限制。参数效率与自适应计算,终于不再是一道单选题。

性能全面超越Transformer

研究团队在135M到1.7B不同参数规模的模型上,对原始Transformer、递归基线模型和MoR进行了对比实验。

实验结果很说明问题:在相同的16.5e18 FLOPs训练预算下,MoR使用了将近50%更少的参数,却取得了更低的验证损失和更高的平均少样本准确率——43.1%。而普通Transformer模型的少样本准确率是42.3%。这意味着MoR的计算效率更高,同样的FLOPs预算可以处理更多的训练token。

如果固定训练20B token,MoR的训练FLOPs减少了25%,训练时间缩短了19%,峰值内存也降低了25%。

进一步分析路由策略发现,Expert-choice路由的性能在一定程度上优于Token-choice路由——路由的粒度确实会对最终性能产生重要影响。

研究团队还做了IsoFLOP分析,结果显示,在135M、360M、730M和1.7B四个参数规模,以及2e18、5e18、16.5e18三种FLOPs预算下,MoR始终优于递归基线模型。

不过值得一提的是,在135M这种极小规模下,MoR因为递归容量瓶颈,表现略逊于普通Transformer。但随着规模扩大到360M及以上,MoR的性能逐步接近甚至超越普通模型,而且参数仅为后者的三分之一——这个可扩展性数据相当扎实。

在推理吞吐量评估中,360M规模的MoR模型,无论是固定批大小还是最大批大小设置,都优于普通Transformer。

原理也不难理解:递归深度增加后,更多token会提前退出计算,KV缓存占用减少,吞吐量自然就上去了。深度批处理与早期退出的结合,对部署效率的提升非常显著。

谷歌对底层架构的再思考

这已经不是谷歌第一次对底层架构动手术了。其实,谷歌一直在用架构创新来重构计算范式,试图找到AI效率与性能的新平衡点。

最典型的例子就是混合专家模型(MoE)。2017年,谷歌首次把MoE引入LSTM层,通过稀疏门控机制只激活部分专家网络来处理输入,让一个137B参数的模型依然能保持高效训练。

后来的GShard把MoE和Transformer结合起来,实现了动态负载均衡。2021年的Switch Transformer进一步简化了路由机制。而Gemini 1.5 Pro采用的就是分层MoE架构,把专家网络与多模态处理深度绑定,能处理更复杂的多模态任务,训练和服务效率也提升了一大截。

MoE的底层逻辑突破了传统全连接模型的计算瓶颈,如今已成为超大规模模型的首选范式之一。此外还有像TokenTransformer这样的可扩展架构,把模型参数当作可学习的token,通过增量训练无缝扩展模型规模,为未来千亿级模型的低成本迭代铺了路。

所以当MoR出现在眼前时,不少人的反应是:它会不会彻底改变AI世界的规则?能不能真正超越Transformer?

答案或许还要留给时间去验证。但可以肯定的是——谷歌在架构创新的路上,从来没停过。

来源:https://www.aiagiai.com/13031.html
上一篇OpenAI通用智能体ChatGPT Agent正式发布 下一篇硅谷新一轮裁员潮:拥抱AI或被AI淘汰
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
刚刚,OpenClaw和Cursor杀入手机!
AI教程 · 2026-07-01

刚刚,OpenClaw和Cursor杀入手机!

AI Agent,真的开始从电脑里“跑出来”了。以前我们用 Agent,基本离不开网页、IDE、终端、云环境。你想让它写代码、查资料、改项目、跑任务,很多时候还得坐在工位前盯着。但现在不一样了。OpenClaw 推出了 iOS 和安卓原生 App,手机可以变成私有 Agent 网络里的一个移动节点。

幻灯片排版优化AI智能助手,节省时间与精力
AI教程 · 2026-07-01

幻灯片排版优化AI智能助手,节省时间与精力

说起来,今天想和大家聊聊一个特别实在的话题:怎么用AI工具把PPT排版效率提上去,真正省下时间和精力。谁不想在忙忙碌碌的工作里找到点儿省事的诀窍呢?我有个朋友,为了准备一次重要汇报,连着熬了三个晚上折腾PPT,最后出来的效果也就是勉强及格。要是当时他能用上AI工具,结果会不会完全不一样?PPT排版优

AI排版软件让文档制作轻松又高效
AI教程 · 2026-07-01

AI排版软件让文档制作轻松又高效

AI智能排版工具通过自动识别文档结构、调整格式,显著提升排版效率。实际案例显示,文档处理时间可缩短约50%,项目交付效率提高40%。其功能涵盖自动排版、模板库、智能校对等,重构了文档制作流程,使用户专注内容创作,提升专业形象与市场竞争力。

Karpathy晒邮件曝光注意力机制真正起源:10年前三项独立研究
AI教程 · 2026-07-01

Karpathy晒邮件曝光注意力机制真正起源:10年前三项独立研究

2014年,三项研究几乎同时独立提出注意力机制:DzmitryBahdanau在YoshuaBengio实验室开发出RNNSearch(后称注意力),AlexGraves和JasonWeston团队也发表了类似机制。该思想源于解决循环神经网络信息瓶颈的需求,采用可微加权平均,成为深度学习核心算法。

如何选择AI排版工具与技巧提升内容创作效率
AI教程 · 2026-07-01

如何选择AI排版工具与技巧提升内容创作效率

AI排版工具推荐与技巧:如何提升内容创作效率与视觉设计效果其实,AI排版早已成为内容创作领域的热门话题。在信息爆炸的时代,大家都想知道如何让内容在海量信息中脱颖而出。简单来说,AI排版就是借助人工智能技术自动化处理文本、图像等内容的布局与设计。不妨想象一下:星巴克菜单上那些赏心悦目的排版,背后可能就