在这篇文章正式展开之前,先给出几个核心判断。当前,基于Transformer架构的大语言模型(LLMs)在AI领域占据绝对统治地位,这一点毋庸置疑。“更大参数规模、更多训练数据、更长上下文窗口”这套暴力美学打法,近年来确实缔造了不少神话。

然而,当整个行业开始认真探索通用人工智能(AGI)时,标准深度Transformer的底层物理瓶颈与算法天花板逐渐凸显。因此,学术界和工业界的目光开始从无休止的“堆料”,转向一种古老又崭新的范式——循环架构(Recurrent Architectures / Looped Transformers)。
本文基于最新前沿调研,从技术硬核视角出发,系统拆解循环网络架构的发展机理、主要流派,深入探讨其是否有潜力接替Transformer成为下一代推理范式。
忘掉无休止的“堆叠层数”吧。
一、 为什么要改变?Transformer面临的“三座大山”
在讨论循环架构为何重新崛起之前,有必要先厘清传统自回归Transformer在处理复杂推理任务时的几个致命缺陷:
● 标记错误累积与计算带宽受限:大模型重度依赖显式的链式思考(CoT)来解决复杂问题。但这条由离散Token组成的单向逻辑链非常脆弱,任何一个Token生成失误都可能导致满盘皆输。更关键的是,很多高维度的抽象逻辑,根本就不是能无损压缩成一维自然语言的。强制用语言来表达,这就严重限制了模型的内部计算“带宽”。
● 计算深度与参数量的“硬绑定”:传统模型里,100层的计算深度,就意味着你必须在显存里实实在在地塞进100套独立的权重参数。这不仅带来了高昂的内存开销和部署成本,更意味着遇到那些需要很多步迭代的复杂难题时,计算会因为预设的层数用完了而被迫中断,相当于计算能力被物理结构锁死了。
● 单向计算图的拓扑局限:当模型面对需要频繁回溯、试错和深层分支探索的约束性问题(比如极端数独或迷宫找路)时,Transformer这种依赖统计概率的单向模式匹配机制往往会力不从心,因为它的计算路径本身就是单行道。
二、 破局核心:循环架构超越Transformer的底层逻辑
要理解循环架构为什么是必然趋势,得先看清标准Transformer在数学上到底是个什么本质。
一个经典的Transformer残差块,它的前向传播可以写成:
[此处应有一个公式图示]
从应用数学的视角看,这本质上是对一个常微分方程(ODE)进行前向欧拉数值积分,并且它的积分步长被硬性地固定成了1。
你看,这意味着什么?意味着100层的计算深度,你就得在显存里实实在在地存100套完全独立的参数。一旦面对需要几百步甚至上千步复杂推演的强约束算法任务(比如极端数独、复杂图论求解),这个静态的模型层数一下子就耗尽了,计算只能被迫停止。
与传统大模型“无限堆叠独特网络层”的思路完全相反,循环架构的核心哲学是:在连续的隐空间(Latent Space)中,反复调用一套完全共享权重的网络模块。这里的参数,在所有迭代步之间是完全共享的。这样一来,计算深度就不再是一个由物理显存决定的死参数了,而是变成了一个在推理时可以自由调节的动态“旋钮”。
增加循环次数,本质上就是用更精细的步长(比如1/T)去逼近同一个高维相空间的积分流形结果。这种看似简单的结构改变,带来了四个维度上的范式跃迁:
1. 参数与深度的彻底解耦:计算深度不再是静态的模型超参数,而是运行时的动态旋钮。这意味着一款只有700万参数的极小模型(比如TRM),也能通过增加循环次数获得理论上无限的有效推理深度,从而在复杂基准上匹敌那些几十亿参数的大家伙。
2. 升维打击:从离散文本到连续隐空间推理:模型把密集的思考过程藏在高维连续的隐空间里,隐状态在多轮循环中被无缝地修正甚至推翻。因为省去了输出中间文本这个环节,模型保留了更丰富的概率分布信息,推理的鲁棒性自然就指数级提升了。
3. 自适应计算时间(ACT):循环拓扑天然就跟状态机和迭代算法是一回事。面对简单问题,模型可以经过少量循环后“提前退出”;而面对ARC-AGI这类极端复杂的逻辑题,模型会自动分配更多迭代次数,自己决定要多“思考”一会儿。
4. ODE视角的数值积分逼近:标准Transformer的残差连接,本质上就是对ODE步长为1的前向欧拉积分。如果把这个残差层循环执行T次,数学上就相当于用了1/T的精细步长去做更高精度的逼近,从而更精确地捕捉复杂隐变量的演化轨迹。这就像你用更小的格子去画一个曲线,自然画得更准。
三、 循环网络的几种类型
根据底层拓扑和训练目标的不同,当前学术界的前沿探索主要分成了这么几大流派:
流派分类 | 典型模型代表 | 核心机理与突破 |
|---|---|---|
确定性隐空间递归 | HRM, TRM, AIR | 采用时间序列更新与深层监督机制。以极小参数量打破固定深度限制,实现深层结构化逻辑推演。 |
概率生成与多轨迹搜索 | PTRM, GRAM, DRM | 引入隐状态高斯噪声连续注入与扩散反向去噪。避免轨迹陷入局部死胡同,实现“宽度维度”的算力扩展与并行多解探索。 |
大规模预训练循环模型 | HRM-Text, Ouro, LoopFormer | 发明MagicNorm梯度控制与时间步长条件化技术。解决深层循环的梯度爆炸,成功实现十亿级别参数的从零预训练。 |
动力学稳定与定点吸引子 | Attractor Models, STARS | 利用隐式微分求解不动点,引入雅可比谱半径正则化(JSRR)。从数学根基上解决无限深度推理带来的混沌发散问题。 |
稀疏路由与免训练混合 | Hyperloop, LoopMoE | 结合MoE动态路由或对已冻结的大模型进行ODE子步逼近复用。在边缘受限环境或零训练成本下唤醒隐藏推理能力。 |
1. 确定性隐空间递归(Deterministic Latent Recursive Models)
这一流派主要专注于确定性的符号逻辑求解,目标就是通过共享层在多轮隐式循环后,把信号精准地导入唯一的最优解轨迹。
以微型递归模型TRM(Tiny Recursive Model)为代表,它在连续的高维隐空间(Latent Space)内执行试错和多轮细化。因为不再被迫把中间思维离散化成可读的自然语言Token,模型得以保留更高的信息带宽和多重假设的概率分布。这就像一个数学家在草稿纸上画满各种符号和图,而不是非要他把每一步思考都大声念出来。
为了解决循环网络在训练时面临的时间反向传播(BPTT)截断误差与记忆管理难题,TRM引入了深层监督(Deep Supervision)机制。它的损失函数是所有循环步输出的加权组合:
[此处应有一个公式图示]
这种机制使得一个仅有700万参数的紧凑网络,在不需要任何外部思维链(CoT)显式引导的情况下,展现出了惊人的分布外(OOD)泛化能力。
在AIR(Asymmetric Input Recurrence)架构中,研究者更进一步。他们在一个完全共享权重的单一非线性网络中,通过不对称输入注入,强行诱导出了功能分化。当系统做局部细节计算时注入输入信号,而在执行高级抽象更新时阻断注入。这种极其细微的结构非对称性,使得物理参数完全共享的模型,在相空间中自发产生了类似人类大脑“草稿本”和“战略提案库”的功能隔离,这很有意思。
2. 概率生成与多轨迹搜索(Probabilistic & Multi-Trajectory Models)
确定性递归模型有一个致命弱点:一旦隐状态在早期循环中掉进了一个次优的局部解,单纯增加循环深度只会让系统在错误的方向上越陷越深,无法自拔。
为了解决这种路径依赖,PTRM(Probabilistic TRM)在推理时的每一步深层递归中,都主动施加一点随机微扰。这种极微量的高斯噪声,允许系统在相空间中打破僵局,同时分支并探索数十条平行的思维轨迹。通过复用内置的奖励头进行并行筛选与剪枝,它实现了无需重新训练的“测试时宽度扩展(Width Scaling)”。
更完备的理论框架来自GRAM,它将递归推理直接建模为一个由摊销变分推断(Amortized Variational Inference)驱动的随机转移过程:
[此处应有一个公式图示]
而DRM(Denoising Recursion Models)则直接融合了条件扩散模型的数学范式。通过在训练期对目标输出施加逐步增强的噪声破坏,迫使共享网络在多个递归去噪步骤中提供由易到难的课程学习轨迹。这种设计不仅彻底摆脱了对长视距中间监督信号的依赖,还显著缓解了传统循环结构常见的梯度降级问题。
3. 大规模预训练循环语言模型(Large-Scale Pretrained Looped LMs)
把循环架构从孤立的符号逻辑任务,推向通用语言模型的十亿甚至万亿Token预训练,最大的暗礁在于自然语言极高的分布方差,会导致隐状态在深层循环中发生数学震荡,就像不稳定的控制系统。
为了压制深层激活方差的激增,HRM-Text引入了一项核心归一化技术——MagicNorm。它巧妙利用了前向与反向传播的时间不对称性:在内部用PreNorm保证反向传播时梯度畅通,而在模块整体输出端强加PostNorm,以前向压制激活方差。这个“内外有别”的机制,让HRM-Text成功实现了十亿级参数在通用开放域文本上的稳定预训练。
另一个长期困扰循环模型的痛点是超出训练分布的“表征崩溃”。如果模型训练时只把动态方程展开了固定的T步,测试时非要它循环50步,它的内部隐状态表征很可能失控并退化成无意义的噪声,完全无法工作。
LoopFormer提出的捷径一致性(Shortcut-Consistency)训练协议,给出了一个比较优雅的解法。它在每一轮循环中,都显式地把当前时间步和积分步长作为条件注入输入,并设计了一个约束损失,强制较短的粗略轨迹在经过时间条件化映射后,必须与全长深度轨迹的最终表示精确对齐。这就像给学生一个学习提纲,不同学习深度的学生,最终的答案都必须与标准答案对齐。这就确保了用户可以在推理时,根据算力预算自由指定循环深度(弹性深度),彻底消除了表征崩溃的隐患。
4. 动力学稳定与定点吸引子(Dynamical Stability & Fixed-Point Attractor Models)
从物理视角看,把网络“有限展开指定层数”仍然是一种工程妥协,不够纯粹。最极致的循环范式,应该直接诉诸于非线性动力系统理论中的不动点(Fixed Point)求解。
Attractor Models(定点吸引子模型)把推理过程完全交给了高维相空间内的收敛动力学。系统通过骨干网络生成一个初始嵌入后,吸引子模块开始迭代,直到隐状态满足不动点方程:
[此处应有一个公式图示]
训练这种模型时,如果继续用时间反向传播(BPTT),显存会随着收敛步数线性增长,这谁也扛不住。Attractor Models巧妙地利用了隐式微分(Implicit Differentiation)技术,直接绕过对中间迭代轨迹的追踪。这使得训练期的显存消耗相对于有效计算深度,降低到了恒定常数,是一个巨大的工程优势。同时,模型在优化过程中还会触发“均衡内化(Equilibrium Internalization)”现象,骨干网络给出的初始预测会逐渐被拉向目标吸引子的平衡点邻域,从而在只需要很少推理步数的情况下,依旧保持极高的鲁棒性。
然而,要保证系统在无限次的物理循环中不发生混沌发散,必须对系统的稳定性边界施加严密的数学约束。根据李雅普诺夫线性化定理,非线性动力系统的局部渐近稳定性,完全取决于其雅可比矩阵的谱半径。STARS框架为此引入了雅可比谱半径正则化(JSRR)目标,强制将谱半径约束在单位圆内。每一次循环迭代,都在严格的数学法则下,对潜在的不确定性进行持续的“挤压”与“过滤”——这才是循环网络能够在超长视距扩展中免于崩溃的物理根源。
5. 稀疏路由与免训练复用(Training-Free Looped Transformers)
除了从零训练全新的循环模型,业界最近还诞生了一种极其迷人的工程巧思:不进行任何微调、不更改任何架构,直接在推理期通过高阶数值积分器,来“唤醒”现有冻结大模型(比如Qwen系列)的循环推理能力。
Training-Free Looped范式又回到了ODE的视角。既然标准的预范数Transformer块是对前向欧拉积分的粗糙逼近,那么简单的块级复用必然会因为截断误差引发严重的性能退化。但如果改用高阶数值积分(比如Runge-Kutta 2阶或4阶方法)来控制阻尼,其前向展开步就可以进行改写。这种方法以零训练成本的代价,通过更精准地控制隐状态流形的演化轨迹,成功在推理期唤醒了冻结大模型的潜在常识推理与学科答题能力,为受限边缘端的部署开辟了一条全新的路径。简单来说,就是给现成的模型加上一个更高级的计算引擎,让它自己学会更深入的思考。
四、 终局思辨:接替还是融合?
跳出实验室环境,我们必须客观地审视一下循环架构在工业落地中的优劣。
绝对的降维打击能力:
● 极致的端侧部署经济性:1.4B参数的Ouro模型能达到4B标准模型的表现,这个极简的参数印迹,在边缘计算和移动端,战略价值非常高。
● 原生支持测试期算力扩展(Test-Time Compute):与单纯依靠拉长提示词、导致KV Cache迅速撑爆内存墙的传统大模型不同,循环架构把多步深思收敛在隐向量内,外部上下文窗口的占用始终保持恒定。这在长序列推理中是个巨大优势。
难以逾越的工程挑战:
● 深层不稳定性与训练开销:把同一个算子重复上百次,极易导致梯度消失或激活方差失控(也就是梯度爆炸)。必须依靠截断时间反向传播(TBPTT)或隐式微分求解,这导致它的训练显存或时间开销,确实难以匹敌Transformer那种大杀四方的高并行吞吐量。
● 表征崩溃(Representation Collapse):如果模型训练时只展开了16步,测试时非要它循环50步,隐状态往往会发生漂移并退化为噪声,这仍然是学术界需要攻克的顽疾。
● 极端的黑盒化:相比于能输出可读思维链的传统模型,循环网络的内部试错过程是一团不可读的高维稠密向量,这让排错和逻辑调试几乎无从下手,很难解释它到底是怎么得出这个结论的。
那么,循环架构会彻底终结Transformer吗?
从底层算子视角来看,无论是最极致精简的TRM,还是应用隐式微分的Attractor Models,它们内部负责高维表征提取的核心算子,依然离不开自注意力(Self-Attention)机制与门控线性单元(SwiGLU)。
因此,循环架构绝非是对Transformer的全盘否定,而是对其宏观连接层级与拓扑结构的一次历史性重构。纯粹且单一的循环架构,在短期内确实难以完全替代那些包含海量常识记忆与宽泛世界知识的万亿参数巨型模型。毕竟,参数量本身带来的暴力知识容量优势,依然是无可替代的物理法则。
但在通往AGI的图谱上,下一代超大语言模型系统,极有可能向着一种高度仿生的“脑启发混合架构”演变:
● 系统 1(直觉匹配):由一个非循环的、拥有千亿参数的浅层Transformer,负责快速模式识别和世界知识检索,就像人类的直觉反应。
● 系统 2(深思推演):一旦遇到棘手的逻辑矛盾、高级数学求解或强约束的Agent规划任务,系统1会把高度压缩的概念令牌,抛入一个参数极小(可能仅几亿)但循环深度极深、具备严格动力学稳定保障的循环核心中,进行长达数千步的连续隐空间沙盘演练与分支假设试错,就像人类的深度思考。
将空间层面的参数堆叠,转化为时间维度上的深度复用。这不仅是深度学习模型冲破智力天花板的必经之路,也是这场架构变革最底层的数学引力所在。
