加州大学圣地亚哥分校利用动力系统理论稳定循环神经网络并推演计算扩展法则

首页

热心网友

转载

2026-05-15

说起让AI变得更聪明，大家的第一反应往往是堆料——更多的参数、更深的层数、更庞大的计算集群。这就像想提升厨艺，总觉得得先扩建厨房、添置更多锅灶才行。但这条路终究有物理和成本的极限，尤其当我们需要把强大的模型塞进手机、平板或边缘设备时，内存和算力的天花板触手可及。

那么，有没有可能不增加参数，就让AI模型“原地”变得更强大？最近，一项由加州大学圣地亚哥分校与Together AI合作的研究，给出了一个颇具想象力的答案：让AI学会“反复咀嚼”同一份信息。具体来说，就是让神经网络的某些层对输入数据进行多次循环处理，每一轮都基于上一轮的理解进行深化。这种思路被称为“循环架构”。

加州大学圣地亚哥分校用动力系统理论驯服

一、一块芯片能跑多强的大脑？让AI"原地踏步"反而变强的秘密

然而，理想很丰满，现实却曾很骨感。此前尝试循环架构的研究者常遇到一个棘手问题：训练过程极不稳定，损失值会突然飙升，模型莫名其妙就“崩溃”了。问题到底出在哪？没人能说清。正是这个悬而未决的难题，驱动研究团队展开了深入探索，并最终提出了名为 Parcae 的新方法（名字源于罗马神话中掌管命运线的三位女神）。

二、问题的根源：那口锅为什么总在烧穿？

要解决问题，先得精准定位问题。团队借用了工程控制领域的经典工具——线性时不变系统（LTI）的分析框架。听起来高深，但核心思想很直观：把模型内部的信息流动，看作一条随时间演变的“水流”，然后分析这条水流在循环管道里会不会越滚越大，直至决堤。

具体到循环层，每一轮的信息更新都可以简化为一个数学公式：新状态 = 旧状态 × 矩阵A + 输入 × 矩阵B。这里的矩阵A是关键，它像个“放大器”，决定了信息每循环一次是被放大、缩小还是维持原样。

控制理论告诉我们，这个放大器的关键特性是谱范数（可理解为它能将向量放大的最大倍数）。如果谱范数大于1，信息就会在循环中不断被放大，最终数值爆炸，导致系统崩溃——这正是此前观察到的“残差状态爆炸”。如果等于1，系统则处于脆弱的临界状态，随时可能失控。只有谱范数严格小于1，信息流才会在循环中平稳收敛。

分析结果令人警醒。团队检验了已有的两种主流循环注入方式：一种是“加法注入”，其矩阵A实际上是单位矩阵，谱范数恒为1，处于临界不稳定；另一种是“拼接投影”，其矩阵A完全不受约束，谱范数可以任意大，稳定性全靠训练运气。实验数据完美印证了理论：所有训练发散的情况，都伴随着矩阵A的谱范数超过1；而能勉强收敛的，其谱范数都维持在1以下。更微妙的是，即便没有完全发散，长时间训练后损失值仍会出现异常抖动，说明隐患始终存在。

三、Parcae的设计：给那口锅加上一个温度调节器

找到了病根，药方就明确了：必须从架构设计上根本约束矩阵A，确保其谱范数始终小于1。Parcae的解决方案是一套组合拳：

第一，硬化稳定性约束。 团队将矩阵A设计为一个负对角矩阵的离散化形式。这种矩阵只有对角线有值且为负，能保证其特征值经过映射后全部落在0到1之间，从而从数学上强制谱范数小于1。这就好比给放大器加装了一个硬性的限流器，从根本上杜绝过载。

第二，前置输入归一化。 为了解决训练后期出现的损失抖动，团队在输入信号进入循环层前，加入了一个归一化层。这相当于食材下锅前先统一规格，防止某块“巨无霸”突然撑坏系统。在1.3B参数的大模型训练中，这一设计的效果尤为明显，它直接阻断了因预处理块输出过大而引发的状态爆炸。

第三，优化训练采样策略。 为了让模型能灵活适应不同循环深度，训练时每个批次的循环次数是随机采样的。Parcae改进了此前的策略，引入了逐序列深度采样，允许同一个批次内的不同数据序列拥有不同的循环次数。这就像从“集体套餐”改为“个人点餐”，显著减少了训练抖动，并提升了模型在低循环次数下的性能。

第四，纠正采样偏差。 团队还修正了一个此前被忽略的采样偏差，确保训练时循环次数的分布与目标分布严格一致。这一修正显著改善了模型在测试时面对与训练不同循环次数的泛化能力。

四、和前辈们的对比：Parcae到底强在哪里？

团队从两个维度全面评估了Parcae：一是与同类循环架构对比，二是与标准Transformer架构对比。

在与循环架构RDM的对比中，Parcae在多个参数规模下的语言建模困惑度（越低越好）均显著降低，降幅最高达9.1%。在常识推理等下游任务上，平均准确率提升约1.8个百分点。最关键的是稳定性：在相同设置下，RDM在多个学习率下无法收敛，而Parcae在所有测试的学习率下均表现稳定，对超参数的鲁棒性大幅提升。

在与同参数规模的固定深度Transformer对比中，结果更具碘伏性。在140M到1.3B的四个规模上，Parcae的验证困惑度全面低于Transformer，降幅在4.3%到9.2%之间。在综合下游评测基准上，Parcae的得分也更高。一个突出的例子是：770M参数的Parcae，其性能可与1.3B参数的Transformer媲美——用大约一半的参数量，达到了同等的实际能力。量化来看，Parcae在参数效率上提升了23.3%到87.5%。

五、循环就是一种新的"扩展轴"：计算预算该怎么分配？

证明了Parcae的有效性后，团队开始思考一个更宏观的问题：在固定的总计算预算和参数量下，资源该如何分配？是应该投给“更多数据”，还是投给“更多循环次数”？

他们通过大量系统实验发现了一个清晰规律：对于固定的计算预算，存在一个最优的循环次数，使得模型性能最好。并且，增加循环次数同时相应减少数据量，比单纯增加数据量能获得更低的损失。这证明“循环次数”是一个独立于“数据量”和“参数量”的、新的模型扩展维度。

进一步地，他们拟合出了量化的扩展规律：最优循环次数随计算预算的约0.4次方增长，而最优数据量随计算预算的约0.77次方增长。这意味着，当计算资源增加时，两者都应增加，但数据量需要增长得更快一些。这个可预测的规律，为大规模训练时的资源规划提供了科学依据。

六、测试时也能"越想越准"：但有上限，而且上限是可以预测的

另一个自然的问题是：训练完成后，在推理（测试）时让模型多“想”几轮（增加循环次数），性能会一直提升吗？

答案是：会提升，但有饱和上限。研究发现，测试性能随循环次数增加而提升，但曲线呈“饱和型”，提升速度越来越慢，最终趋近一个极限。这个极限水平，与模型训练时所使用的最大循环深度密切相关。

更妙的是，这种饱和曲线可以用一个简洁的指数衰减函数精准描述。这不仅提供了实用的预测工具，其指数衰减的形式也与Parcae基于稳定动力系统（谱范数<1）的设计在理论上形成了呼应——稳定线性系统的状态正是以指数速度收敛的。

七、训练与测试的"统一方程"：把两条规律合而为一

将训练时的扩展规律与测试时的衰减规律相结合，团队最终推导出一个统一的性能预测公式。这个公式允许我们仅根据模型的参数规模、训练数据量和训练循环次数，就能预测它在任意测试循环次数下的大致性能，误差可以控制在很低水平（如1.3%左右）。

这意味着，在模型实际训练和部署之前，我们就可以在设计阶段优化计算资源的分配策略，在训练成本与推理性能之间找到最佳平衡点。

八、局限与未来：这口锅还能做哪些菜？

当然，这项工作也有其边界。目前扩展规律的验证主要在中等参数规模（140M、370M）进行，能否平滑外推到千亿甚至更大规模，仍需验证。此外，当前循环次数多在十几次以内，对于“极端深度循环”的行为尚不清楚。在架构上，目前矩阵A采用了对角形式，未来可以探索更复杂的参数化方式。一个现实的工程挑战是：训练时循环越深，推理时达到同等性能所需的循环次数也可能越多，这会增加延迟，如何优化是一个开放问题。

总而言之，这项研究用经典的工程控制理论，为深度学习中的循环不稳定问题提供了清晰的诊断和优雅的解决方案。它揭示了一条重要的技术路径：扩展AI能力未必总要“堆参数”，通过精心设计的“循环咀嚼”，在有限的资源下同样能烹饪出更智能的盛宴。这对于边缘计算、移动端AI等资源受限场景，无疑具有重要的启发意义。

（本研究论文《Parcae: Proactive and Retrospective Cycle Analysis for Efficient and Stable Looped Training》已发布于arXiv预印本平台，编号arXiv:2604.12946v1，感兴趣的读者可查阅全文获取技术细节。）