南加州大学AI推理突破实现举一反三能力提升

时间：2026-05-20 07:29

南加州大学的研究团队在2026年5月发布了一项引人注目的成果，论文编号为arXiv:2605 12466v1，为语言模型的架构设计开辟了一条新路。过去几年，以ChatGPT、Claude为代表的大语言模型彻底重塑了人机交互的图景。但细究起来，这些模型的工作方式有点“一根筋”：无论面对的问题是简单寒

南加州大学的研究团队在2026年5月发布了一项引人注目的成果，论文编号为arXiv:2605.12466v1，为语言模型的架构设计开辟了一条新路。

过去几年，以ChatGPT、Claude为代表的大语言模型彻底重塑了人机交互的图景。但细究起来，这些模型的工作方式有点“一根筋”：无论面对的问题是简单寒暄还是复杂推理，它们都调用固定的计算资源，走完固定的处理步骤，然后给出答案。这就像一个厨师，无论客人点的是泡面还是满汉全席，他都用同样的火候和时间去处理，既没法偷懒，也没法“加班”深思。

这种设计在多数场景下够用，但遇到真正需要深度思考的难题时，就显得力不从心了。研究者们很早就想到，如果能让模型在输出前，先在内部“多琢磨几遍”，逐步完善自己的答案，效果应该会更好。于是，“循环架构”或“循环语言模型”应运而生——让模型像拧螺丝一样，一圈一圈地把答案拧得更紧、更准。

然而，理想很丰满，现实却很骨感。让模型循环起来的代价异常高昂：训练时需要保存每一轮迭代的中间状态，内存消耗随着循环次数线性飙升，有时候训练一个循环模型所需的算力，堪比训练一个参数量大十倍的普通模型。更棘手的是训练稳定性问题，以及“训练-推理不匹配”的尴尬：模型在训练时只学会了转固定圈数，推理时若多转几圈，表现反而会下降。

面对这些瓶颈，南加州大学的团队提出了一个巧妙的解决方案：“吸引子模型”。这个名字借鉴了物理学中的“吸引子”概念——在动力系统中，无论起点如何，系统最终都会稳定收敛到某个状态，就像碗底的小球。这项研究的核心思想在于：与其让模型一圈圈地迭代逼近答案，不如直接让它找到那个迭代过程最终会收敛到的“不动点”，并直接在那里解码出结果。

实验结果令人印象深刻。在大规模语言建模任务上，吸引子模型在多个参数规模上全面超越了标准Transformer和现有的循环模型基准，同时训练计算量减少了25%到31%，训练内存消耗几乎恒定。更惊人的是，一个7.7亿参数的吸引子模型，其性能甚至超过了参数量近两倍（13亿）、训练数据也多一倍的普通Transformer。在极端推理任务上，一个仅用约1000个样本训练、参数量2700万的微型吸引子模型，在“超难数独”和“超难迷宫”任务上分别达到了91.4%和93.1%的准确率，而DeepSeek R1、Claude 3.7、GPT o3-mini等顶尖大模型在这些任务上的准确率均为0%。

一、普通AI模型的“固定跑道”困境

要理解吸引子模型的价值，得先看看现有模型的局限。以标准的Transformer为例，当你输入一段文本让它预测下一个词时，模型会沿着固定的、单向的计算路径走一遍，然后给出答案。这个过程是“均码”的，无论预测的是高频词“的”，还是需要复杂上下文推导的专业术语，模型花费的计算成本完全相同。

为了让模型能“多想一想”，循环架构被设计出来。它让同一组参数被反复使用多次，每次迭代以上一轮的输出为输入，逐步精炼结果，就像厨师对同一锅食材进行反复翻炒调味。理论上这很吸引人，实践也证明它能提升推理能力。

但麻烦出在落地环节。训练循环模型需要使用“时间反向传播”技术，这意味着每一轮迭代的中间结果都必须完整保存在内存中，以备计算梯度之用。迭代次数越多，内存占用就越高，如同要求厨师保存每一次翻炒的火候和状态照片以供复盘——翻炒100次，就得存100张照片。当循环深度增加时，这种开销让训练变得难以承受。

另一个核心难题是“训练与推理不匹配”。模型在训练时被设定为循环8次，它就会优化自己在第8次迭代的表现。如果推理时让它循环12次，模型在第9到第12次的表现就会失控，因为它从未学习过那些状态。这好比一个只练100米冲刺的运动员，突然被要求跑120米，最后20米完全不知所措。

此外，还有专门为小型推理任务设计的递归网络（如TRM），它们在参数量较小时表现尚可，但一旦将参数扩大到2700万，性能竟会直接崩溃归零。研究者将这种现象称为“越大越差”，这对于追求模型可扩展性的AI领域而言，无疑是一个严重的障碍。

二、吸引子模型：直接找到“碗底”而不是一圈圈往下滚

吸引子模型的灵感，源于对循环模型内部机制的一个关键观察：对于绝大多数词元（token），循环过程最终都会稳定收敛到一个固定状态——即无论再循环多少次，输出都不再变化。这说明，循环语言模型本质上是在用有限次迭代去逼近一个数学上的“不动点”。

既然终点总是那个固定点，何不绕过漫长的迭代过程，直接找到它呢？这就是吸引子模型的思路：将迭代过程建模为一个求解“不动点”的数学问题，借助专门的求解器直接定位收敛状态，而非模拟每一步的滚动。

模型由两个模块协同工作，好比一位主厨带着助手。第一个是“骨干模块”，通常是一个较大的Transformer网络。它的职责是根据输入，快速生成一个初步的“输出嵌入”——可以理解为答案的一个粗糙但方向正确的向量草图。这个草图不必完美，但必须有意义。

第二个是“吸引子模块”，通常是一个更小的Transformer。它的任务是对骨干模块给出的草图进行迭代精炼，直到找到那个“不动点”——即无论再怎么计算，结果都保持不变的状态。精炼过程反复进行：将当前答案和骨干模块的初始猜测一起输入吸引子模块，得到新答案，如此循环，直到新旧答案的差异小于某个阈值，或达到最大迭代次数。

这里有一个至关重要的设计细节：“持续注入”。在每一次精炼迭代中，骨干模块给出的初始猜测都会被重新叠加到当前状态上。这确保了吸引子模块始终“不忘初心”，记得自己要从哪里出发，从而避免其收敛到一个与输入无关的随机固定点。消融实验证实，如果没有持续注入，只有12.4%到99.7%的词元能在规定迭代内收敛；而采用加法形式的持续注入后，收敛率稳定在99.7%，且模型预测的困惑度也达到最优。

三、用“隐函数定理”让训练内存不再随迭代增长

吸引子模型在工程上的一个巨大优势，来自于其独特的梯度计算方式。普通循环模型需要保存所有中间步骤，内存随迭代线性增长。而吸引子模型借助数学中的“隐函数定理”来计算梯度，其精妙之处在于：它只需要知道最终的不动点状态，就能反推出模型参数该如何调整，完全不需要记录中间过程。

打个比方：假设你找到了山中的一个湖泊（不动点），你想知道如果改变山的坡度，湖泊位置会如何变化。隐函数定理告诉你，只需分析湖泊当前所在位置的地形特征，就能推算出结果，无需重新模拟每一滴雨水从山顶流下的全过程。

在实际实现中，研究团队进一步采用了“一步近似”法——用一个极其简单的单步计算来近似精确的隐函数梯度。消融实验显示，完整的隐函数梯度计算（Anderson方法）比一步近似在验证困惑度上仅优0.14，但需要4.8倍的内存和2.7倍的时间。折中的“幽灵梯度”（展开3步）需要1.8倍内存和1.4倍时间，改进幅度为0.11。因此，团队选择了一步近似方案，用几乎可忽略的性能损失，换取了显著的效率提升。

实验数据直观地展示了这一优势：当循环深度从1增加到256时，采用传统反向传播的Parcae模型，其训练峰值内存从不足10GB猛增至超过80GB；而吸引子模型的内存占用始终稳定在4.18GB左右，几乎是一条水平线。这一特性使得吸引子模型能够轻松应对更深的有效循环深度，而不会因内存爆炸而无法训练。

四、“平衡内化”：模型自学如何让迭代器变得多余

训练完成后，研究者观察到一个有趣的现象，并将其命名为“平衡内化”。简单说，就是经过充分训练的吸引子模型，其骨干模块给出的初始猜测已经非常接近最终的不动点答案，以至于后续的精炼迭代变得几乎多余。

为何会出现这种现象？从训练机制看，损失函数作用于最终的不动点，而这个不动点又与初始猜测通过数学关系紧密相连。因此，在训练过程中，骨干模块会承受优化压力，学习去产生一个“尽可能接近最终答案”的初始输出，从而降低整体损失。随着训练推进，骨干模块变得越来越擅长直接“猜中”答案，吸引子模块只需要做极少量的微调即可。

研究者通过两种方式展示了这一现象。一是对迭代轨迹进行主成分分析投影：吸引子模型的状态在前8步迭代后就已收敛到一个密集的点簇，后续迭代轨迹几乎重叠；而对比模型Parcae的轨迹在16步内仍有明显漂移。二是追踪训练所需迭代次数：对比的DEQ基线模型所需迭代次数随训练持续增加；而吸引子模型在训练早期就迅速降至最低迭代次数并保持稳定。

这在推理阶段带来了直接好处。系统测试表明，对于吸引子模型，从第一次迭代（T=1）开始，性能就几乎达到峰值。更关键的是，即便完全跳过吸引子模块，直接使用骨干模块的输出（T=0），其表现也优于需要迭代8次才能达到最佳状态的Parcae模型。这意味着，在推理时，用户可以选择完全省去精炼步骤，在几乎不损失性能的前提下，大幅节省计算时间。

五、大规模语言建模：全面碾压同级选手

在大规模语言建模的正面较量中，研究团队将吸引子模型与标准Transformer、循环模型Parcae在140M、370M、770M三个参数量级上进行了对比。所有模型使用相同的数据集、优化器和学习率计划，仅架构不同。

评测涵盖多个维度：验证集困惑度（衡量预测准确性）、Lambada困惑度（测试长距离上下文理解），以及CORE系列下游任务准确率（直接评估模型推理能力）。

结果呈现出一边倒的优势。在140M规模上，吸引子模型将Lambada困惑度从标准Transformer的127.39大幅降低至68.02，提升46.6%；CORE准确率提升12.2%。在770M规模上，吸引子模型的CORE准确率达到26.83%，相比同参数量的Transformer提升19.7%。更令人瞩目的是，这个770M的吸引子模型，在Lambada困惑度（15.21）上，竟然超越了参数量为其1.7倍（1.3B）、训练数据也多约两倍的标准Transformer（17.26）。

效率优势同样明显。在140M参数量级，吸引子模型的计算量比Parcae减少约25%；在770M参数量级，减少约31%。这得益于两方面：求解器通常在达到最大迭代次数前就已收敛，以及一步近似的反向传播无需额外的迭代计算开销。

六、极端推理任务：顶尖大模型束手无策的地方，它做到了

数独和迷宫听起来简单，但这里用的是“极难”版本。超难数独的初始给定数字极少，需要极强的逻辑链才能完成；超难迷宫结构复杂。这两个任务的特点是容错率为零：任何一步错误都会导致全盘皆输。

任务的设定更为苛刻：模型必须在单次前向传播中一次性输出完整的答案网格（不能分步推理），并且仅使用约1000个训练样本进行学习。在这种设定下，标准Transformer（27M参数）准确率为0%，而参数量巨大的DeepSeek R1、Claude 3.7和GPT o3-mini-high同样得分为0%。原因在于，这些大模型擅长生成链式思维（一步步推理）的自然语言，而该任务禁止这种输出方式，要求直接预测完整结构。

在专门设计的递归架构中，HRM（27M参数）是较强的基准。TRM模型在7M参数时表现最强，但当参数扩大到27M时，准确率竟崩溃至0%，再次印证了“越大越差”的怪象。

吸引子模型则走出了不同的曲线。在7M参数时，其表现与TRM 7M相近或稍弱。但当参数扩大到27M时，其准确率非但没有崩溃，反而飙升至91.4%（数独）和93.1%（迷宫），展现出健康的可扩展性。

在此小样本设定下，吸引子模型的实现有所调整：由于样本极少，不再需要单独的骨干模块，初始猜测由“深度监督”中的上一步结果提供。反向传播也从未使用一步近似，改为使用“幽灵梯度”（展开3步），因为在小网络、小数据场景下，一步近似提供的训练信号过于粗糙，幽灵梯度能在精度和效率间取得更好平衡。这一点与TRM作者的经验吻合：将TRM的反向传播改为一步近似后，其数独准确率从87.4%骤降至56.5%。

七、与相关架构的深入对比

吸引子模型并非首个引入不动点概念的架构。深度平衡模型（DEQ）早在2019年就提出了类似框架：用一个隐状态的不动点作为输出，并通过隐函数定理求梯度。然而，对比实验显示，两者性能差距显著：同等参数量下，DEQ的验证困惑度为42.18，而吸引子模型为34.05。

这差距源于三个关键设计差异。首先，DEQ的不动点位于隐藏状态空间，需要一个额外的“输出头”来解码；而吸引子模型的不动点直接位于“绑定的输出嵌入空间”，骨干模块的初始猜测和最终答案共享同一个嵌入矩阵进行解码，这使得两个模块的优化目标天然一致。其次，DEQ从零向量开始迭代，求解器必须“白手起家”；吸引子模型则从一个有意义的初始猜测开始，求解器只需做小幅修正，因此收敛更快（平均8.4次 vs DEQ的14.6次）。第三，DEQ文献指出增加其块数反而会损害性能，而吸引子模型允许使用任意深度的骨干Transformer和可变数量的求解器块，架构设计灵活性更高。

归根结底，吸引子模型做了一件符合直觉的事：先用一个强大的网络给出靠谱的“初稿”，再用一个精炼网络将其推向最终答案，而精炼过程通过直接求解“答案应满足的方程”来完成，无需记录中间步骤，也无需预设迭代次数。

更耐人寻味的是“平衡内化”现象：模型在训练中自发学会了让“初稿”无限接近“终稿”，以至于精炼步骤在推理时变得几乎不必要——但恰恰是这个在训练中存在的精炼步骤，充当了引导“初稿”持续优化的“移动标尺”。这就像一个学徒在严师的反复指点下打磨技艺，最终出师时，即使没有师傅在场，也能独立做出大师级作品。

这项研究揭示了一条可行的路径：未来的语言模型或许不必在“堆参数”和“堆算力”之间做痛苦抉择。通过更精巧的架构设计，完全有可能用更少的计算资源，获得更强的性能。对于算力受限的应用场景——如移动设备、边缘计算或特定垂直领域——这类高效模型的价值不言而喻。

Q&A

Q1：吸引子模型和普通Transformer相比，推理时会不会更慢？

不一定更慢，有时甚至更快。得益于“平衡内化”现象，训练好的吸引子模型中，骨干模块给出的初步预测已非常接近最终答案，吸引子模块往往只需极少数迭代（甚至一次）即可收敛。用户甚至可以选择完全跳过吸引子模块，直接使用骨干模块输出，性能损失很小。因此，实际推理延迟取决于骨干模块的大小和收敛速度，并不必然高于同参数量的Transformer。

Q2：吸引子模型为什么能在极难数独上超越Claude和GPT o3-mini，这两个大模型是不是被限制了？

这里的任务设置有特殊规则：模型必须在单次前向传播中一次性输出完整答案网格，不允许生成逐步推理的链式思维（CoT）。Claude和GPT o3-mini等模型擅长的是生成自然语言推理步骤，而这种输出方式在该任务设定下不被允许，因此得分为0%。吸引子模型则是针对这种“单次直接预测完整结构”的任务进行专门训练和优化的。两者解决问题的范式不同，不能简单地理解为吸引子模型“击败”了通用大模型。

Q3：吸引子模型训练时内存为什么能保持不变，普通循环模型为什么不行？

根本原因在于梯度计算方式不同。普通循环模型训练时，必须保存每一次循环的中间结果，以便通过时间反向传播计算梯度，这导致内存消耗随循环次数线性增长。吸引子模型利用隐函数定理求梯度，这种方法只需要知道最终的不动点状态，就能计算出所有参数的梯度，无需保存任何中间迭代过程的数据。因此，无论求解器内部迭代了多少次，训练时的内存占用都保持恒定。

来源：https://www.163.com/dy/article/KTAR4SGP0511DTVV.html

上一篇微软东南大学合作开发AI拖拽绘图新功能 下一篇DeepSeek 是什么它有哪些功能与使用限制

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。