首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
南加州大学AI推理突破实现举一反三能力提升

南加州大学AI推理突破实现举一反三能力提升

热心网友
39
转载
2026-05-20


南加州大学的研究团队在2026年5月发布了一项引人注目的成果,论文编号为arXiv:2605.12466v1,为语言模型的架构设计开辟了一条新路。

过去几年,以ChatGPT、Claude为代表的大语言模型彻底重塑了人机交互的图景。但细究起来,这些模型的工作方式有点“一根筋”:无论面对的问题是简单寒暄还是复杂推理,它们都调用固定的计算资源,走完固定的处理步骤,然后给出答案。这就像一个厨师,无论客人点的是泡面还是满汉全席,他都用同样的火候和时间去处理,既没法偷懒,也没法“加班”深思。

这种设计在多数场景下够用,但遇到真正需要深度思考的难题时,就显得力不从心了。研究者们很早就想到,如果能让模型在输出前,先在内部“多琢磨几遍”,逐步完善自己的答案,效果应该会更好。于是,“循环架构”或“循环语言模型”应运而生——让模型像拧螺丝一样,一圈一圈地把答案拧得更紧、更准。

然而,理想很丰满,现实却很骨感。让模型循环起来的代价异常高昂:训练时需要保存每一轮迭代的中间状态,内存消耗随着循环次数线性飙升,有时候训练一个循环模型所需的算力,堪比训练一个参数量大十倍的普通模型。更棘手的是训练稳定性问题,以及“训练-推理不匹配”的尴尬:模型在训练时只学会了转固定圈数,推理时若多转几圈,表现反而会下降。

面对这些瓶颈,南加州大学的团队提出了一个巧妙的解决方案:“吸引子模型”。这个名字借鉴了物理学中的“吸引子”概念——在动力系统中,无论起点如何,系统最终都会稳定收敛到某个状态,就像碗底的小球。这项研究的核心思想在于:与其让模型一圈圈地迭代逼近答案,不如直接让它找到那个迭代过程最终会收敛到的“不动点”,并直接在那里解码出结果。

实验结果令人印象深刻。在大规模语言建模任务上,吸引子模型在多个参数规模上全面超越了标准Transformer和现有的循环模型基准,同时训练计算量减少了25%到31%,训练内存消耗几乎恒定。更惊人的是,一个7.7亿参数的吸引子模型,其性能甚至超过了参数量近两倍(13亿)、训练数据也多一倍的普通Transformer。在极端推理任务上,一个仅用约1000个样本训练、参数量2700万的微型吸引子模型,在“超难数独”和“超难迷宫”任务上分别达到了91.4%和93.1%的准确率,而DeepSeek R1、Claude 3.7、GPT o3-mini等顶尖大模型在这些任务上的准确率均为0%。

一、普通AI模型的“固定跑道”困境

要理解吸引子模型的价值,得先看看现有模型的局限。以标准的Transformer为例,当你输入一段文本让它预测下一个词时,模型会沿着固定的、单向的计算路径走一遍,然后给出答案。这个过程是“均码”的,无论预测的是高频词“的”,还是需要复杂上下文推导的专业术语,模型花费的计算成本完全相同。

为了让模型能“多想一想”,循环架构被设计出来。它让同一组参数被反复使用多次,每次迭代以上一轮的输出为输入,逐步精炼结果,就像厨师对同一锅食材进行反复翻炒调味。理论上这很吸引人,实践也证明它能提升推理能力。

但麻烦出在落地环节。训练循环模型需要使用“时间反向传播”技术,这意味着每一轮迭代的中间结果都必须完整保存在内存中,以备计算梯度之用。迭代次数越多,内存占用就越高,如同要求厨师保存每一次翻炒的火候和状态照片以供复盘——翻炒100次,就得存100张照片。当循环深度增加时,这种开销让训练变得难以承受。

另一个核心难题是“训练与推理不匹配”。模型在训练时被设定为循环8次,它就会优化自己在第8次迭代的表现。如果推理时让它循环12次,模型在第9到第12次的表现就会失控,因为它从未学习过那些状态。这好比一个只练100米冲刺的运动员,突然被要求跑120米,最后20米完全不知所措。

此外,还有专门为小型推理任务设计的递归网络(如TRM),它们在参数量较小时表现尚可,但一旦将参数扩大到2700万,性能竟会直接崩溃归零。研究者将这种现象称为“越大越差”,这对于追求模型可扩展性的AI领域而言,无疑是一个严重的障碍。

二、吸引子模型:直接找到“碗底”而不是一圈圈往下滚

吸引子模型的灵感,源于对循环模型内部机制的一个关键观察:对于绝大多数词元(token),循环过程最终都会稳定收敛到一个固定状态——即无论再循环多少次,输出都不再变化。这说明,循环语言模型本质上是在用有限次迭代去逼近一个数学上的“不动点”。

既然终点总是那个固定点,何不绕过漫长的迭代过程,直接找到它呢?这就是吸引子模型的思路:将迭代过程建模为一个求解“不动点”的数学问题,借助专门的求解器直接定位收敛状态,而非模拟每一步的滚动。

模型由两个模块协同工作,好比一位主厨带着助手。第一个是“骨干模块”,通常是一个较大的Transformer网络。它的职责是根据输入,快速生成一个初步的“输出嵌入”——可以理解为答案的一个粗糙但方向正确的向量草图。这个草图不必完美,但必须有意义。

第二个是“吸引子模块”,通常是一个更小的Transformer。它的任务是对骨干模块给出的草图进行迭代精炼,直到找到那个“不动点”——即无论再怎么计算,结果都保持不变的状态。精炼过程反复进行:将当前答案和骨干模块的初始猜测一起输入吸引子模块,得到新答案,如此循环,直到新旧答案的差异小于某个阈值,或达到最大迭代次数。

这里有一个至关重要的设计细节:“持续注入”。在每一次精炼迭代中,骨干模块给出的初始猜测都会被重新叠加到当前状态上。这确保了吸引子模块始终“不忘初心”,记得自己要从哪里出发,从而避免其收敛到一个与输入无关的随机固定点。消融实验证实,如果没有持续注入,只有12.4%到99.7%的词元能在规定迭代内收敛;而采用加法形式的持续注入后,收敛率稳定在99.7%,且模型预测的困惑度也达到最优。

三、用“隐函数定理”让训练内存不再随迭代增长

吸引子模型在工程上的一个巨大优势,来自于其独特的梯度计算方式。普通循环模型需要保存所有中间步骤,内存随迭代线性增长。而吸引子模型借助数学中的“隐函数定理”来计算梯度,其精妙之处在于:它只需要知道最终的不动点状态,就能反推出模型参数该如何调整,完全不需要记录中间过程。

打个比方:假设你找到了山中的一个湖泊(不动点),你想知道如果改变山的坡度,湖泊位置会如何变化。隐函数定理告诉你,只需分析湖泊当前所在位置的地形特征,就能推算出结果,无需重新模拟每一滴雨水从山顶流下的全过程。

在实际实现中,研究团队进一步采用了“一步近似”法——用一个极其简单的单步计算来近似精确的隐函数梯度。消融实验显示,完整的隐函数梯度计算(Anderson方法)比一步近似在验证困惑度上仅优0.14,但需要4.8倍的内存和2.7倍的时间。折中的“幽灵梯度”(展开3步)需要1.8倍内存和1.4倍时间,改进幅度为0.11。因此,团队选择了一步近似方案,用几乎可忽略的性能损失,换取了显著的效率提升。

实验数据直观地展示了这一优势:当循环深度从1增加到256时,采用传统反向传播的Parcae模型,其训练峰值内存从不足10GB猛增至超过80GB;而吸引子模型的内存占用始终稳定在4.18GB左右,几乎是一条水平线。这一特性使得吸引子模型能够轻松应对更深的有效循环深度,而不会因内存爆炸而无法训练。

四、“平衡内化”:模型自学如何让迭代器变得多余

训练完成后,研究者观察到一个有趣的现象,并将其命名为“平衡内化”。简单说,就是经过充分训练的吸引子模型,其骨干模块给出的初始猜测已经非常接近最终的不动点答案,以至于后续的精炼迭代变得几乎多余。

为何会出现这种现象?从训练机制看,损失函数作用于最终的不动点,而这个不动点又与初始猜测通过数学关系紧密相连。因此,在训练过程中,骨干模块会承受优化压力,学习去产生一个“尽可能接近最终答案”的初始输出,从而降低整体损失。随着训练推进,骨干模块变得越来越擅长直接“猜中”答案,吸引子模块只需要做极少量的微调即可。

研究者通过两种方式展示了这一现象。一是对迭代轨迹进行主成分分析投影:吸引子模型的状态在前8步迭代后就已收敛到一个密集的点簇,后续迭代轨迹几乎重叠;而对比模型Parcae的轨迹在16步内仍有明显漂移。二是追踪训练所需迭代次数:对比的DEQ基线模型所需迭代次数随训练持续增加;而吸引子模型在训练早期就迅速降至最低迭代次数并保持稳定。

这在推理阶段带来了直接好处。系统测试表明,对于吸引子模型,从第一次迭代(T=1)开始,性能就几乎达到峰值。更关键的是,即便完全跳过吸引子模块,直接使用骨干模块的输出(T=0),其表现也优于需要迭代8次才能达到最佳状态的Parcae模型。这意味着,在推理时,用户可以选择完全省去精炼步骤,在几乎不损失性能的前提下,大幅节省计算时间。

五、大规模语言建模:全面碾压同级选手

在大规模语言建模的正面较量中,研究团队将吸引子模型与标准Transformer、循环模型Parcae在140M、370M、770M三个参数量级上进行了对比。所有模型使用相同的数据集、优化器和学习率计划,仅架构不同。

评测涵盖多个维度:验证集困惑度(衡量预测准确性)、Lambada困惑度(测试长距离上下文理解),以及CORE系列下游任务准确率(直接评估模型推理能力)。

结果呈现出一边倒的优势。在140M规模上,吸引子模型将Lambada困惑度从标准Transformer的127.39大幅降低至68.02,提升46.6%;CORE准确率提升12.2%。在770M规模上,吸引子模型的CORE准确率达到26.83%,相比同参数量的Transformer提升19.7%。更令人瞩目的是,这个770M的吸引子模型,在Lambada困惑度(15.21)上,竟然超越了参数量为其1.7倍(1.3B)、训练数据也多约两倍的标准Transformer(17.26)。

效率优势同样明显。在140M参数量级,吸引子模型的计算量比Parcae减少约25%;在770M参数量级,减少约31%。这得益于两方面:求解器通常在达到最大迭代次数前就已收敛,以及一步近似的反向传播无需额外的迭代计算开销。

六、极端推理任务:顶尖大模型束手无策的地方,它做到了

数独和迷宫听起来简单,但这里用的是“极难”版本。超难数独的初始给定数字极少,需要极强的逻辑链才能完成;超难迷宫结构复杂。这两个任务的特点是容错率为零:任何一步错误都会导致全盘皆输。

任务的设定更为苛刻:模型必须在单次前向传播中一次性输出完整的答案网格(不能分步推理),并且仅使用约1000个训练样本进行学习。在这种设定下,标准Transformer(27M参数)准确率为0%,而参数量巨大的DeepSeek R1、Claude 3.7和GPT o3-mini-high同样得分为0%。原因在于,这些大模型擅长生成链式思维(一步步推理)的自然语言,而该任务禁止这种输出方式,要求直接预测完整结构。

在专门设计的递归架构中,HRM(27M参数)是较强的基准。TRM模型在7M参数时表现最强,但当参数扩大到27M时,准确率竟崩溃至0%,再次印证了“越大越差”的怪象。

吸引子模型则走出了不同的曲线。在7M参数时,其表现与TRM 7M相近或稍弱。但当参数扩大到27M时,其准确率非但没有崩溃,反而飙升至91.4%(数独)和93.1%(迷宫),展现出健康的可扩展性。

在此小样本设定下,吸引子模型的实现有所调整:由于样本极少,不再需要单独的骨干模块,初始猜测由“深度监督”中的上一步结果提供。反向传播也从未使用一步近似,改为使用“幽灵梯度”(展开3步),因为在小网络、小数据场景下,一步近似提供的训练信号过于粗糙,幽灵梯度能在精度和效率间取得更好平衡。这一点与TRM作者的经验吻合:将TRM的反向传播改为一步近似后,其数独准确率从87.4%骤降至56.5%。

七、与相关架构的深入对比

吸引子模型并非首个引入不动点概念的架构。深度平衡模型(DEQ)早在2019年就提出了类似框架:用一个隐状态的不动点作为输出,并通过隐函数定理求梯度。然而,对比实验显示,两者性能差距显著:同等参数量下,DEQ的验证困惑度为42.18,而吸引子模型为34.05。

这差距源于三个关键设计差异。首先,DEQ的不动点位于隐藏状态空间,需要一个额外的“输出头”来解码;而吸引子模型的不动点直接位于“绑定的输出嵌入空间”,骨干模块的初始猜测和最终答案共享同一个嵌入矩阵进行解码,这使得两个模块的优化目标天然一致。其次,DEQ从零向量开始迭代,求解器必须“白手起家”;吸引子模型则从一个有意义的初始猜测开始,求解器只需做小幅修正,因此收敛更快(平均8.4次 vs DEQ的14.6次)。第三,DEQ文献指出增加其块数反而会损害性能,而吸引子模型允许使用任意深度的骨干Transformer和可变数量的求解器块,架构设计灵活性更高。

归根结底,吸引子模型做了一件符合直觉的事:先用一个强大的网络给出靠谱的“初稿”,再用一个精炼网络将其推向最终答案,而精炼过程通过直接求解“答案应满足的方程”来完成,无需记录中间步骤,也无需预设迭代次数。

更耐人寻味的是“平衡内化”现象:模型在训练中自发学会了让“初稿”无限接近“终稿”,以至于精炼步骤在推理时变得几乎不必要——但恰恰是这个在训练中存在的精炼步骤,充当了引导“初稿”持续优化的“移动标尺”。这就像一个学徒在严师的反复指点下打磨技艺,最终出师时,即使没有师傅在场,也能独立做出大师级作品。

这项研究揭示了一条可行的路径:未来的语言模型或许不必在“堆参数”和“堆算力”之间做痛苦抉择。通过更精巧的架构设计,完全有可能用更少的计算资源,获得更强的性能。对于算力受限的应用场景——如移动设备、边缘计算或特定垂直领域——这类高效模型的价值不言而喻。

Q&A

Q1:吸引子模型和普通Transformer相比,推理时会不会更慢?

不一定更慢,有时甚至更快。得益于“平衡内化”现象,训练好的吸引子模型中,骨干模块给出的初步预测已非常接近最终答案,吸引子模块往往只需极少数迭代(甚至一次)即可收敛。用户甚至可以选择完全跳过吸引子模块,直接使用骨干模块输出,性能损失很小。因此,实际推理延迟取决于骨干模块的大小和收敛速度,并不必然高于同参数量的Transformer。

Q2:吸引子模型为什么能在极难数独上超越Claude和GPT o3-mini,这两个大模型是不是被限制了?

这里的任务设置有特殊规则:模型必须在单次前向传播中一次性输出完整答案网格,不允许生成逐步推理的链式思维(CoT)。Claude和GPT o3-mini等模型擅长的是生成自然语言推理步骤,而这种输出方式在该任务设定下不被允许,因此得分为0%。吸引子模型则是针对这种“单次直接预测完整结构”的任务进行专门训练和优化的。两者解决问题的范式不同,不能简单地理解为吸引子模型“击败”了通用大模型。

Q3:吸引子模型训练时内存为什么能保持不变,普通循环模型为什么不行?

根本原因在于梯度计算方式不同。普通循环模型训练时,必须保存每一次循环的中间结果,以便通过时间反向传播计算梯度,这导致内存消耗随循环次数线性增长。吸引子模型利用隐函数定理求梯度,这种方法只需要知道最终的不动点状态,就能计算出所有参数的梯度,无需保存任何中间迭代过程的数据。因此,无论求解器内部迭代了多少次,训练时的内存占用都保持恒定。

来源:https://www.163.com/dy/article/KTAR4SGP0511DTVV.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

海能达亮相CCA 2026以AI赋能关键通信携手伙伴探索智能路径
业界动态
海能达亮相CCA 2026以AI赋能关键通信携手伙伴探索智能路径

4月底,香港迎来全球专用通信行业盛会——Critical Communications World Asia 2026(CCA 2026)。作为全球关键通信领域的领军企业,海能达不仅展示了其旗舰终端与前沿行业解决方案,更深入分享了在人工智能时代下,关键通信智能化发展的核心洞察与未来路径。展会现场思想

热心网友
05.19
AI项目为何难以驱动业务增长十大试点困境解析
AI
AI项目为何难以驱动业务增长十大试点困境解析

面对董事会日益增长的期待,许多企业正陷入一种“AI战略表演”的困境:各类试点项目不断涌现,汇报材料持续更新,但始终难以转化为清晰可衡量的商业成果。问题的根源往往不在于技术瓶颈,而在于业务流程未能重塑、数据基础尚未就绪、治理体系存在缺失,以及对技术供应商的过度依赖。 每隔一段时间,企业首席信息官(CI

热心网友
05.19
豆包AI股票价格监控机器人设置教程
AI
豆包AI股票价格监控机器人设置教程

豆包AI虽不能直接盯盘,但可通过智能体、生活管家与外部工具组合实现价格监控。核心是将实时监控拆解为条件识别、定时触发和通知推送。具体方法包括:创建条件解析智能体并绑定日程、设置每日定时检查分析行情、利用桌面组件预设监控项快速响应,以及借助任务提醒接收第三方脚本预。

热心网友
05.19
全球AI普及率报告:26国使用率突破30%
AI
全球AI普及率报告:26国使用率突破30%

近期,微软人工智能经济研究所发布了2026年第一季度全球生成式AI应用扩散研究报告。数据显示,全球劳动适龄人口中使用生成式AI工具的比例已从16 3%上升至17 8%,增幅达1 5个百分点。报告指出,在AI普及率较高的经济体中,用户的使用深度与频率也在同步提升。目前,全球已有26个经济体的劳动适龄人

热心网友
05.19
SUI、ENA与IMX代币本周解锁详情及市场影响分析
web3.0
SUI、ENA与IMX代币本周解锁详情及市场影响分析

市场聚焦:新一轮代币解锁潮即将到来 对于加密市场而言,代币解锁向来是一个需要高度关注的节点。这不,根据Token Unlocks的最新数据,未来一周又将迎来一波密集的解锁事件。具体来看,以下几个项目的代币释放值得投资者留意(以下时间均为北京时间)。 Sui (SUI):解锁规模最大 打头阵的是Sui

热心网友
05.19

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

算力时代电力价值重估 能源如何支撑数字经济
AI
算力时代电力价值重估 能源如何支撑数字经济

近日,国家能源局联合发改委、工信部、国家数据局正式印发《关于促进人工智能与能源双向赋能的行动方案》。这份重磅文件的核心思路非常清晰:一方面,以坚实的能源基础支撑人工智能(AI)的快速发展;另一方面,利用AI技术赋能能源行业转型升级。其核心目标是推动能源、算力、应用场景、数据与算法模型五大关键要素深度

热心网友
05.20
智谱清影与Runway Gen3视频生成模型对比评测
AI
智谱清影与Runway Gen3视频生成模型对比评测

在挑选文生视频工具时,若您正在智谱清影与Runway Gen-3之间权衡,那么了解两者在生成效果上的具体差异,将有助于您做出更明智的选择。本文将从画质清晰度、细节纹理、运动自然度与视频连贯性等核心维度,通过实测对比为您详细解析。 一、画质与分辨率表现 首先对比硬性指标。智谱清影基于CogVideoX

热心网友
05.20
通义万象制作数据可视化科技背景的实用教程
AI
通义万象制作数据可视化科技背景的实用教程

想用通义万相生成一张科技感十足的数据可视化背景,但出来的画面总觉得少了点“内味儿”?数字界面、粒子流、电路纹理这些关键元素一个不见,画面平平无奇?这通常不是工具的问题,而是提示词没有精准锚定科技可视化的核心要素,或者模型参数没调到最佳状态。别急,下面这几种方法,能帮你把想法精准地“翻译”成画面。 一

热心网友
05.20
Vidu视频慢动作与快进效果制作教程
AI
Vidu视频慢动作与快进效果制作教程

想要在Vidu生成的视频中实现流畅的慢动作或快进效果?虽然模型界面没有提供直接调整播放速度的滑块,但通过巧妙的提示词设计、利用内置功能,或结合后期处理工具,你完全可以精准掌控视频的节奏与时间感。本文将为你详细解析四种实用方法,从生成前到生成后,全方位满足你的创作需求。 一、通过精准提示词引导运动节奏

热心网友
05.20
海螺AI学术论文查重降重功能实测与效果分析
AI
海螺AI学术论文查重降重功能实测与效果分析

当您使用海螺AI生成的英文论文在提交查重时遭遇高重复率或AIGC检测异常,请不要急于归咎于工具本身。核心原因在于,尽管AI生成的文本格式标准、语法地道,但其语言模式和常见短语组合,并未针对知网、维普、万方等中文查重数据库的语义比对逻辑进行专门优化。换言之,机器认为流畅自然的表达,在查重系统的算法看来

热心网友
05.20