首页 游戏 软件 资讯 排行榜 专题
首页
AI
加州大学圣地亚哥分校利用动力系统理论稳定循环神经网络并推演计算扩展法则

加州大学圣地亚哥分校利用动力系统理论稳定循环神经网络并推演计算扩展法则

热心网友
74
转载
2026-05-15

说起让AI变得更聪明,大家的第一反应往往是堆料——更多的参数、更深的层数、更庞大的计算集群。这就像想提升厨艺,总觉得得先扩建厨房、添置更多锅灶才行。但这条路终究有物理和成本的极限,尤其当我们需要把强大的模型塞进手机、平板或边缘设备时,内存和算力的天花板触手可及。

那么,有没有可能不增加参数,就让AI模型“原地”变得更强大?最近,一项由加州大学圣地亚哥分校与Together AI合作的研究,给出了一个颇具想象力的答案:让AI学会“反复咀嚼”同一份信息。具体来说,就是让神经网络的某些层对输入数据进行多次循环处理,每一轮都基于上一轮的理解进行深化。这种思路被称为“循环架构”。

加州大学圣地亚哥分校用动力系统理论驯服

一、一块芯片能跑多强的大脑?让AI"原地踏步"反而变强的秘密

然而,理想很丰满,现实却曾很骨感。此前尝试循环架构的研究者常遇到一个棘手问题:训练过程极不稳定,损失值会突然飙升,模型莫名其妙就“崩溃”了。问题到底出在哪?没人能说清。正是这个悬而未决的难题,驱动研究团队展开了深入探索,并最终提出了名为 Parcae 的新方法(名字源于罗马神话中掌管命运线的三位女神)。

二、问题的根源:那口锅为什么总在烧穿?

要解决问题,先得精准定位问题。团队借用了工程控制领域的经典工具——线性时不变系统(LTI)的分析框架。听起来高深,但核心思想很直观:把模型内部的信息流动,看作一条随时间演变的“水流”,然后分析这条水流在循环管道里会不会越滚越大,直至决堤。

具体到循环层,每一轮的信息更新都可以简化为一个数学公式:新状态 = 旧状态 × 矩阵A + 输入 × 矩阵B。这里的矩阵A是关键,它像个“放大器”,决定了信息每循环一次是被放大、缩小还是维持原样。

控制理论告诉我们,这个放大器的关键特性是谱范数(可理解为它能将向量放大的最大倍数)。如果谱范数大于1,信息就会在循环中不断被放大,最终数值爆炸,导致系统崩溃——这正是此前观察到的“残差状态爆炸”。如果等于1,系统则处于脆弱的临界状态,随时可能失控。只有谱范数严格小于1,信息流才会在循环中平稳收敛。

分析结果令人警醒。团队检验了已有的两种主流循环注入方式:一种是“加法注入”,其矩阵A实际上是单位矩阵,谱范数恒为1,处于临界不稳定;另一种是“拼接投影”,其矩阵A完全不受约束,谱范数可以任意大,稳定性全靠训练运气。实验数据完美印证了理论:所有训练发散的情况,都伴随着矩阵A的谱范数超过1;而能勉强收敛的,其谱范数都维持在1以下。更微妙的是,即便没有完全发散,长时间训练后损失值仍会出现异常抖动,说明隐患始终存在。

三、Parcae的设计:给那口锅加上一个温度调节器

找到了病根,药方就明确了:必须从架构设计上根本约束矩阵A,确保其谱范数始终小于1。Parcae的解决方案是一套组合拳:

第一,硬化稳定性约束。 团队将矩阵A设计为一个负对角矩阵的离散化形式。这种矩阵只有对角线有值且为负,能保证其特征值经过映射后全部落在0到1之间,从而从数学上强制谱范数小于1。这就好比给放大器加装了一个硬性的限流器,从根本上杜绝过载。

第二,前置输入归一化。 为了解决训练后期出现的损失抖动,团队在输入信号进入循环层前,加入了一个归一化层。这相当于食材下锅前先统一规格,防止某块“巨无霸”突然撑坏系统。在1.3B参数的大模型训练中,这一设计的效果尤为明显,它直接阻断了因预处理块输出过大而引发的状态爆炸。

第三,优化训练采样策略。 为了让模型能灵活适应不同循环深度,训练时每个批次的循环次数是随机采样的。Parcae改进了此前的策略,引入了逐序列深度采样,允许同一个批次内的不同数据序列拥有不同的循环次数。这就像从“集体套餐”改为“个人点餐”,显著减少了训练抖动,并提升了模型在低循环次数下的性能。

第四,纠正采样偏差。 团队还修正了一个此前被忽略的采样偏差,确保训练时循环次数的分布与目标分布严格一致。这一修正显著改善了模型在测试时面对与训练不同循环次数的泛化能力。

四、和前辈们的对比:Parcae到底强在哪里?

团队从两个维度全面评估了Parcae:一是与同类循环架构对比,二是与标准Transformer架构对比。

在与循环架构RDM的对比中,Parcae在多个参数规模下的语言建模困惑度(越低越好)均显著降低,降幅最高达9.1%。在常识推理等下游任务上,平均准确率提升约1.8个百分点。最关键的是稳定性:在相同设置下,RDM在多个学习率下无法收敛,而Parcae在所有测试的学习率下均表现稳定,对超参数的鲁棒性大幅提升。

在与同参数规模的固定深度Transformer对比中,结果更具碘伏性。在140M到1.3B的四个规模上,Parcae的验证困惑度全面低于Transformer,降幅在4.3%到9.2%之间。在综合下游评测基准上,Parcae的得分也更高。一个突出的例子是:770M参数的Parcae,其性能可与1.3B参数的Transformer媲美——用大约一半的参数量,达到了同等的实际能力。量化来看,Parcae在参数效率上提升了23.3%到87.5%。

五、循环就是一种新的"扩展轴":计算预算该怎么分配?

证明了Parcae的有效性后,团队开始思考一个更宏观的问题:在固定的总计算预算和参数量下,资源该如何分配?是应该投给“更多数据”,还是投给“更多循环次数”?

他们通过大量系统实验发现了一个清晰规律:对于固定的计算预算,存在一个最优的循环次数,使得模型性能最好。并且,增加循环次数同时相应减少数据量,比单纯增加数据量能获得更低的损失。这证明“循环次数”是一个独立于“数据量”和“参数量”的、新的模型扩展维度。

进一步地,他们拟合出了量化的扩展规律:最优循环次数随计算预算的约0.4次方增长,而最优数据量随计算预算的约0.77次方增长。这意味着,当计算资源增加时,两者都应增加,但数据量需要增长得更快一些。这个可预测的规律,为大规模训练时的资源规划提供了科学依据。

六、测试时也能"越想越准":但有上限,而且上限是可以预测的

另一个自然的问题是:训练完成后,在推理(测试)时让模型多“想”几轮(增加循环次数),性能会一直提升吗?

答案是:会提升,但有饱和上限。研究发现,测试性能随循环次数增加而提升,但曲线呈“饱和型”,提升速度越来越慢,最终趋近一个极限。这个极限水平,与模型训练时所使用的最大循环深度密切相关。

更妙的是,这种饱和曲线可以用一个简洁的指数衰减函数精准描述。这不仅提供了实用的预测工具,其指数衰减的形式也与Parcae基于稳定动力系统(谱范数<1)的设计在理论上形成了呼应——稳定线性系统的状态正是以指数速度收敛的。

七、训练与测试的"统一方程":把两条规律合而为一

将训练时的扩展规律与测试时的衰减规律相结合,团队最终推导出一个统一的性能预测公式。这个公式允许我们仅根据模型的参数规模、训练数据量和训练循环次数,就能预测它在任意测试循环次数下的大致性能,误差可以控制在很低水平(如1.3%左右)。

这意味着,在模型实际训练和部署之前,我们就可以在设计阶段优化计算资源的分配策略,在训练成本与推理性能之间找到最佳平衡点。

八、局限与未来:这口锅还能做哪些菜?

当然,这项工作也有其边界。目前扩展规律的验证主要在中等参数规模(140M、370M)进行,能否平滑外推到千亿甚至更大规模,仍需验证。此外,当前循环次数多在十几次以内,对于“极端深度循环”的行为尚不清楚。在架构上,目前矩阵A采用了对角形式,未来可以探索更复杂的参数化方式。一个现实的工程挑战是:训练时循环越深,推理时达到同等性能所需的循环次数也可能越多,这会增加延迟,如何优化是一个开放问题。

总而言之,这项研究用经典的工程控制理论,为深度学习中的循环不稳定问题提供了清晰的诊断和优雅的解决方案。它揭示了一条重要的技术路径:扩展AI能力未必总要“堆参数”,通过精心设计的“循环咀嚼”,在有限的资源下同样能烹饪出更智能的盛宴。这对于边缘计算、移动端AI等资源受限场景,无疑具有重要的启发意义。

(本研究论文《Parcae: Proactive and Retrospective Cycle Analysis for Efficient and Stable Looped Training》已发布于arXiv预印本平台,编号arXiv:2604.12946v1,感兴趣的读者可查阅全文获取技术细节。)

Q&A

Q1:Parcae架构为什么比普通循环架构训练更稳定?

A:核心在于其从数学上保证了循环过程中核心矩阵(状态转移矩阵A)的谱范数严格小于1,这从根本上避免了信息在循环中被无限放大的“爆炸”风险。同时,其引入的输入归一化和改进的采样策略,进一步平滑了训练过程,降低了对超参数的敏感度。

Q2:循环架构和普通增加模型层数有什么本质区别?

A:本质区别在于“参数共享”。增加层数会直接增加模型参数量,导致存储和计算开销上升。循环架构是让同一组参数被反复使用多次,参数量不变,但通过增加计算(循环)来提升模型能力。因此,循环架构更适用于内存或功耗受限,但允许一定计算延时的部署场景。

Q3:Parcae的测试时循环次数越多效果是否会一直提升?

A:不会无限提升。效果提升会随着测试循环次数增加而呈现收益递减,并逐渐饱和。饱和点大致由训练时的循环深度决定。其性能增长曲线符合指数衰减规律,即初期提升快,后期趋近于一个极限值。

来源:https://www.techwalker.com/2026/0423/3184904.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

加州大学圣地亚哥分校利用动力系统理论稳定循环神经网络并推演计算扩展法则
AI
加州大学圣地亚哥分校利用动力系统理论稳定循环神经网络并推演计算扩展法则

说起让AI变得更聪明,大家的第一反应往往是堆料——更多的参数、更深的层数、更庞大的计算集群。这就像想提升厨艺,总觉得得先扩建厨房、添置更多锅灶才行。但这条路终究有物理和成本的极限,尤其当我们需要把强大的模型塞进手机、平板或边缘设备时,内存和算力的天花板触手可及。 那么,有没有可能不增加参数,就让AI

热心网友
05.15
卷积神经网络与普通神经网络的核心区别详解
业界动态
卷积神经网络与普通神经网络的核心区别详解

探讨深度学习技术,卷积神经网络(CNN)与全连接神经网络(DNN,或称多层感知机MLP)是两种最基础且至关重要的模型架构。尽管同属神经网络家族,但它们在设计原理、计算机制及适用场景上存在本质区别。本文将深入解析CNN与普通神经网络的核心差异,帮助您根据具体任务选择最合适的模型。 一、网络结构:从“全

热心网友
05.14
卷积神经网络原理详解与应用入门指南
业界动态
卷积神经网络原理详解与应用入门指南

在人工智能的璀璨星空中,卷积神经网络(Convolutional Neural Network, CNN)无疑是那颗最耀眼的明星之一。作为专门处理网格化数据的专家,它在图像识别、视频分析与音频处理等领域展现出了卓越的性能。本文将为您全面解析CNN的工作原理、核心优势及其广泛的应用场景。 一、基本概念

热心网友
05.14
Figure AI多机器人协作演示实现自主铺床整理房间
iphone
Figure AI多机器人协作演示实现自主铺床整理房间

FigureAI最新演示展示了两台Helix-02机器人协同完成卧室整理任务,包括铺被子等柔性物体操作。该技术实现了全球首次单一神经网络驱动的多机器人自主协作,机器人通过视觉观察独立决策,无需中央控制。公司产能已提升至每小时生产一台机器人,并计划推出家用租赁服务。尽管演示展现了先进的协作能力,但其

热心网友
05.11
ocr神经网络模型结构
业界动态
ocr神经网络模型结构

OCR神经网络模型的结构 理解OCR模型是如何“看懂”文字的?我们可以把它想象成一条高效的流水线,整个处理过程被清晰地划分为几个功能明确的层级。通常,一个完整的OCR神经网络会依次包含特征提取层、卷积层、池化层、全连接层,最终抵达输出层。每一层都承担着独特且关键的任务,共同将原始图像转化为可读的文本

热心网友
04.24

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

领克GT概念跑车北京车展首发 百公里加速仅2秒
科技数码
领克GT概念跑车北京车展首发 百公里加速仅2秒

领克首款GT概念跑车亮相北京车展,由中欧团队联合打造。新车采用经典GT比例与低趴宽体设计,配备液态金属蓝涂装与2+2座舱,设有高性能模式按键可激活空气动力学套件。车辆采用后驱布局与AI智能运动控制系统,百公里加速约2秒,设计融合瑞典极简美学并参考全球用户反馈。

热心网友
05.14
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升
科技数码
英伟达RTX 5070移动版GPU发布 12GB显存性能大幅提升

英伟达推出12GB显存版RTX5070移动GPU,与8GB版同步上市。两者均基于Blackwell架构,核心规格相同,仅显存容量不同。此举旨在缓解GDDR7芯片供应压力,为OEM提供灵活配置,加速笔记本产品布局,更大显存可更好满足游戏与AI应用需求。

热心网友
05.14
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售
科技数码
微星新款雾面WOLED显示器MAG 276QRY28与276QRDY54正式发售

微星将于5月15日推出两款26 5英寸雾面WOLED显示器MAG276QRY28和276QRDY54,售价分别为2499元和6299元。均采用第四代WOLED面板,具备QHD分辨率、VESADisplayHDRTrueBlack500认证、1500尼特峰值亮度及99 5%DCI-P3色域覆盖。276QRY28刷新率为280Hz,高阶款276QRDY54支持4

热心网友
05.14
中芯国际一季度净利润13.61亿元 同比增长0.4%
科技数码
中芯国际一季度净利润13.61亿元 同比增长0.4%

中芯国际2026年第一季度营收176 17亿元,同比增长8 1%;净利润13 61亿元,同比增长0 4%。公司预计第二季度收入环比增长14%至16%,毛利率指引上调至20%至22%。这反映出公司在行业复苏中展现出财务韧性,并通过运营优化增强了短期增长势头。

热心网友
05.14
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升
AI
AI图像处理训练数据存在色差问题 16种算法经小改动全面提升

手机修图、相机降噪、视频去雾……这些我们日常使用的图像处理功能,其背后都离不开人工智能(AI)技术的驱动。通常,AI模型的训练逻辑是:向模型展示大量“低质图像”与“优质图像”的配对数据,让它学习如何将前者转化为后者。然而,天津大学计算机视觉团队近期发表的一项研究(arXiv:2604 08172)揭

热心网友
05.14