游乐游手机版
首页/科技数码/文章详情

训练AI只需要跑完前10%,剩下的90%都能在小模型上跑

时间:2026-04-14 19:02
训练AI模型如何避免“先膨胀后压缩”?全新方法实现边学习边瘦身 (来源:麻省理工科技评论) 训练大规模人工智能模型究竟需要付出多少成本?不仅仅是高昂的资金投入,时间、能源以及稀缺的计算资源,每一项都构成了巨大的挑战。 要获得一个更轻量、更高效的AI模型,传统策略通常面临两种选择:要么不计代价地训练一

训练AI模型如何避免“先膨胀后压缩”?全新方法实现边学习边瘦身


(来源:麻省理工科技评论)

训练大规模人工智能模型究竟需要付出多少成本?不仅仅是高昂的资金投入,时间、能源以及稀缺的计算资源,每一项都构成了巨大的挑战。

要获得一个更轻量、更高效的AI模型,传统策略通常面临两种选择:要么不计代价地训练一个庞大模型,之后再设法对其进行压缩;要么直接从头训练一个小型模型,但往往需要牺牲模型性能。这就像要么先增重再减肥,要么从一开始就限制发展,两者都不是理想的解决方案。

如今,来自MIT CSAIL、马克斯·普朗克智能系统研究所、ELLIS、苏黎世联邦理工学院以及Liquid AI的联合研究团队,提出了一种创新的AI训练范式,成功打破了这一两难局面:让模型在训练过程中同步进行自我压缩,而非等到训练全部完成后再处理。

核心原理:早期识别冗余,实现精准剪枝

这项名为CompreSSM的技术,主要针对“状态空间模型”这一类AI架构进行优化。这类模型在自然语言处理、音频合成以及机器人控制等多个领域有着广泛的应用。研究人员的灵感来源于控制论中的数学工具,他们发现,在训练早期阶段就能够有效识别出模型中哪些组件是真正关键的,哪些是冗余的,从而可以像进行精准手术一样移除多余部分。

正如论文第一作者、CSAIL博士生马克拉姆·查希内所解释的:“本质上,这是一种让模型同步实现学习、瘦身和加速的技术。在学习过程中,模型会主动抛弃那些对提升自身能力无益的部分。”

这项研究的关键发现在于:状态空间模型内部各个组件的重要性排序,在训练初期就已基本确定并保持稳定。研究团队采用一种称为“汉克尔奇异值”的数学指标,来量化每个内部状态对模型整体行为的贡献程度。实验结果表明,仅需完成约10%的训练进度,就能可靠地确定各个维度的重要性顺序。一旦顺序确定,那些被判定为不重要的组件就可以被安全地移除,剩余的90%训练过程将在一个更精简、更快速的模型上继续进行。

这从根本上改变了模型压缩的时机。论文通讯作者、MIT教授丹妮拉·鲁斯指出:“这项工作的有趣之处在于,它将压缩从一种‘事后优化’手段转变为了学习过程的内在组成部分。我们不再是先训练再压缩,而是让模型在学习中自行发现高效的结构。这代表了一种构建人工智能系统的新思路。”

实际效果:性能接近无损,训练效率显著提升

实验结果令人鼓舞。在图像分类的标准基准测试中,经过压缩的模型保持了与原始完整模型几乎一致的准确率,同时训练速度最高提升了1.5倍。

具体数据来看,一个被压缩至原始状态维度约四分之一的模型,在CIFAR-10数据集上达到了85.7%的准确率。相比之下,一个从一开始就以同等小规模架构训练的模型,准确率仅为81.8%。在目前流行的Mamba状态空间架构上,该方法实现了约4倍的训练加速——将一个128维的模型压缩到大约12维,其性能依然保持强劲竞争力。

“你能获得接近大型模型的性能,因为在初始的‘热身’阶段,模型已经捕捉到了大部分复杂的动态特征,之后只保留了最有用的那些状态,”查希内进一步解释道,“因此,它的表现始终优于从头开始训练的小型模型。”

理论基础坚实,有效规避额外开销

CompreSSM与现有方法的核心差异在于其扎实的理论基础。常规的模型剪枝技术需要先完整训练大型模型,然后再剔除参数,这意味着用户仍需承担训练大模型的全部计算成本。另一种流行的知识蒸馏技术,则需要先训练一个庞大的“教师”模型,再去指导一个小的“学生”模型,这相当于使训练成本翻倍。

而CompreSSM在训练过程中就做出智能的压缩决策,从而巧妙地规避了这两类额外的资源消耗。

研究团队将CompreSSM与上述两种方法进行了直接对比。与一种近期提出的、用于引导紧凑状态空间模型的谱方法相比,CompreSSM的速度快了40倍以上,且准确率更高。那种谱方法由于每次梯度更新都需要进行昂贵的特征值计算,会将训练速度拖慢约16倍,性能却仍然不及CompreSSM。

在CIFAR-10数据集上与知识蒸馏方法对比时,CompreSSM在高压缩率下的优势尤为突出:当状态维度被压缩到很小时,通过蒸馏得到的模型准确率会大幅下降,而CompreSSM压缩后的模型几乎保持了完整版的性能。更重要的是,由于知识蒸馏的每一步都需要教师模型和学生模型各进行一次前向传播计算,即使学生模型更小,其整体训练速度反而比完整的基线模型更慢。

可靠性保障:稳定性的数学证明与安全回退机制

那么,在训练早期做出的压缩决策,在后期是否可能错误地删除了重要组件?研究团队利用Weyl定理从数学上证明了两个关键点:第一,在训练过程中,单个模型状态的重要性是平滑演变的;第二,这些状态之间的相对重要性排序是稳定的。这两点结合,让使用者可以确信——那些在早期被判定为不重要的维度,在后续训练中不太可能突然变得至关重要。

此外,该方法还内置了一个实用的安全机制。如果某次压缩操作意外导致了模型性能下降,使用者可以轻松地回退到之前保存的检查点。“这让研究人员能够主动控制愿意为压缩付出多少性能代价,而不是去定义一个不那么直观的能量阈值,”查希内补充道。

适用范围与未来展望

当然,这项技术也有其特定的适用边界。CompreSSM在那些“内部状态维度与模型整体性能强相关”的模型上效果最佳,而这种相关性因具体任务和模型架构而异。它对多输入多输出模型特别有效,因为这类模型中状态规模与表达能力的关系最为紧密。而对于每通道、单输入单输出的架构,收益则相对有限,因为这类模型本身对状态维度的变化就不太敏感。

目前,这套理论最适用于线性时不变系统。不过,团队已经开发出了适用于输入依赖、时变架构的扩展版本——后者正变得越来越流行。由于状态空间模型家族还延伸到了“线性注意力”等新兴架构(作为传统Transformer的高效替代方案,正受到越来越多的关注),CompreSSM的潜在应用范围相当广泛。

查希内与合作者将这项工作视为一块重要的基石。团队已经展示了该方法向Mamba等线性时变系统的扩展能力,未来的研究方向是将CompreSSM进一步推广到线性注意力机制中使用的矩阵值动力系统。这将使该技术更接近当今绝大多数大型AI系统的核心——Transformer架构。

“这必须是第一步,因为在这里理论是清晰的,方法能保持其原则性,”查希内表示,“这是一块垫脚石,之后再向业界今天实际使用的其他更复杂架构扩展。”

未参与此项研究的ELLIS图宾根研究所首席研究员安东尼奥·奥尔维耶托评价道:“查希内和同事的工作,为现代状态空间模型的压缩问题提供了一个有趣且理论扎实的新视角。该方法提供了有力证据,证明这类模型的状态维度可以在训练过程中被有效降低,而且控制论视角可以成功地指导这一过程。这项工作为未来研究开辟了新方向,所提出的算法有潜力成为预训练大型SSM模型的标准实践。”

据悉,这项研究已被ICLR 2026接收,并将于本月晚些时候在会议上正式发表。研究部分由马克斯·普朗克-ETH学习系统中心和Hector基金会资助。

(原文链接:https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409)

来源:https://www.163.com/dy/article/KQG8BFM505119734.html
上一篇深蓝汽车彭钱磊:2030年新能源规模或达1700万 共促行业健康发展 下一篇骗人买苹果!MacBook Pro飞出4米再滚25级台阶仅轻微刮花
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
宫本茂亲签3DS XL拍卖价破两万美元
科技数码 · 2026-05-29

宫本茂亲签3DS XL拍卖价破两万美元

今天来说一件挺有意思的事:2015年任天堂世界锦标赛冠军约翰·戈德堡,近日将他当年夺冠时赢得的宫本茂亲笔签名版3DS XL掌机放上了拍卖平台。截至2026年5月29日,这台签名掌机的竞拍价已突破两万美元,并且价格还在持续攀升。戈德堡在社交媒体上发布声明表示,经过相当长时间的慎重考虑,他决定将这台对自

七彩虹隐星P16 Pro游戏本新配置仅售7799元
科技数码 · 2026-05-29

七彩虹隐星P16 Pro游戏本新配置仅售7799元

七彩虹近期推出隐星P16Pro游戏本新配置,售价7799元。其搭载酷睿i9-13900HX处理器与RTX5060显卡,配备16英寸2 5K高刷电竞屏及高效散热系统。存储组合为16GB内存与1TB固态硬盘,支持后续扩展。该配置主打高性能性价比,适合预算有限但追求强劲性能的游戏玩家与轻度创作者。

苹果iPhone Hikawa握把支架448元重新上架
科技数码 · 2026-05-29

苹果iPhone Hikawa握把支架448元重新上架

苹果公司重新上架了与艺术家贝利·桧川及PopSockets合作设计的iPhone专用握把支架。该配件采用磁吸设计,兼具握持与支架功能,旨在通过人性化设计降低握持负担,并提供三种配色可选,售价448元。

苹果体育应用扩展至170市场 为2026世界杯引入对阵图
科技数码 · 2026-05-29

苹果体育应用扩展至170市场 为2026世界杯引入对阵图

苹果体育应用新增覆盖90多个国家和地区,全球可用市场总数超过170个。为迎接2026年世界杯,应用加入了完整的赛程对阵图和可视化阵型卡片,方便用户追踪赛事与战术。同时,应用支持实时活动功能,可将比分固定在锁屏或表盘,并新增一键跳转至新闻的入口。目前该应用仍仅限iPhone用户使用。

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产
科技数码 · 2026-05-29

小米史上最强国产巅峰芯片玄戒O3 6月台积电3nm投产

据博主爆料,小米下一代自研玄戒芯片计划于今年6月正式进入量产阶段,此次将采用台积电3nm工艺。初代玄戒O1累计出货量已突破100万颗,量产验证十分扎实。新一代芯片的产能将显著提升,这意味着供货问题基本得到解决。 根据现有曝光信息,这颗迭代芯片极有可能命名为玄戒O3,首发搭载机型预计为小米MIX Fo