训练AI只需要跑完前10%，剩下的90%都能在小模型上跑

时间：2026-04-14 19:02

训练AI模型如何避免“先膨胀后压缩”？全新方法实现边学习边瘦身（来源：麻省理工科技评论）训练大规模人工智能模型究竟需要付出多少成本？不仅仅是高昂的资金投入，时间、能源以及稀缺的计算资源，每一项都构成了巨大的挑战。要获得一个更轻量、更高效的AI模型，传统策略通常面临两种选择：要么不计代价地训练一

训练AI模型如何避免“先膨胀后压缩”？全新方法实现边学习边瘦身

（来源：麻省理工科技评论）

训练大规模人工智能模型究竟需要付出多少成本？不仅仅是高昂的资金投入，时间、能源以及稀缺的计算资源，每一项都构成了巨大的挑战。

要获得一个更轻量、更高效的AI模型，传统策略通常面临两种选择：要么不计代价地训练一个庞大模型，之后再设法对其进行压缩；要么直接从头训练一个小型模型，但往往需要牺牲模型性能。这就像要么先增重再减肥，要么从一开始就限制发展，两者都不是理想的解决方案。

如今，来自MIT CSAIL、马克斯·普朗克智能系统研究所、ELLIS、苏黎世联邦理工学院以及Liquid AI的联合研究团队，提出了一种创新的AI训练范式，成功打破了这一两难局面：让模型在训练过程中同步进行自我压缩，而非等到训练全部完成后再处理。

核心原理：早期识别冗余，实现精准剪枝

这项名为CompreSSM的技术，主要针对“状态空间模型”这一类AI架构进行优化。这类模型在自然语言处理、音频合成以及机器人控制等多个领域有着广泛的应用。研究人员的灵感来源于控制论中的数学工具，他们发现，在训练早期阶段就能够有效识别出模型中哪些组件是真正关键的，哪些是冗余的，从而可以像进行精准手术一样移除多余部分。

正如论文第一作者、CSAIL博士生马克拉姆·查希内所解释的：“本质上，这是一种让模型同步实现学习、瘦身和加速的技术。在学习过程中，模型会主动抛弃那些对提升自身能力无益的部分。”

这项研究的关键发现在于：状态空间模型内部各个组件的重要性排序，在训练初期就已基本确定并保持稳定。研究团队采用一种称为“汉克尔奇异值”的数学指标，来量化每个内部状态对模型整体行为的贡献程度。实验结果表明，仅需完成约10%的训练进度，就能可靠地确定各个维度的重要性顺序。一旦顺序确定，那些被判定为不重要的组件就可以被安全地移除，剩余的90%训练过程将在一个更精简、更快速的模型上继续进行。

这从根本上改变了模型压缩的时机。论文通讯作者、MIT教授丹妮拉·鲁斯指出：“这项工作的有趣之处在于，它将压缩从一种‘事后优化’手段转变为了学习过程的内在组成部分。我们不再是先训练再压缩，而是让模型在学习中自行发现高效的结构。这代表了一种构建人工智能系统的新思路。”

实际效果：性能接近无损，训练效率显著提升

实验结果令人鼓舞。在图像分类的标准基准测试中，经过压缩的模型保持了与原始完整模型几乎一致的准确率，同时训练速度最高提升了1.5倍。

具体数据来看，一个被压缩至原始状态维度约四分之一的模型，在CIFAR-10数据集上达到了85.7%的准确率。相比之下，一个从一开始就以同等小规模架构训练的模型，准确率仅为81.8%。在目前流行的Mamba状态空间架构上，该方法实现了约4倍的训练加速——将一个128维的模型压缩到大约12维，其性能依然保持强劲竞争力。

“你能获得接近大型模型的性能，因为在初始的‘热身’阶段，模型已经捕捉到了大部分复杂的动态特征，之后只保留了最有用的那些状态，”查希内进一步解释道，“因此，它的表现始终优于从头开始训练的小型模型。”

理论基础坚实，有效规避额外开销

CompreSSM与现有方法的核心差异在于其扎实的理论基础。常规的模型剪枝技术需要先完整训练大型模型，然后再剔除参数，这意味着用户仍需承担训练大模型的全部计算成本。另一种流行的知识蒸馏技术，则需要先训练一个庞大的“教师”模型，再去指导一个小的“学生”模型，这相当于使训练成本翻倍。

而CompreSSM在训练过程中就做出智能的压缩决策，从而巧妙地规避了这两类额外的资源消耗。

研究团队将CompreSSM与上述两种方法进行了直接对比。与一种近期提出的、用于引导紧凑状态空间模型的谱方法相比，CompreSSM的速度快了40倍以上，且准确率更高。那种谱方法由于每次梯度更新都需要进行昂贵的特征值计算，会将训练速度拖慢约16倍，性能却仍然不及CompreSSM。

在CIFAR-10数据集上与知识蒸馏方法对比时，CompreSSM在高压缩率下的优势尤为突出：当状态维度被压缩到很小时，通过蒸馏得到的模型准确率会大幅下降，而CompreSSM压缩后的模型几乎保持了完整版的性能。更重要的是，由于知识蒸馏的每一步都需要教师模型和学生模型各进行一次前向传播计算，即使学生模型更小，其整体训练速度反而比完整的基线模型更慢。

可靠性保障：稳定性的数学证明与安全回退机制

那么，在训练早期做出的压缩决策，在后期是否可能错误地删除了重要组件？研究团队利用Weyl定理从数学上证明了两个关键点：第一，在训练过程中，单个模型状态的重要性是平滑演变的；第二，这些状态之间的相对重要性排序是稳定的。这两点结合，让使用者可以确信——那些在早期被判定为不重要的维度，在后续训练中不太可能突然变得至关重要。

此外，该方法还内置了一个实用的安全机制。如果某次压缩操作意外导致了模型性能下降，使用者可以轻松地回退到之前保存的检查点。“这让研究人员能够主动控制愿意为压缩付出多少性能代价，而不是去定义一个不那么直观的能量阈值，”查希内补充道。

适用范围与未来展望

当然，这项技术也有其特定的适用边界。CompreSSM在那些“内部状态维度与模型整体性能强相关”的模型上效果最佳，而这种相关性因具体任务和模型架构而异。它对多输入多输出模型特别有效，因为这类模型中状态规模与表达能力的关系最为紧密。而对于每通道、单输入单输出的架构，收益则相对有限，因为这类模型本身对状态维度的变化就不太敏感。

目前，这套理论最适用于线性时不变系统。不过，团队已经开发出了适用于输入依赖、时变架构的扩展版本——后者正变得越来越流行。由于状态空间模型家族还延伸到了“线性注意力”等新兴架构（作为传统Transformer的高效替代方案，正受到越来越多的关注），CompreSSM的潜在应用范围相当广泛。

查希内与合作者将这项工作视为一块重要的基石。团队已经展示了该方法向Mamba等线性时变系统的扩展能力，未来的研究方向是将CompreSSM进一步推广到线性注意力机制中使用的矩阵值动力系统。这将使该技术更接近当今绝大多数大型AI系统的核心——Transformer架构。

“这必须是第一步，因为在这里理论是清晰的，方法能保持其原则性，”查希内表示，“这是一块垫脚石，之后再向业界今天实际使用的其他更复杂架构扩展。”

未参与此项研究的ELLIS图宾根研究所首席研究员安东尼奥·奥尔维耶托评价道：“查希内和同事的工作，为现代状态空间模型的压缩问题提供了一个有趣且理论扎实的新视角。该方法提供了有力证据，证明这类模型的状态维度可以在训练过程中被有效降低，而且控制论视角可以成功地指导这一过程。这项工作为未来研究开辟了新方向，所提出的算法有潜力成为预训练大型SSM模型的标准实践。”

据悉，这项研究已被ICLR 2026接收，并将于本月晚些时候在会议上正式发表。研究部分由马克斯·普朗克-ETH学习系统中心和Hector基金会资助。

（原文链接：https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409）

来源：https://www.163.com/dy/article/KQG8BFM505119734.html

人工智能

上一篇深蓝汽车彭钱磊：2030年新能源规模或达1700万共促行业健康发展 下一篇骗人买苹果！MacBook Pro飞出4米再滚25级台阶仅轻微刮花

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-01

酷态科电能仓600开启预约同时充7台设备首发1299元

酷态科在户外电源市场又带来了一款重磅新品——电能仓600，今天（7月1日）上午官方微博正式宣布开启预约，7月7日上午10点开售。这款产品的定价相当有竞争力：日常价1399元，首发直接优惠至1299元。先聊聊它的核心参数：额定功率600W，但支持升维驱动至1000W。这是什么意思呢？像热水壶、养生壶

科技数码 · 2026-07-01

倍思四款旗舰降噪耳机搭载中科蓝讯BT8972H上市

近年来，主动降噪（ANC）与AI通话降噪（ENC）已成为TWS耳机的核心功能，消费者对耳机的期待也在持续攀升——既要通勤时的安静沉浸，又要通话时的清晰无扰。不过，真正将这两项性能打磨至行业顶尖水准的，往往取决于底层芯片的实力。中科蓝讯最新推出的BT8972H音频平台芯片，在ANC主动降噪和ENC通话

科技数码 · 2026-07-01

中科蓝讯BT8972H助力倍思四款旗舰降噪耳机上市

如今，主动降噪与AI通话降噪已成为TWS耳机市场的核心竞争领域。消费者对半入耳式和入耳式耳机在降噪、通透模式及高清通话方面的需求持续攀升，这对芯片方案的性能提出了更高要求。在此背景下，中科蓝讯推出全新一代BT8972H音频平台芯片，在ANC主动降噪与ENC环境降噪两大核心功能上实现了突破性升级。凭借

科技数码 · 2026-07-01

三星Galaxy Glasses功能曝光手势控制多设备联动

三星的下一代智能穿戴设备——Galaxy Glasses，近期因配套应用及演示内容曝光，再度向外界揭示了大量硬核细节。此次泄露的信息显示，这款智能眼镜并非孤立硬件，而是三星联手谷歌、Warby Parker以及Gentle Monster共同打造的成果，搭载Android XR平台，并运行三星自家的

科技数码 · 2026-07-01

AI助推网络攻击工具苹果提前发布iOS安全更新

据路透社今日凌晨报道，苹果公司在安全策略上做出了一项关键调整：为应对由AI加速开发的网络攻击工具所引发的安全风险，苹果决定将部分原本计划随新版iOS系统一同推送的更新，提前向所有用户开放。苹果官方给出的解释是，当前人工智能技术已能够显著提升恶意攻击工具的开发效率，因此安全更新从发布到抵达用户设备的