训练AI只需要跑完前10%,剩下的90%都能在小模型上跑
训练AI模型如何避免“先膨胀后压缩”?全新方法实现边学习边瘦身

(来源:麻省理工科技评论)
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
训练大规模人工智能模型究竟需要付出多少成本?不仅仅是高昂的资金投入,时间、能源以及稀缺的计算资源,每一项都构成了巨大的挑战。
要获得一个更轻量、更高效的AI模型,传统策略通常面临两种选择:要么不计代价地训练一个庞大模型,之后再设法对其进行压缩;要么直接从头训练一个小型模型,但往往需要牺牲模型性能。这就像要么先增重再减肥,要么从一开始就限制发展,两者都不是理想的解决方案。
如今,来自MIT CSAIL、马克斯·普朗克智能系统研究所、ELLIS、苏黎世联邦理工学院以及Liquid AI的联合研究团队,提出了一种创新的AI训练范式,成功打破了这一两难局面:让模型在训练过程中同步进行自我压缩,而非等到训练全部完成后再处理。
核心原理:早期识别冗余,实现精准剪枝
这项名为CompreSSM的技术,主要针对“状态空间模型”这一类AI架构进行优化。这类模型在自然语言处理、音频合成以及机器人控制等多个领域有着广泛的应用。研究人员的灵感来源于控制论中的数学工具,他们发现,在训练早期阶段就能够有效识别出模型中哪些组件是真正关键的,哪些是冗余的,从而可以像进行精准手术一样移除多余部分。
正如论文第一作者、CSAIL博士生马克拉姆·查希内所解释的:“本质上,这是一种让模型同步实现学习、瘦身和加速的技术。在学习过程中,模型会主动抛弃那些对提升自身能力无益的部分。”
这项研究的关键发现在于:状态空间模型内部各个组件的重要性排序,在训练初期就已基本确定并保持稳定。研究团队采用一种称为“汉克尔奇异值”的数学指标,来量化每个内部状态对模型整体行为的贡献程度。实验结果表明,仅需完成约10%的训练进度,就能可靠地确定各个维度的重要性顺序。一旦顺序确定,那些被判定为不重要的组件就可以被安全地移除,剩余的90%训练过程将在一个更精简、更快速的模型上继续进行。
这从根本上改变了模型压缩的时机。论文通讯作者、MIT教授丹妮拉·鲁斯指出:“这项工作的有趣之处在于,它将压缩从一种‘事后优化’手段转变为了学习过程的内在组成部分。我们不再是先训练再压缩,而是让模型在学习中自行发现高效的结构。这代表了一种构建人工智能系统的新思路。”
实际效果:性能接近无损,训练效率显著提升
实验结果令人鼓舞。在图像分类的标准基准测试中,经过压缩的模型保持了与原始完整模型几乎一致的准确率,同时训练速度最高提升了1.5倍。
具体数据来看,一个被压缩至原始状态维度约四分之一的模型,在CIFAR-10数据集上达到了85.7%的准确率。相比之下,一个从一开始就以同等小规模架构训练的模型,准确率仅为81.8%。在目前流行的Mamba状态空间架构上,该方法实现了约4倍的训练加速——将一个128维的模型压缩到大约12维,其性能依然保持强劲竞争力。
“你能获得接近大型模型的性能,因为在初始的‘热身’阶段,模型已经捕捉到了大部分复杂的动态特征,之后只保留了最有用的那些状态,”查希内进一步解释道,“因此,它的表现始终优于从头开始训练的小型模型。”
理论基础坚实,有效规避额外开销
CompreSSM与现有方法的核心差异在于其扎实的理论基础。常规的模型剪枝技术需要先完整训练大型模型,然后再剔除参数,这意味着用户仍需承担训练大模型的全部计算成本。另一种流行的知识蒸馏技术,则需要先训练一个庞大的“教师”模型,再去指导一个小的“学生”模型,这相当于使训练成本翻倍。
而CompreSSM在训练过程中就做出智能的压缩决策,从而巧妙地规避了这两类额外的资源消耗。
研究团队将CompreSSM与上述两种方法进行了直接对比。与一种近期提出的、用于引导紧凑状态空间模型的谱方法相比,CompreSSM的速度快了40倍以上,且准确率更高。那种谱方法由于每次梯度更新都需要进行昂贵的特征值计算,会将训练速度拖慢约16倍,性能却仍然不及CompreSSM。
在CIFAR-10数据集上与知识蒸馏方法对比时,CompreSSM在高压缩率下的优势尤为突出:当状态维度被压缩到很小时,通过蒸馏得到的模型准确率会大幅下降,而CompreSSM压缩后的模型几乎保持了完整版的性能。更重要的是,由于知识蒸馏的每一步都需要教师模型和学生模型各进行一次前向传播计算,即使学生模型更小,其整体训练速度反而比完整的基线模型更慢。
可靠性保障:稳定性的数学证明与安全回退机制
那么,在训练早期做出的压缩决策,在后期是否可能错误地删除了重要组件?研究团队利用Weyl定理从数学上证明了两个关键点:第一,在训练过程中,单个模型状态的重要性是平滑演变的;第二,这些状态之间的相对重要性排序是稳定的。这两点结合,让使用者可以确信——那些在早期被判定为不重要的维度,在后续训练中不太可能突然变得至关重要。
此外,该方法还内置了一个实用的安全机制。如果某次压缩操作意外导致了模型性能下降,使用者可以轻松地回退到之前保存的检查点。“这让研究人员能够主动控制愿意为压缩付出多少性能代价,而不是去定义一个不那么直观的能量阈值,”查希内补充道。
适用范围与未来展望
当然,这项技术也有其特定的适用边界。CompreSSM在那些“内部状态维度与模型整体性能强相关”的模型上效果最佳,而这种相关性因具体任务和模型架构而异。它对多输入多输出模型特别有效,因为这类模型中状态规模与表达能力的关系最为紧密。而对于每通道、单输入单输出的架构,收益则相对有限,因为这类模型本身对状态维度的变化就不太敏感。
目前,这套理论最适用于线性时不变系统。不过,团队已经开发出了适用于输入依赖、时变架构的扩展版本——后者正变得越来越流行。由于状态空间模型家族还延伸到了“线性注意力”等新兴架构(作为传统Transformer的高效替代方案,正受到越来越多的关注),CompreSSM的潜在应用范围相当广泛。
查希内与合作者将这项工作视为一块重要的基石。团队已经展示了该方法向Mamba等线性时变系统的扩展能力,未来的研究方向是将CompreSSM进一步推广到线性注意力机制中使用的矩阵值动力系统。这将使该技术更接近当今绝大多数大型AI系统的核心——Transformer架构。
“这必须是第一步,因为在这里理论是清晰的,方法能保持其原则性,”查希内表示,“这是一块垫脚石,之后再向业界今天实际使用的其他更复杂架构扩展。”
未参与此项研究的ELLIS图宾根研究所首席研究员安东尼奥·奥尔维耶托评价道:“查希内和同事的工作,为现代状态空间模型的压缩问题提供了一个有趣且理论扎实的新视角。该方法提供了有力证据,证明这类模型的状态维度可以在训练过程中被有效降低,而且控制论视角可以成功地指导这一过程。这项工作为未来研究开辟了新方向,所提出的算法有潜力成为预训练大型SSM模型的标准实践。”
据悉,这项研究已被ICLR 2026接收,并将于本月晚些时候在会议上正式发表。研究部分由马克斯·普朗克-ETH学习系统中心和Hector基金会资助。
(原文链接:https://news.mit.edu/2026/new-technique-makes-ai-models-leaner-faster-while-still-learning-0409)
相关攻略
台积电3纳米产能告急,三星2纳米工艺成“唯一替代选择” 最近半导体行业的风向,变得有点快。这边厢,台积电的3纳米产能因为AI需求爆棚而全面吃紧,据说现在只能优先保障苹果这类核心大客户的订单。这种供需失衡的局面,直接为竞争对手打开了一扇机会之窗。 你猜谁迅速填补了高端制造的市场空白?答案是三星。凭借其
人工智能拟人化互动服务管理暂行办法出台,虚拟亲密关系服务对未成年人说“不” 4月11日,一则重磅消息落地。国家网信办、国家发展改革委、工业和信息化部、公安部、市场监管总局五部门联合公布了《人工智能拟人化互动服务管理暂行办法》。这份文件,业内已经等了很久。它将于2026年7月15日正式施行,为这个快速
安卓旗舰普遍提价!iPhone稳坐钓鱼台:包揽核心内存订单锁定供应链 四月以来,国内消费电子市场迎来新一轮价格调整周期。继小米官宣旗下手机产品价格上调后,OPPO、vivo、荣耀等头部安卓品牌也陆续完成价格调整,主流机型价格呈现普涨态势。 本轮手机涨价潮的核心驱动因素,是全球AI产业爆发式增长所引发
2024年物联网最前沿:八大关键技术趋势深度解析 站在2024年的门槛回望,物联网(IoT)早已不是飘在空中的概念,它正以惊人的速度渗透进各行各业的肌理。这一年,一系列技术趋势的融合与突破,不仅驱动着物联网本身走向成熟,更在实实在在地重塑我们的生产和生活方式。 那么,究竟哪些技术构成了2024年物联
基站节能:为何需要大脑统一指挥 深夜,当城市沉入梦乡,街头的5G基站却像不知疲倦的哨兵,依旧亮着指示灯。即便路上空无一人,它们的大部分硬件也仍在运转,默默地消耗着电力。这场景,是不是有点熟悉? 通信网络里,大量的能耗其实都集中在无线接入网。到了凌晨,网络流量可能跌到高峰时的一成不到,这种“守候”而非
热门专题
热门推荐
Lemonaid是什么 如果你正为音乐创作寻找得力助手,那么Lemonaid很可能就是答案。它是一款专门面向专业音乐人打造的AI音乐生成工具,核心能力在于自主生成包含完整旋律、和声与节奏的乐曲。无论是想要一段氛围感十足的背景音乐,还是为具体场景定制配乐,它都能提供高度逼真且质量上乘的作品。工具提供了
苹果也要出折叠屏,传闻已经有几年了,从目前供应链、分析师与知名爆料者释放的信息来看,这款与市面大折都不一样的阔折叠似乎已经蓄势待发,大概率今年下半年就要正式面市。今天我们就来为大家汇总一波,没准儿就有你想知道的消息。 关于苹果折叠屏手机的传闻,已经流传了好几年。如今,综合供应链、分析师以及各路知名爆
《刺客信条:黑旗重制版》官宣之际,这款新海盗游戏为何能抢先赢得玩家口碑? 当游戏界的焦点都集中在《刺客信条:黑旗重制版》的正式公布时,一款名为《风启之旅》(Windrose)的开放世界海盗生存建造游戏,却凭借其过硬的品质与独特的玩法融合,悄然在玩家社区中掀起热议。这款由乌兹别克斯坦团队Kraken
产品介绍 提到云端智能视频创作,腾讯智影是一个绕不开的名字。这款由腾讯推出的平台,本质上是一个一站式的在线视频工厂,集成了从素材挖掘、剪辑、渲染到最终发布的全链路功能,旨在为用户提供全方位的视频创作解决方案。更吸引人的是,它不仅免费开放,还深度整合了多项前沿AI技术,目标很明确:让视频化表达这件事,
《王者荣耀世界》线下活动风波:合影互动引争议,职业素养与网络舆论深度探讨 近日,《王者荣耀世界》的一场线下玩家见面会,因台上一次短暂的合影互动,意外成为全网热议的焦点。活动中,一位男粉丝上台与角色扮演者(Coser)合影时,主动做出比心手势以示友好,却未得到身旁Coser的任何回应。男生举着手势在原





