字节跳动新研究：如何让AI训练如养花般“循序渐进”成长

时间：2026-02-05 10:43

大型语言模型的训练一直是人工智能领域最昂贵的挑战之一。想象一下，每次训练一个像ChatGPT这样的AI模型，就像建造一座摩天大楼，需要投入数百万美元的计算资源和数月时间。这让很多研究团队望而却步。不

大型语言模型的训练一直是人工智能领域最昂贵的挑战之一。想象一下，每次训练一个像ChatGPT这样的AI模型，就像建造一座摩天大楼，需要投入数百万美元的计算资源和数月时间。这让很多研究团队望而却步。不过，来自字节跳动和北京大学的研究团队最近提出了一种革命性的方法，让AI模型可以像植物成长一样"循序渐进"地扩大，而不是一开始就建造完整的庞然大物。

这项研究发表于2026年2月的arXiv预印本平台，论文编号为arXiv:2602.02472v1，为AI训练领域带来了全新思路。研究团队将这种方法命名为SPARKLING，这个名称代表着"信号保持与对称性破坏的宽度渐进式学习"。简单来说，就是让AI模型从小规模开始训练，然后在训练过程中逐步"长胖"，最终达到目标大小。

传统的AI训练就像一口气建造整栋大楼，从地基到顶层都要同时进行。而SPARKLING方法更像是先建造一栋小房子，然后在入住使用的同时逐步加盖扩建。这种方式不仅能节省大量成本，还能让最终的"建筑"质量更好。具体来说，这种方法能够减少高达35%的训练成本，同时在很多任务上的表现还超过了传统方法。

渐进式学习的概念并不全新，就像我们养花时会选择合适大小的花盆，随着植物成长再换更大的花盆一样。在AI训练中，研究人员早就发现可以从小模型开始，然后逐步增加模型的"深度"——相当于给房子加盖更多楼层。但是，增加模型的"宽度"——相当于扩大每层楼的面积——却一直是个难题。

一、为什么AI模型的"增肥"这么困难

要理解SPARKLING方法的创新之处，我们需要先了解为什么让AI模型"增肥"如此困难。这个问题就像是在一个精密运转的工厂里突然加入新的生产线，看似简单，实际上会引发一连串的连锁反应。

当我们给AI模型增加新的"神经元"时，就像是在一个精心调校的乐团中突然加入新的乐手。如果处理不当，整个乐团的和谐就会被打破。在AI模型中，这种不和谐表现为两个主要问题：信号失真和对称性锁定。

信号失真就像是音响系统突然调错了音量。AI模型内部有无数个信息传递环节，每个环节的信号强度都经过精心调校。当我们突然加入新的组件时，整个信息流的平衡就被打破了。原本清晰的信号变得模糊不清，模型的学习效果大打折扣。

对称性锁定则更加隐蔽但危害更大。当我们复制已有的神经元来扩展模型时，这些新复制的部分就像是完全相同的双胞胎，它们会做出完全相同的反应。这样一来，虽然模型看起来变大了，但实际上没有学到新的能力，就像是一个班级里突然多了十个完全相同的学生，看似人数增加了，但班级的整体智慧并没有提升。

研究团队通过大量实验发现，传统的扩展方法在训练初期确实能保持较低的错误率，但随着训练的深入，这些问题会越来越明显，最终导致扩展后的模型表现还不如没扩展之前。这就像是一栋匆忙扩建的房子，虽然面积增加了，但结构稳定性反而下降了。

二、SPARKLING的核心创新：像调音师一样精确控制

面对这些挑战，SPARKLING方法提出了两个核心策略：信号保持和对称性破坏。如果把AI模型比作一个大型交响乐团，那么SPARKLING就像是一位经验丰富的指挥家，知道如何在增加新乐手的同时保持整个乐团的和谐。

信号保持的核心理念是维持模型内部信息流的"音量平衡"。研究团队发现，AI模型的每一层都有一个最适宜的信号强度范围，就像每种乐器都有最佳的音量设置。当扩展模型时，关键是要确保新增的部分不会破坏这种精心调校的平衡。

具体来说，研究团队关注的是一个叫做"均方根量级"的指标。这听起来很复杂，但其实就像是测量声音的平均音量。通过数学推导，他们发现了一套精确的公式，能够计算出新增组件应该如何调整"音量"，以保持整体的和谐。

这种方法的巧妙之处在于，它不仅仅是简单的复制粘贴，而是根据不同情况进行精确调整。当模型需要增加"输出宽度"时，就像给乐团增加更多的小提琴声部，新增的部分可以直接按照原有模式工作。但当增加"输入宽度"时，就像是增加了和声部分，需要对所有相关部分进行重新调校。

对称性破坏则解决了"双胞胎问题"。研究团队设计了一套巧妙的机制，让复制出来的神经元虽然在扩展瞬间表现相同，但很快就会走上不同的学习道路。这就像是给双胞胎安排不同的老师和学习计划，让他们逐步发展出各自的特长。

这个过程包括两个关键步骤。首先是"记忆重置"，对新增的神经元清除优化器的历史记忆，让它们重新开始学习过程。然后是"非对称学习率预热"，给新增部分设计专门的学习计划，让它们能够更快地找到自己的定位。

三、实验验证：数据说话的成功故事

为了验证SPARKLING方法的有效性，研究团队进行了大规模的对比实验。他们选择了混合专家模型作为测试对象，这种模型就像是一个拥有多个专业部门的大公司，每个部门负责处理特定类型的问题。

实验设置就像是一场精心设计的比较测试。研究团队训练了一个基础模型，包含5亿个活跃参数和25亿个总参数，使用2000亿个训练样本。在训练进行到一半时，他们使用SPARKLING方法将模型扩展为原来的两倍大小，然后继续训练剩余的部分。

结果令人惊喜。在几乎所有的测试任务中，使用SPARKLING方法扩展的模型都表现出色。在常识推理、阅读理解、数学计算等12个不同的测试项目中，SPARKLING方法训练出的模型在大多数任务上都达到或超过了从头开始训练的大模型的性能。

更重要的是成本效益。传统方法训练一个大模型需要消耗相当于1800万亿次浮点运算的计算资源，而SPARKLING方法只需要1170万亿次，节省了35%的计算成本。这相当于原本需要209小时的训练时间缩短到了140小时，不仅省钱还省时间。

研究团队还测试了方法的通用性。他们发现，SPARKLING不仅适用于AdamW这种常用的优化算法，对于Muon这种更新颖的优化方法同样有效。这证明了这种方法的普适性，就像是一种适用于各种土壤的植物养护技术。

特别值得注意的是，在模型扩展后的恢复期表现。传统方法在扩展后往往需要很长时间才能恢复到稳定状态，而SPARKLING方法能够更快地适应新的结构。这就像是一个经验丰富的园丁，知道如何让植物在换盆后快速适应新环境。

四、技术细节：科学严谨的数学基础

虽然我们用了很多生活化的比喻来解释SPARKLING方法，但其背后有着严谨的数学基础。研究团队通过深入的理论分析，为每个设计决策提供了科学依据。

在信号保持方面，研究团队从神经网络的数学本质入手，分析了信息在网络中的流动规律。他们发现，当网络层足够宽时，可以利用高维空间的数学性质来预测信号的统计特性。这就像是天气预报，虽然无法精确预测每个分子的运动，但可以准确预测整体的天气模式。

基于这种理论洞察，他们推导出了不同扩展情况下的精确缩放公式。当模型需要扩展输出维度时，新增部分的参数需要保持与原有部分相同的统计分布。当扩展输入维度时，则需要根据新旧部分的比例进行调整。最复杂的是同时复制输入和权重的情况，这时需要考虑复制带来的相关性影响。

在对称性破坏方面，研究团队从优化理论的角度分析了问题的根源。他们发现，当复制参数时，不仅参数值相同，连带的优化器状态也会相同，这导致了更深层的对称性锁定。解决这个问题需要打破优化轨迹的对称性，而不仅仅是参数的对称性。

非对称学习率预热的设计也有其理论依据。研究团队分析了学习率对参数演化轨迹的影响，发现通过给新增参数设计不同的学习率计划，能够有效地让它们走上不同的学习道路。这个过程就像是在一个分岔路口给不同的旅行者指定不同的路线，确保他们最终到达不同的目的地。

实验设计也体现了科学研究的严谨性。研究团队控制了所有可能影响结果的变量，包括训练数据、模型架构、优化器设置等，确保观察到的性能改进确实来自SPARKLING方法本身，而不是其他因素的影响。

五、广泛影响：改变AI训练的游戏规则

SPARKLING方法的成功不仅仅是一项技术突破，更可能改变整个AI训练领域的游戏规则。这种影响是多方面和深远的。

从经济角度看，成本降低35%听起来可能不算惊人，但考虑到大型AI模型动辄数百万美元的训练成本，这意味着每个项目都能节省数十万美元。对于资源有限的研究机构和初创公司来说，这种节省可能意味着项目可行与不可行的差别。更重要的是，这种方法降低了AI研发的门槛，让更多团队有机会参与到大模型研究中来。

从技术发展角度看，SPARKLING开创了一种全新的模型训练范式。传统的做法是确定目标模型大小后一次性训练到底，而SPARKLING证明了动态增长的可行性。这就像是从"一步到位"的建筑方式转向了"边住边建"的灵活模式。未来的AI系统可能会根据实际需求动态调整自己的规模，而不需要从头重新训练。

这种方法还为AI模型的部署策略带来了新的可能性。企业可以从小规模模型开始部署，随着业务需求的增长逐步扩大模型规模。这不仅降低了初期投入，还能更好地适应业务发展的不确定性。就像是可以根据客流量调整餐厅规模的智能经营模式。

从研究方法论的角度看，SPARKLING体现了AI研究从经验主义向理论指导实践的转变。研究团队不是简单地尝试各种扩展策略，而是从理论角度分析问题的本质，然后基于理论洞察设计解决方案。这种方法论的转变对整个AI研究领域都有示范意义。

不过，研究团队也诚实地指出了当前方法的局限性。SPARKLING主要关注宽度扩展，而如何同时进行宽度和深度的扩展仍然是一个开放问题。此外，虽然方法在实验中表现出色，但在更大规模的模型上的效果还需要进一步验证。

研究团队还提到了一个有趣的理论方向：他们的RMS保持策略可能与μP条件相关。μP条件是一个理论框架，描述了如何在不同模型规模之间转移最优的超参数设置。如果SPARKLING方法能够自然满足这个条件，那么扩展后的模型就不需要重新调整训练参数，这将进一步简化大模型的训练过程。

展望未来，SPARKLING方法可能会催生出一系列衍生技术。比如，可以开发出智能的扩展决策系统，自动判断何时需要扩展模型以及扩展多少。也可以研究更复杂的扩展模式，比如非对称扩展或者基于任务需求的定向扩展。

这项研究还可能影响AI硬件的发展方向。如果AI模型可以动态调整规模，那么计算硬件也需要相应地支持这种灵活性。未来的AI芯片可能需要具备更好的可配置性和扩展性，以充分发挥SPARKLING等动态训练方法的优势。

最终，SPARKLING方法代表了AI训练从"暴力计算"向"智能计算"的转变。通过更深入地理解AI模型的内在规律，我们能够用更少的资源获得更好的结果。这不仅是技术的进步，更是思维方式的转变。在AI技术日益重要的今天，这种转变可能会对整个社会的数字化进程产生深远影响。

说到底，SPARKLING方法告诉我们，有时候最聪明的解决方案不是更大的锤子，而是更巧妙的技巧。就像古人说的"四两拨千斤"，通过理解和利用系统的内在规律，我们能够用更少的力量达成更大的目标。在AI这个快速发展的领域，这种智慧显得尤为珍贵。对于任何对AI技术发展感兴趣的读者，都值得关注这种方法论思路的进一步发展。如有兴趣深入了解技术细节，可以通过论文编号arXiv:2602.02472v1查询完整论文。

Q&A

Q1：SPARKLING方法相比传统AI训练能节省多少成本？

A：SPARKLING方法能够减少高达35%的训练成本，同时实现1.49倍的速度提升。具体来说，原本需要1800万亿次浮点运算的训练过程缩减到1170万亿次，训练时间从209小时缩短到140小时，为研究机构和企业节省了大量资源。

Q2：为什么AI模型扩展会遇到对称性锁定问题？

A：当复制现有神经元来扩大模型时，新复制的部分会表现得完全相同，就像完全一样的双胞胎。它们接收相同输入、产生相同输出、获得相同梯度更新，导致虽然模型看起来变大了，但实际学习能力没有提升，新增部分变成了冗余的"装饰"。

Q3：SPARKLING方法适用于哪些类型的AI模型？

A：研究团队主要在混合专家模型上验证了SPARKLING方法，包括隐藏维度扩展和专家中间维度扩展。该方法还被证实适用于不同的优化算法，如AdamW和Muon，显示出良好的通用性。未来可能扩展到更多类型的神经网络架构。

来源：https://www.163.com/dy/article/KKV7JJ8Q0511DTVV.html