港科大广州团队突破大模型训练瓶颈实现AI高效学习新方法_AI热点日报

港科大广州团队突破大模型训练瓶颈实现AI高效学习新方法

类型：热点整理2026-05-12

训练一个大型语言模型，就好比要教会一个拥有数千亿参数的“超级大脑”理解并生乘人类语言。这个过程不仅耗时，更是一个吞噬海量计算资源和电力的“巨兽”。现有的主流训练方法，多少有些像让学生用不那么聪明的方式学数学——要么只盯着眼前的一道题，忽略了章节之间的逻辑；要么为了追求格式统一，把解题的关键思路都给丢

训练一个大型语言模型，就好比要教会一个拥有数千亿参数的“超级大脑”理解并生乘人类语言。这个过程不仅耗时，更是一个吞噬海量计算资源和电力的“巨兽”。现有的主流训练方法，多少有些像让学生用不那么聪明的方式学数学——要么只盯着眼前的一道题，忽略了章节之间的逻辑；要么为了追求格式统一，把解题的关键思路都给丢掉了。

具体来说，目前最流行的AdamW优化器，其工作方式就像一个极其耐心的老师，会逐一检查每个参数（好比每道题目）的掌握情况，却完全忽略了参数之间千丝万缕的内在关联。而另一种名为Muon的优化器，虽然试图从全局视角统一处理所有信息，但在“一视同仁”的均匀化过程中，却丢失了梯度中蕴含的宝贵“曲率”信息——这就像为了让大家答题速度一致，而忽略了题目本身有难有易的关键差异。

港科大广州校区团队突破大模型训练瓶颈：让AI学习像数学考试一样高效

那么，有没有一种方法，能让学生（模型）的学习既高效又透彻呢？香港科技大学（广州）xLeaF实验室团队的最新研究，给出了一份令人惊喜的答卷。他们提出了一种名为Mano的全新优化器，旨在从根本上提升大模型的训练效率，同时显著降低计算成本和内存消耗。这项研究已于2026年2月发表在预印本平台arXiv上（论文编号：arXiv:2601.23000v1）。

研究团队从一个被许多人放弃的方向找到了灵感：流形优化。这类方法在数学上非常优美，但在以往的大模型训练实践中表现不佳，导致不少研究者对其望而却步。然而，港科大的团队没有绕道而行，而是选择对其动一场“巧手术”。

他们的核心洞察颇具启发性：问题的关键或许不在于强迫模型参数必须待在某个固定的数学“表面”上，而在于让整个学习过程，在这个具备良好几何性质的表面上进行。这就好比，我们不再苛求学生的答案必须写成某种固定格式，而是引导他的整个思考路径，遵循一套更高效、更结构化的逻辑。

基于此，Mano优化器引入了一个名为“旋转斜流形”的巧妙设计。你可以将其理解为一种动态调整的“学习策略”：在奇数轮训练中，它按“列”的方向进行归一化处理；到了偶数轮，则切换到“行”的方向。这种交替视角的机制，确保了模型能从多个维度理解和优化其庞大的参数空间，就像一位优秀的老师，总会用不同的方法讲解同一个核心概念，帮助学生构建起立体而牢固的知识体系。

令人振奋的是，这种看似复杂的设计，在工程实现上却异常高效，带来了性能的全面超越。在LLaMA、Qwen3等主流模型上的大量实验表明，Mano不仅在最终模型性能上优于AdamW和Muon，训练速度也大幅提升。例如，在LLaMA-350M模型上，Mano的收敛速度比Muon快了1.75倍；在更大的LLaMA-1.3B模型上，也快了1.38倍。更重要的是，随着训练深入，Mano的优势愈发明显，因为它能更好地避开局部最优的“陷阱”，持续向全局最优点迈进。

在资源消耗方面，Mano的表现同样亮眼：其内存开销仅与经典的SGD动量法相当，相比AdamW直接减少了一半；同时，它避免了Muon中昂贵的矩阵正交化计算，显著降低了每次参数更新的计算成本。

一、数学优化遇上工程智慧：Mano的核心原理

理解Mano，不妨将其想象成在一个广袤而复杂的山地中寻找最深的山谷（即模型的最优参数）。传统方法各有局限：AdamW像是一位只盯着脚下几步路的登山者，容易迷失在局部洼地；Muon则像拥有全景视野却无法感知坡度变化的飞行员，可能错过最佳降落点。

Mano的创新，在于重新设计了“寻路算法”。它不再硬性规定登山者必须走某条特定小路，而是赋予其一套更智能的“决策系统”，让每一步的迈出都既符合长远目标，又能充分利用脚下的地形信息。这套系统的数学核心是“切空间投影”，它能确保每次更新方向都贴合当前的“山坡”走势。

而“旋转流形归一化”则是这套系统的智能导航模块。它会在东西方向（列归一化）和南北方向（行归一化）之间交替观察地形，从而避免陷入单一视角的偏见，实现对参数空间更全面、无死角的探索。理论分析表明，这种交替归一化的过程，在数学上等价于著名的Sinkhorn-Knopp算法，能稳定地将矩阵收敛到具有优良性质的双随机矩阵。

从工程角度看，Mano的实现非常简洁高效。每次参数更新，仅需进行两次归一化和一次投影，计算复杂度与参数矩阵的大小成线性关系。相比之下，Muon所需的复杂正交化操作，计算量则要高得多。这使得Mano在保持数学优雅性的同时，具备了落地应用的坚实基石。

二、实验验证：从理论到现实的华丽转身

为了扎实地验证Mano的效果，研究团队设计了涵盖LLaMA和Qwen3两种架构、C4和Pile两个标准数据集的全面实验。

结果颇具戏剧性。在LLaMA-350M的训练中，虽然Muon在初期凭借快速的频谱归一化占据上风，但Mano后劲十足。当AdamW和Muon的损失曲线逐渐走平，仿佛陷入“平台期”时，Mano却能保持近乎恒定的收敛速度，持续“深挖”潜力。这一现象在更大的LLaMA-1.3B模型上更为显著，Mano最终在性能上实现了反超。

深入分析训练动态会发现，Mano在维持梯度稳定性方面表现卓越。在相同的设置下，它能保持更低的梯度方差和更高的信噪比。这意味着Mano的优化环境更稳定，受随机噪声干扰更小，其流形归一化方法有效地保留了原始梯度中蕴含的宝贵曲率信息。

从频谱分析的视角看，Mano实现了一种高效的“频谱正则化”。不同于Muon通过“白化”操作强行拉平所有方向的更新幅度，Mano能在提升稀有方向影响力的同时，不破坏奇异值原有的顺序结构。这从理论上解释了为何Mano能同时兼顾探索效率与信息保留。

实际计算效率的对比更具说服力。随着模型规模增大，Mano线性增长的计算耗时，与Muon指数级增长的开销形成了鲜明对比。在LLaMA-70B这样的庞然大物上，Mano处理注意力层归一化仅需2.19毫秒，而Muon则需要110.79毫秒，速度差距超过50倍。这无疑是工程实践中的决定性优势。

三、深度剖析：为什么Mano如此有效

Mano的成功，源于它精准地抓住了大模型优化中的一个核心矛盾：如何在利用参数间结构信息的同时，避免陷入计算复杂度的泥潭？

AdamW的策略是“分而治之”，为每个参数配备独立的“自适应学习率”，简单直接但忽略了全局结构。Muon则走向另一个极端，通过昂贵的正交化追求“全局统一”，却在均匀化中丢失了指示地形起伏的“曲率”信息。

Mano的巧妙，在于找到了一个精妙的平衡点。通过将动量投影到切空间，并在旋转流形上施加约束，它就像装备了一套智能导航：既利用了“罗盘”（梯度）指示的整体方向，又通过“地形图”（流形几何）感知了局部细节，从而规划出更优路径。

其中，“旋转”机制是点睛之笔。它打破了传统流形优化对固定几何结构的依赖，创造了一个动态适应的优化环境，能够灵活应对训练不同阶段的需求。理论分析也证明，在合理的简化设定下，Mano具备严格的收敛性保证。

从几何直觉上理解，Mano的每次更新都带有一种“挣脱束缚”的特性。切空间投影和流形约束共同作用，使其更新方向天然地倾向于逃离平坦的“鞍点”区域，从而更有效地搜寻全局最优解。

四、实践指南：Mano的使用与部署

对于希望尝鲜的研究者和工程师，Mano的友好性体现在其简洁性上。

超参数设置极简：只需关注学习率、动量系数（建议0.95）和权重衰减这三个核心参数，比AdamW需要调β1、β2更为省心。团队采用了更新幅度控制策略，确保不同优化器在公平的“步长”下对比，这也为实际调参提供了基准。

内存占用优势明显：仅需一个动量缓冲区，内存开销与SGD动量法相当，是AdamW的一半。这对于动辄需要数百GB显存的大模型训练而言，意义重大。

实现轻便易集成：核心操作仅为两次L2范数归一化（行列交替）和一次切空间投影（内积与减法），均可用现代深度学习框架（如PyTorch、TensorFlow）的标准算子高效实现，无需引入特殊的数值计算库。

参数处理灵活：对于二维的权重矩阵，采用旋转归一化；对于一维的偏置等参数，则建议沿用AdamW。这种混合策略务实而有效。研究团队还提供了处理高维张量的通用版本，通过循环遍历维度进行归一化，确保了方法的普适性。

五、对比分析：Mano与现有方法的全面比较

将Mano置于优化器家族的图谱中，能更清晰地定位其价值。

对阵AdamW：Mano的最大优势在于显式地建模了参数空间的几何结构。AdamW基于“各参数独立”的强假设，在高维且参数关联紧密的模型中可能失灵。Mano则通过流形约束捕捉了这种结构信息。同时，内存减半的优势在规模竞赛中至关重要。

对阵Muon：两者都旨在克服AdamW的结构盲区，但路径不同。Muon追求严格的正交性（均匀探索），计算代价高昂；Mano则通过流形约束实现“软正则化”，计算高效且保留了更多梯度结构信息。实验表明，这些被保留的信息对后期优化至关重要，使得Mano能持续突破平台期。

收敛特性：AdamW往往开局迅猛；Muon在中盘表现稳健；而Mano则擅长长跑，在后程发力，避免早停，追求更优的最终解。

稳定性与鲁棒性：通过梯度统计量分析，Mano展现出更稳定的优化轨迹，对抗噪声的能力更强。消融实验也证实，其“旋转”机制对于大模型性能不可或缺，静态流形方案效果会大打折扣。

说到底，选择优化器如同选择交通工具，没有绝对最优，只有最适合场景。追求极致最终性能且计算资源允许？Mano值得重点尝试。资源极度紧张，只求快速原型验证？AdamW仍是可靠起点。而Mano的出现，为介于两者之间的广阔需求地带，提供了一个强有力的新选项。

这项研究更深层的意义，在于它重新点燃了业界对流形优化这一经典数学工具的信心。它证明，通过巧妙的工程改造和问题重构，那些曾被认为“华而不实”的优美理论，完全能在AI时代焕发新的生命力。这种“温故知新”的研究范式，或许比某个单一技术的突破，更能启发未来的创新方向。

Q&A

Q1：Mano优化器的核心创新是什么？

A：其核心创新在于对经典流形优化方法进行了碘伏性改造，提出了“旋转斜流形”的设计。通过将动量投影到参数切空间，并施加行列交替的归一化约束，Mano在保留梯度关键结构信息的同时，赋予了优化过程良好的几何性质，从而在效率与效果之间取得了突破性平衡。

Q2：Mano相比现有优化器有什么实际优势？

A：实际优势体现在三个方面：1）内存减半：开销仅与SGD动量法相当，远低于AdamW；2）计算高效：避免Muon的昂贵正交化计算，速度优势随模型增大而急剧扩大；3）收敛更优：尤其在训练后期，能保持稳定收敛，最终获得性能更好的模型。实验显示其在常用模型上训练速度提升38%至75%。

Q3：普通研究者能轻松使用Mano吗？

A：完全可以。Mano的设计充分考虑了易用性，其超参数设置比AdamW更简单，核心操作均由标准计算算子构成，易于集成到现有训练框架中。论文提供了清晰的实现方案和参数设置建议，降低了使用门槛。

来源：https://www.techwalker.com/2026/0204/3178547.shtml

模型训练

延伸阅读

补充最近整理过的热点入口。