月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型
月之暗面Kimi开源Moonlight:30亿/160亿参数混合专家模型
技术圈传来新动静。2月24日消息,月之暗面Kimi团队在昨日发布了一份关于“Muon优化器可扩展用于大语言模型训练”的技术报告,同时揭晓了基于此技术训练的模型产品“Moonlight”——一个包含30亿和160亿参数版本的混合专家模型。关键之处在于,它仅使用了5.7万亿个token进行训练,却在消耗更低计算量(FLOPs)的条件下,实现了更优的性能表现,直接改写了当前效率的“帕累托边界”。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

根据报告,团队在研究中发现,Muon优化器可以通过一系列技术进行有效扩展。具体来说,就是通过引入权重衰减机制,并对每个参数的更新幅度进行精细校准。这一发现带来了一个显著的实用亮点:
- 这些技术让Muon能够直接应用于大规模训练场景,几乎不需要额外调整超参数。扩展性实验证明,与遵循计算最优法则训练的AdamW优化器相比,Muon实现了约两倍的计算效率提升。
这次论文中展示的核心模型是Moonlight-16B-A3B。它的总参数量达到152.9亿,激活参数量为22.4亿。正是基于Muon优化器,并在5.7万亿token的庞大数据集上训练,才取得了上述突破性成绩。
- 可以确定的是,该模型不仅突破了现有的帕累托效率边界,更在训练所需计算量大幅缩减的前提下,达到了超越以往模型的性能水平。
- 团队同时开源了经过内存和通信效率优化的分布式Muon实现。此外,他们还发布了预训练模型、指令微调模型以及多个中间训练检查点,目的很明确:为后续的同行研究提供扎实的基础设施。
相关资源链接如下:
- GitHub:点此前往
- Hugging Face:点此前往
热门专题
热门推荐
MySQL视图自增主键映射与逻辑主键生成方案详解 在数据库设计与优化实践中,视图(View)是简化复杂查询、封装业务逻辑的强大工具。然而,许多开发者在操作视图时,常希望实现类似数据表的自动主键生成功能,这在实际应用中却面临诸多限制。本文将深入解析MySQL视图与自增主键的关系,并提供切实可行的逻辑主
MySQL启动时默认字符集没生效?检查my cnf的加载顺序和位置 先明确一个关键点:MySQL启动时,并不会漫无目的地去读取所有可能的配置文件。它有一套固定的、按优先级排列的查找路径(通常是 etc my cnf、 etc mysql my cnf,最后才是 ~ my cnf),并且找到第一个
基本医疗保险的“双账户”模式:统筹与个人如何分工? 说起咱们的基本医疗保险,它的运作核心可以概括为“社会统筹与个人账户相结合”。简单来说,整个医保基金就像一个大池子,但这个池子被清晰地划分为两个部分:一个是大家共用的“统筹基金”,另一个则是属于参保人自己的“个人账户”。 那么,钱是怎么分别流入这两个
TYPE IS RECORD 语法详解与核心应用指南 在PL SQL数据库编程中,TYPE IS RECORD是定义自定义复合数据类型的关键工具。其标准语法结构为:TYPE 类型名 IS RECORD (字段名 数据类型 [DEFAULT 默认值] [NOT NULL]);。通过该语法,开发者可以灵
在定点医疗机构的选择上,政策其实给参保人留出了不小的灵活空间。获得定点资格的专科和中医医疗机构,会自动成为统筹区内所有参保人的可选范围,这为大家获取特色医疗服务提供了基础保障。 在此之外,每位参保人还能根据自身需要,再额外挑选3到5家不同层次的医疗机构。比如,你可以选择一家综合三甲医院应对复杂病情,





