月之暗面 Kimi 开源 Moonlight:30 亿 / 160 亿参数混合专家模型
月之暗面Kimi开源Moonlight:30亿/160亿参数混合专家模型
技术圈传来新动静。2月24日消息,月之暗面Kimi团队在昨日发布了一份关于“Muon优化器可扩展用于大语言模型训练”的技术报告,同时揭晓了基于此技术训练的模型产品“Moonlight”——一个包含30亿和160亿参数版本的混合专家模型。关键之处在于,它仅使用了5.7万亿个token进行训练,却在消耗更低计算量(FLOPs)的条件下,实现了更优的性能表现,直接改写了当前效率的“帕累托边界”。

根据报告,团队在研究中发现,Muon优化器可以通过一系列技术进行有效扩展。具体来说,就是通过引入权重衰减机制,并对每个参数的更新幅度进行精细校准。这一发现带来了一个显著的实用亮点:
- 这些技术让Muon能够直接应用于大规模训练场景,几乎不需要额外调整超参数。扩展性实验证明,与遵循计算最优法则训练的AdamW优化器相比,Muon实现了约两倍的计算效率提升。
这次论文中展示的核心模型是Moonlight-16B-A3B。它的总参数量达到152.9亿,激活参数量为22.4亿。正是基于Muon优化器,并在5.7万亿token的庞大数据集上训练,才取得了上述突破性成绩。
- 可以确定的是,该模型不仅突破了现有的帕累托效率边界,更在训练所需计算量大幅缩减的前提下,达到了超越以往模型的性能水平。
- 团队同时开源了经过内存和通信效率优化的分布式Muon实现。此外,他们还发布了预训练模型、指令微调模型以及多个中间训练检查点,目的很明确:为后续的同行研究提供扎实的基础设施。
相关资源链接如下:
- GitHub:点此前往
- Hugging Face:点此前往
热门专题
热门推荐
IDC报告显示,商汤“万象”平台以11 3%份额位居中国大模型私有化市场第二。平台通过一站式模型服务、全生命周期专家支持及低代码工具链,满足企业安全、性能与成本需求,推动AI在政务、交通、能源等行业落地,降低技术门槛,加速价值实现。
市场上有多种高效AI工具可供选择。WPSAI能智能处理文档,Grammarly辅助写作纠错,AIPPT工具快速生成演示文稿,ChatGPT进行对话与创作,DeepL提供精准翻译。CanvaAI助力设计,GitHubCopilot和TabNine提升编程效率,AI去背工具简化图像编辑。这些工具覆盖写作、设计、编程等场景,能显著提升工作效率。
BitgetAI负责人Bill博士指出,AI在交易平台中已能高效整合信息、辅助决策,提升效率。当前产品注重个性化建议与安全易用的交互,如通过Telegram提供自然对话辅助。AI虽无法完全替代顶尖交易员,但其价值在于赋能用户、优化流程。未来竞争关键将在于安全体系、成本控制及持续学习用户习惯的能力。
2024年,AI工具正深度融入工作流程,提升效率与创意。WPSAI集成于办公软件,助力文档创作与优化;ChatGPT作为多功能对话模型,辅助编程与文案;GoogleBard擅长信息整合与自然对话;BoardMix结合白板与AI,可生成思维导图等可视化内容;NewBing融合搜索与对话,兼具创意与可信来源;NotionAI能自动处理会议纪要等文本任务;Gram
代币化美股热度上升,投资者可通过区块链交易相关资产,挑战传统券商模式。其优势包括降低门槛、提升流动性和全天候交易,但也面临监管不明确等风险。未来能否颠覆传统金融,取决于技术发展与合规进程。





