阿里发布Marco-Mini-Instruct模型低激活MoE适配普通CPU流畅运行

时间：2026-05-12 16:49

近期，阿里国际数字商业集团发布了一项重要成果，推出了基于MoE（混合专家）架构的Marco-Mini-Instruct大语言模型。该模型的独特之处在于其研发路径：它并非从零训练，而是通过一项名为“Upcycling”（升维再造）的创新技术，将仅有6亿参数（0 6B）的Qwen3-0 6B-Base基

近期，阿里国际数字商业集团发布了一项重要成果，推出了基于MoE（混合专家）架构的Marco-Mini-Instruct大语言模型。该模型的独特之处在于其研发路径：它并非从零训练，而是通过一项名为“Upcycling”（升维再造）的创新技术，将仅有6亿参数（0.6B）的Qwen3-0.6B-Base基础模型转化升级而来。最终模型总参数量达到173亿（17.3B），但每次推理时实际激活的参数仅为8.6亿（0.86B），激活率低至约5%。尤为突出的是，在仅使用8比特量化、搭配4条普通DDR4 2400内存的CPU环境下，其推理速度即可达到每秒30个词元（30 token/s）。这标志着什么？这意味着十亿参数级别大模型的本地化部署门槛被显著降低，让更多开发者和企业能够以极低成本在端侧运行高性能AI。

长期以来，大语言模型在终端设备上的落地始终面临一个核心挑战：参数规模小的模型能力有限，而参数规模大的模型则对计算资源要求过高，难以在资源受限的环境中运行。即便是被视为高效架构的MoE模型，也因推理时对算力的较高需求，通常只能在配备GPU的服务器上运行，这极大地限制了其在普通PC或边缘设备上的普及与应用。

对于广大中小型开发团队、初创企业以及对数据安全、隐私合规有严格要求的行业用户而言，可行的选择往往不多。依赖云端大模型API服务？存在潜在的数据出境与泄露风险。尝试本地部署？动辄需要数万元的高性能GPU硬件，初始投入与运维成本令人望而却步。而当前市面上主流的、能够在端侧流畅运行的轻量级模型，参数规模大多在70亿（7B）以下，它们在处理复杂指令跟随、深度逻辑推理和多轮对话任务时，其表现与百亿乃至千亿参数模型存在明显差距，难以胜任更专业的商用场景。

那么，是否存在一种解决方案，能够同时实现强大的模型性能与亲民的部署成本？2026年4月正式亮相的Marco-Mini-Instruct模型，为这一行业难题提供了一个创新的技术思路。其核心突破正是前述的“Upcycling”升维技术。该技术并非简单的参数扩展，而是在原有小模型的知识与能力基础上，进行深度的架构重构，将其高效地转化为一个MoE系统。其成果是一个总参数量达173亿，但每次推理仅激活8.6亿参数的“高性价比”模型。

参数是冰冷的数字，但用户体验是真实的。根据实际性能测试，这款模型在普通的消费级CPU平台（配合8比特量化和4条DDR4 2400内存）上，实现了每秒30个词元的稳定推理速度。若以中文文本生成折算，大致相当于每秒输出20至25个汉字。这一速度已完全匹配甚至超过常人的阅读速度，能够为用户在智能对话、内容创作、代码辅助及基础推理等场景下，提供流畅、即时的高质量响应。

此项突破所蕴含的行业意义十分重大。在此之前，MoE架构的应用几乎完全局限于云端数据中心，依赖大规模的GPU算力集群。Marco-Mini-Instruct的成功实践，首次将MoE大模型的可行推理环境，从“云端GPU集群”下探至“桌面级CPU”。如今，用户仅需一台配置常规的办公电脑或笔记本电脑，即可在本地部署并运行一个173亿参数级别的智能模型。这不仅节省了高昂的专用硬件采购成本，更从根本上确保了数据全程在本地处理，完全规避了云端传输可能带来的隐私与合规风险。

综上所述，这一技术路径为AI模型的发展提供了新的启示：与其单纯追逐总参数量的军备竞赛，不如通过架构层面的根本性创新，极致地降低推理时的激活参数量与计算开销，从而提升效率与可及性。这或许是未来大模型实现真正普惠化、迈向广泛落地应用的关键。据悉，该模型目前已对外开源并提供下载，感兴趣的开发者与研究人员可直接获取并部署测试，亲身体验这种“低资源消耗、高智能表现”的端侧AI大模型能力。

来源：https://cxgn.cn/12341.html

人工智能

上一篇即梦AI小章鱼Octo上线协作叙事工具VibeCreate创作模式详解 下一篇AI人格测试SBTI爆火精准切中Z世代亚文化心理需求

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

业界动态 · 2026-07-03

苹果人工智能服务器芯片Baltra或将用于执行推理任务

苹果一贯的策略是：只要技术条件允许，就会将关键环节牢牢掌握在自己手中。早在2024年，业内就多次传出消息称，苹果正与博通合作开发一款AI服务器芯片，内部代号为Baltra。根据当时的报道，这款芯片将采用台积电的3纳米N3E工艺，整个设计周期预计在12个月内完成。如今，Baltra已不再是传闻中的概念

业界动态 · 2026-07-03

蝉联全球AR智能眼镜第一雷鸟创新Q3海外增长近四倍

2025年12月15日，Counterpoint Research发布的季度报告为全球AR眼镜市场竞争格局增添了全新注脚。数据显示，中国品牌雷鸟创新（RayNeo）以24%的市场份额，连续两个季度稳居全球AR智能眼镜榜首。与此同时，IDC、CINNO Research等多家权威机构的报告均指向同一结

业界动态 · 2026-07-03

当虹科技打造可落地机器人学长逛校园教育场景

12月10日至11日，杭州第二中学2025学术节上，一位特殊的“学长”成为全校师生争相围观的焦点。这台搭载当虹科技“机器人+教育”场景解决方案的人形机器人，不仅能在校园内自主行走、与人流畅对话，更自带一股亲切的“学霸”气质——师生们热情地称它为“二中智兔”。说实话，当一台机器人站在校门口主动向你问好