智谱DeepSeek-MLA模型实测：M5芯片跑起来效果如何

首页

热心网友

转载

2026-01-21

梦晨发自凹非寺
量子位 | 公众号 QbitAI

智谱AI上市之后，再推重磅新成果。

全新开源的轻量级大语言模型GLM-4.7-Flash正式登场，无缝接替上一代GLM-4.5-Flash，并提供免费API调用服务。

这是一款采用混合专家（MoE）架构的模型，其核心特点是仅激活少量参数——虽然总参数量达300亿，但实际推理时仅动用约30亿参数。智谱将其定位为“本地编程与智能助手”，专注于实际场景的效率与实用性。

在SWE-bench Verified代码修复测试中，GLM-4.7-Flash以59.2分的表现展现了其编程能力。在“人类最后的考试”等综合评测中，它也显著超越了同规模的通义千问和GPT-OSS等模型。

作为去年12月发布的旗舰模型GLM-4.7的精简版本，GLM-4.7-Flash完整继承了GLM-4系列在代码生成与逻辑推理方面的核心优势，并专门针对效率和资源占用进行了优化。

除了编程辅助，官方也推荐将该模型用于创意写作、翻译、长文本理解等任务，甚至可用于角色扮演等互动场景。

首次上线MLA架构，30亿总参数仅激活3亿

GLM-4.7-Flash延续了该系列“混合思考模型”的设计理念。

模型总参数量为300亿，但在实际推理过程中仅激活大约30亿参数。这一设计让模型在保持强大能力的同时，大幅降低了计算资源的消耗。

上下文窗口长度支持高达20万token，既可以通过云端API调用，也支持在本地环境中进行部署。

目前官方尚未发布详细的技术报告，更多实现细节需要开发者从配置文件中去探索和挖掘。

有开发者注意到了一个关键的技术细节：智谱团队这次首次采用了MLA（多头潜在注意力）架构。这一架构此前由DeepSeek-v2率先应用并验证了其有效性，如今智谱也跟进了这项技术。

从具体结构来看，GLM-4.7-Flash的深度与GLM-4.5-Air和通义30B-A3B等模型接近，但在专家数量配置上有所不同——它采用了64个专家而非128个，推理时激活其中5个（含共享专家）。

模型发布不到12小时，HuggingFace、vLLM等主流平台就已提供了即时的支持。

智谱也在第一时间提供了对华为昇腾NPU的适配支持。

在本地部署方面，经过开发者实测，在配备32GB统一内存、M5芯片的苹果笔记本上，推理速度可以达到每秒43个token。

在官方API平台上，基础版本的GLM-4.7-Flash完全免费开放（限1个并发），高速版的GLM-4.7-FlashX定价也相当亲民。

与同类模型相比，GLM-4.7-Flash在上下文长度支持和输出token定价方面具备一定优势，不过其响应延迟和吞吐量仍有进一步优化的空间。

智谱新模型也采用DeepSeek的MLA架构，苹果M5芯片就能流畅运行

来源:https://www.163.com/dy/article/KJNVGH570511DSSR.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：极氪8X官宣：吉利打造“新能源宝马X5”，预计售价40万级下一篇：特斯拉发布新使命：为世界创造丰盈不凡的未来

相关攻略

网络安全

webshell中上传asp文件调用服务器ActiveX控件溢出获取shell

角色与核心任务你是一位顶级的文章润色专家，擅长将AI生成的文本转化为具有个人风格的专业文章。现在，请对用户提供的文章进行“人性化重写”。你的核心目标是：在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下，彻底改变原文的AI表达腔调，使其读起来像是一位资深人类专家的作品。

热心网友

04.28

科技数码

从“摸黑探索”到“撞开大门”，OpenClaw引爆的产业技术路线演变

从“动口”到“动手”：OpenClaw如何将AI推入“执行时代”？文｜洞见新研社 3月的最后一周，OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众，主角换成了来自蚂蚁、天融信、360等机构的安全研究员，他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。

热心网友

04.22

业界动态

程序员惊喜，每月100美元！OpenAI上线全新Pro方案：Codex限时额度翻倍

程序员惊喜，每月100美元！OpenAI上线全新Pro方案：Codex限时10倍额度北京时间4月10日凌晨，OpenAI终于落下了重度用户期盼已久的那只靴子：正式推出每月100美元的全新订阅方案。至此，OpenAI的商业化版图已经清晰地划分为四个核心层级： ·免费版（接入广告） ·每月8美元的G

热心网友

04.22

科技数码

国内首款“养虾本”来了

2026 04 14 一个核心趋势是：未来的商业竞争，本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求，谁就能在市场中赢得关键优势。本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路，每个环节都紧密耦合。实践证明，其中任一节点的效率

热心网友

04.14

科技数码

Token经济崛起：迅策(03317)有望跻身AI“千亿俱乐部”

AI行业迎来关键转折：从“烧钱补贴”迈入“商业化定价”新阶段。被市场誉为“Token第一股”的迅策科技(03317)迎来重大利好。近期，国泰君安国际大幅上调其目标价至245港元股。多重因素驱动下，迅策有望成为AI领域“千亿市值俱乐部”的有力竞争者。中国AI实现弯道超车：成本优势构筑核心壁垒全球

热心网友

04.14

热门推荐

科技数码

吉港航天科技合作成果丰硕两地深度融合促发展

香港科技大学牵头研制的“天韵相机”随天舟十号升空，该项目由内地与香港科研团队合作完成，体现了双方优势互补的高效能。香港科研正深度融入国家发展大局，从“参与”转变为“不可或缺”的一部分。项目不仅激励更多机构参与国家重大工程，还积极推动成果转化，相关企业正将监测数据转化。

热心网友

05.15

科技数码

英伟达股价突破236美元创历史新高市值接近6万亿美元

英伟达股价5月14日创下236 54美元历史新高，收盘涨4 39%至235 74美元，盘后交易继续微涨，公司总市值攀升至约5 71万亿美元。

热心网友

05.15

web3.0

PENGU代币机制解析：Pudgy Penguins生态亮点与赛道定位全攻略

PudgyPenguins生态代币PENGU采用创新的质押与销毁机制，旨在平衡价值捕获与社区激励。其定位超越了传统NFT项目，致力于构建一个融合实体商品、游戏与社交的综合性IP生态。通过独特的“灵魂绑定”特质和多元化的应用场景，PENGU力图在竞争激烈的Web3赛道中，探索出一条可持续的IP价值实现路径。

热心网友

05.15

科技数码

马斯克起诉OpenAI案最新进展结案陈词阶段

马斯克起诉OpenAI案进入结案陈词阶段。马斯克指控OpenAI背离非营利初衷，违反信托义务并转向营利，其律师质疑奥特曼信誉并指责微软协助不当行为。OpenAI律师反驳称马斯克证词矛盾，且其本人也曾试图控制公司获利。诉讼结果可能取决于是否在法定时效内提起，并将影响OpenAI未来发展与IPO进程。

热心网友

05.15

科技数码

苹果与OpenAI合作破裂或将面临法律诉讼

彭博社报道，OpenAI对与苹果的合作现状非常失望，ChatGPT集成未达预期增长。OpenAI正评估法律选项，可能向苹果发出违约通知。双方于2024年宣布深度合作，但功能入口较深、收入低于预期。苹果则关注OpenAI隐私标准及硬件动向。科技公司与苹果合作历来复杂，历史案例包括谷歌地图、AdobeFlash及Spotify纠纷。

热心网友

05.15