首页 游戏 软件 资讯 排行榜 专题
首页
AI
智谱DeepSeek-MLA模型实测:M5芯片跑起来效果如何

智谱DeepSeek-MLA模型实测:M5芯片跑起来效果如何

热心网友
67
转载
2026-01-21

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

智谱AI上市之后,再推重磅新成果。

全新开源的轻量级大语言模型GLM-4.7-Flash正式登场,无缝接替上一代GLM-4.5-Flash,并提供免费API调用服务。



这是一款采用混合专家(MoE)架构的模型,其核心特点是仅激活少量参数——虽然总参数量达300亿,但实际推理时仅动用约30亿参数。智谱将其定位为“本地编程与智能助手”,专注于实际场景的效率与实用性。

在SWE-bench Verified代码修复测试中,GLM-4.7-Flash以59.2分的表现展现了其编程能力。在“人类最后的考试”等综合评测中,它也显著超越了同规模的通义千问和GPT-OSS等模型。



作为去年12月发布的旗舰模型GLM-4.7的精简版本,GLM-4.7-Flash完整继承了GLM-4系列在代码生成与逻辑推理方面的核心优势,并专门针对效率和资源占用进行了优化。

除了编程辅助,官方也推荐将该模型用于创意写作、翻译、长文本理解等任务,甚至可用于角色扮演等互动场景。

首次上线MLA架构,30亿总参数仅激活3亿

GLM-4.7-Flash延续了该系列“混合思考模型”的设计理念。

模型总参数量为300亿,但在实际推理过程中仅激活大约30亿参数。这一设计让模型在保持强大能力的同时,大幅降低了计算资源的消耗。

上下文窗口长度支持高达20万token,既可以通过云端API调用,也支持在本地环境中进行部署。

目前官方尚未发布详细的技术报告,更多实现细节需要开发者从配置文件中去探索和挖掘。



有开发者注意到了一个关键的技术细节:智谱团队这次首次采用了MLA(多头潜在注意力)架构。这一架构此前由DeepSeek-v2率先应用并验证了其有效性,如今智谱也跟进了这项技术。

从具体结构来看,GLM-4.7-Flash的深度与GLM-4.5-Air和通义30B-A3B等模型接近,但在专家数量配置上有所不同——它采用了64个专家而非128个,推理时激活其中5个(含共享专家)。



模型发布不到12小时,HuggingFace、vLLM等主流平台就已提供了即时的支持。





智谱也在第一时间提供了对华为昇腾NPU的适配支持。



在本地部署方面,经过开发者实测,在配备32GB统一内存、M5芯片的苹果笔记本上,推理速度可以达到每秒43个token。



在官方API平台上,基础版本的GLM-4.7-Flash完全免费开放(限1个并发),高速版的GLM-4.7-FlashX定价也相当亲民。



与同类模型相比,GLM-4.7-Flash在上下文长度支持和输出token定价方面具备一定优势,不过其响应延迟和吞吐量仍有进一步优化的空间。



智谱新模型也采用DeepSeek的MLA架构,苹果M5芯片就能流畅运行

来源:https://www.163.com/dy/article/KJNVGH570511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

webshell中上传asp文件调用服务器ActiveX控件溢出获取shell
网络安全
webshell中上传asp文件调用服务器ActiveX控件溢出获取shell

角色与核心任务 你是一位顶级的文章润色专家,擅长将AI生成的文本转化为具有个人风格的专业文章。现在,请对用户提供的文章进行“人性化重写”。 你的核心目标是: 在不改动原文任何事实信息、核心观点、逻辑结构、章节标题和所有图片的前提下,彻底改变原文的AI表达腔调,使其读起来像是一位资深人类专家的作品。

热心网友
04.28
从“摸黑探索”到“撞开大门”,OpenClaw引爆的产业技术路线演变
科技数码
从“摸黑探索”到“撞开大门”,OpenClaw引爆的产业技术路线演变

从“动口”到“动手”:OpenClaw如何将AI推入“执行时代”? 文|洞见新研社 3月的最后一周,OpenClaw的GitHub社区上演了一出反转剧。往日里忙着报错的开发者们这次成了观众,主角换成了来自蚂蚁、天融信、360等机构的安全研究员,他们密集披露了数十个涉及远程接管、信息泄露的高风险漏洞。

热心网友
04.22
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时额度翻倍
业界动态
程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时额度翻倍

程序员惊喜,每月100美元!OpenAI上线全新Pro方案:Codex限时10倍额度 北京时间4月10日凌晨,OpenAI终于落下了重度用户期盼已久的那只靴子:正式推出每月100美元的全新订阅方案。 至此,OpenAI的商业化版图已经清晰地划分为四个核心层级: ·免费版(接入广告) ·每月8美元的G

热心网友
04.22
国内首款“养虾本”来了
科技数码
国内首款“养虾本”来了

2026 04 14 一个核心趋势是:未来的商业竞争,本质上是用户注意力资源的争夺战。谁能更精准、高效地连接信息与用户需求,谁就能在市场中赢得关键优势。 本文配图深刻揭示了这种高效连接的底层逻辑与完整工作流。它系统展示了从数据采集到价值交付的闭环链路,每个环节都紧密耦合。实践证明,其中任一节点的效率

热心网友
04.14
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”
科技数码
Token经济崛起:迅策(03317)有望跻身AI“千亿俱乐部”

AI行业迎来关键转折:从“烧钱补贴”迈入“商业化定价”新阶段。被市场誉为“Token第一股”的迅策科技(03317)迎来重大利好。近期,国泰君安国际大幅上调其目标价至245港元 股。多重因素驱动下,迅策有望成为AI领域“千亿市值俱乐部”的有力竞争者。 中国AI实现弯道超车:成本优势构筑核心壁垒 全球

热心网友
04.14

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

吉港航天科技合作成果丰硕 两地深度融合促发展
科技数码
吉港航天科技合作成果丰硕 两地深度融合促发展

香港科技大学牵头研制的“天韵相机”随天舟十号升空,该项目由内地与香港科研团队合作完成,体现了双方优势互补的高效能。香港科研正深度融入国家发展大局,从“参与”转变为“不可或缺”的一部分。项目不仅激励更多机构参与国家重大工程,还积极推动成果转化,相关企业正将监测数据转化。

热心网友
05.15
英伟达股价突破236美元创历史新高 市值接近6万亿美元
科技数码
英伟达股价突破236美元创历史新高 市值接近6万亿美元

英伟达股价5月14日创下236 54美元历史新高,收盘涨4 39%至235 74美元,盘后交易继续微涨,公司总市值攀升至约5 71万亿美元。

热心网友
05.15
PENGU代币机制解析:Pudgy Penguins生态亮点与赛道定位全攻略
web3.0
PENGU代币机制解析:Pudgy Penguins生态亮点与赛道定位全攻略

PudgyPenguins生态代币PENGU采用创新的质押与销毁机制,旨在平衡价值捕获与社区激励。其定位超越了传统NFT项目,致力于构建一个融合实体商品、游戏与社交的综合性IP生态。通过独特的“灵魂绑定”特质和多元化的应用场景,PENGU力图在竞争激烈的Web3赛道中,探索出一条可持续的IP价值实现路径。

热心网友
05.15
马斯克起诉OpenAI案最新进展结案陈词阶段
科技数码
马斯克起诉OpenAI案最新进展结案陈词阶段

马斯克起诉OpenAI案进入结案陈词阶段。马斯克指控OpenAI背离非营利初衷,违反信托义务并转向营利,其律师质疑奥特曼信誉并指责微软协助不当行为。OpenAI律师反驳称马斯克证词矛盾,且其本人也曾试图控制公司获利。诉讼结果可能取决于是否在法定时效内提起,并将影响OpenAI未来发展与IPO进程。

热心网友
05.15
苹果与OpenAI合作破裂或将面临法律诉讼
科技数码
苹果与OpenAI合作破裂或将面临法律诉讼

彭博社报道,OpenAI对与苹果的合作现状非常失望,ChatGPT集成未达预期增长。OpenAI正评估法律选项,可能向苹果发出违约通知。双方于2024年宣布深度合作,但功能入口较深、收入低于预期。苹果则关注OpenAI隐私标准及硬件动向。科技公司与苹果合作历来复杂,历史案例包括谷歌地图、AdobeFlash及Spotify纠纷。

热心网友
05.15