首页 游戏 软件 资讯 排行榜 专题
首页
AI
智谱DeepSeek-MLA模型实测:M5芯片跑起来效果如何

智谱DeepSeek-MLA模型实测:M5芯片跑起来效果如何

热心网友
53
转载
2026-01-21

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智谱AI上市之后,再推重磅新成果。

全新开源的轻量级大语言模型GLM-4.7-Flash正式登场,无缝接替上一代GLM-4.5-Flash,并提供免费API调用服务。



这是一款采用混合专家(MoE)架构的模型,其核心特点是仅激活少量参数——虽然总参数量达300亿,但实际推理时仅动用约30亿参数。智谱将其定位为“本地编程与智能助手”,专注于实际场景的效率与实用性。

在SWE-bench Verified代码修复测试中,GLM-4.7-Flash以59.2分的表现展现了其编程能力。在“人类最后的考试”等综合评测中,它也显著超越了同规模的通义千问和GPT-OSS等模型。



作为去年12月发布的旗舰模型GLM-4.7的精简版本,GLM-4.7-Flash完整继承了GLM-4系列在代码生成与逻辑推理方面的核心优势,并专门针对效率和资源占用进行了优化。

除了编程辅助,官方也推荐将该模型用于创意写作、翻译、长文本理解等任务,甚至可用于角色扮演等互动场景。

首次上线MLA架构,30亿总参数仅激活3亿

GLM-4.7-Flash延续了该系列“混合思考模型”的设计理念。

模型总参数量为300亿,但在实际推理过程中仅激活大约30亿参数。这一设计让模型在保持强大能力的同时,大幅降低了计算资源的消耗。

上下文窗口长度支持高达20万token,既可以通过云端API调用,也支持在本地环境中进行部署。

目前官方尚未发布详细的技术报告,更多实现细节需要开发者从配置文件中去探索和挖掘。



有开发者注意到了一个关键的技术细节:智谱团队这次首次采用了MLA(多头潜在注意力)架构。这一架构此前由DeepSeek-v2率先应用并验证了其有效性,如今智谱也跟进了这项技术。

从具体结构来看,GLM-4.7-Flash的深度与GLM-4.5-Air和通义30B-A3B等模型接近,但在专家数量配置上有所不同——它采用了64个专家而非128个,推理时激活其中5个(含共享专家)。



模型发布不到12小时,HuggingFace、vLLM等主流平台就已提供了即时的支持。





智谱也在第一时间提供了对华为昇腾NPU的适配支持。



在本地部署方面,经过开发者实测,在配备32GB统一内存、M5芯片的苹果笔记本上,推理速度可以达到每秒43个token。



在官方API平台上,基础版本的GLM-4.7-Flash完全免费开放(限1个并发),高速版的GLM-4.7-FlashX定价也相当亲民。



与同类模型相比,GLM-4.7-Flash在上下文长度支持和输出token定价方面具备一定优势,不过其响应延迟和吞吐量仍有进一步优化的空间。



智谱新模型也采用DeepSeek的MLA架构,苹果M5芯片就能流畅运行

来源:https://www.163.com/dy/article/KJNVGH570511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI时代,如何靠Token赢下新大宗商品争夺战
科技数码
AI时代,如何靠Token赢下新大宗商品争夺战

证券时报记者 王小伟无形的海量Token(词元)顺着网线,卖到全球各地,就像有形的大宗商品通过路网销往全球一样——Token正在成为AI时代的“新石油”和“新集装箱”。随着Agent(智能体)时代的

热心网友
03.31
Win11搜索功能即将优化!微软承诺简化结果、修复排序
科技数码
Win11搜索功能即将优化!微软承诺简化结果、修复排序

快科技3月30日消息,微软Windows Shell产品负责人Tali Roth在社交平台确认,Windows 11搜索功能将迎来大改进,重点解决搜索结果排序混乱、网页内容干扰本地结果、界面信息过载

热心网友
03.30
33个漏洞曝光,蚂蚁实验室锁定OpenClaw代理安全风险
科技数码
33个漏洞曝光,蚂蚁实验室锁定OpenClaw代理安全风险

3 月 30 日,一则来自 GitHub 社区的消息,瞬间引爆整个开发者圈子。蚂蚁集团旗下的 AI 安全实验室,近期对开源智能体框架 OpenClaw 进行了一次专项安全审计。在为期三天的检测中,团

热心网友
03.30
邱锡鹏谈大模型调用:或如水电煤成社会基础服务
科技数码
邱锡鹏谈大模型调用:或如水电煤成社会基础服务

3月24日,人民日报发文《“Token”中文名定了:词元》。文章指出,AI热潮中,一个概念的地位正在渐渐凸显——Token,它是排行榜上大模型调用量的评估标准,也是大模型厂商销售套餐的计费单位。在3

热心网友
03.30
谁来监管失控AI:人手一个“龙虾”时代的治理之问
科技数码
谁来监管失控AI:人手一个“龙虾”时代的治理之问

OpenClaw(又称 "龙虾 ")在技术社区快速走红后,随之而来的安全焦虑正在全面蔓延。作为一款开源AI智能体(AI Agent)框架,OpenClaw的核心目标是让用户拥有一个可以执行任务的私人AI

热心网友
03.30

最新APP

史莱姆农场
史莱姆农场
休闲益智 03-31
凡人传说
凡人传说
角色扮演 03-30
恶魔秘境
恶魔秘境
角色扮演 03-29
猫和老鼠华为
猫和老鼠华为
休闲益智 03-29
暗黑之地
暗黑之地
角色扮演 03-28

热门推荐

Pixel 10 Pro过热致硬件损坏?用户实测长时间开手电筒风险
网络安全
Pixel 10 Pro过热致硬件损坏?用户实测长时间开手电筒风险

IT之家 3 月 31 日消息,手机手电筒是一项用户常用的功能,无论是在漆黑的衣柜里翻找物品,还是夜间在停车场辨路前行,需要时它总能随时派上用场。但如今,部分 Pixel 10 Pro 用户反馈:如

热心网友
03.31
Numbers判断闰年公式设置方法:详解步骤与实用技巧
电脑教程
Numbers判断闰年公式设置方法:详解步骤与实用技巧

闰年判定有四种Numbers兼容公式:一、MOD嵌套OR+AND逻辑;二、DATE+DAY反推2月最后一天;三、TEXT+ISERROR验证“年份-02-29”有效性;四、YEAR

热心网友
03.31
三星Hearapy应用免费上架:百赫兹音疗缓解晕车症状
科技数码
三星Hearapy应用免费上架:百赫兹音疗缓解晕车症状

IT之家 3 月 31 日消息,对很多人来说,晕车晕船是旅行中最常见的烦心事之一。三星悄然上线了一款名为 Hearapy 的免费应用,来解决这一令人不适的问题。该公司称,这款应用无需药物或物理缓解手

热心网友
03.31
湖南电信与海光信息深化合作,共筑算网融合与AI新生态
科技数码
湖南电信与海光信息深化合作,共筑算网融合与AI新生态

据海光信息(688041 SH)消息,近日,中国电信(601728 SH)湖南分公司2026年数智科技生态大会在长沙召开,中国电信湖南分公司与海光信息全面深化数智生态合作。根据协议,双方将聚焦智能制

热心网友
03.31
高端纯电困局,车企如何破解盈利难题
科技数码
高端纯电困局,车企如何破解盈利难题

30万元以上的高端纯电车,显然成了新能源车市的那块硬骨头。除了有换电加持的蔚来新ES8,大量被车企寄予厚望的高端明星纯电车都难逃疲软命运,典型如理想MEGA和i8,一次起火事故,直接造成销量断崖式下

热心网友
03.31