游乐游手机版
首页/科技数码/文章详情

智谱GLM-5.1高速版API发布 每秒处理400个tokens刷新全球纪录

时间:2026-05-27 19:33
智谱推出GLM-5 1高速版API,输出速度达每秒400个token,刷新全球大模型API速度上限。该版本实现旗舰能力与低延迟的双重突破,打破“快即小”的行业认知。在代码编程等实时交互场景中效率显著提升,支持多轮快速调用。其性能得益于自研TileRT推理引擎及三层深度优化,现已面向企业客户在高敏感场景中定向开放。

大模型API的响应速度纪录,再次被智谱AI刷新。2025年5月22日,智谱正式向企业客户开放GLM-5.1高速版API(GLM-5.1-highspeed),其模型输出速度突破至每秒400个token。这一成绩不仅创下了全球大模型API速度的新高,更标志着国产大模型首次在顶级模型能力与超低延迟性能上实现了双重飞跃。

智谱(02513)推出GLM-5.1高速版API 400 tokens/s刷新全球速度上限

长期以来,AI行业存在一个普遍的认知:追求更快的响应速度,往往需要以模型能力的降级为代价,即“速度越快,模型越小”。然而,GLM-5.1高速版的问世,彻底颠覆了这一传统观念。企业用户现在无需在“响应快”和“质量高”之间做选择题,可以同时获得两者带来的优势。

这一优势在代码编程、实时对话等对延迟极度敏感的应用场景中,表现得尤为突出。以AI编程助手为例,一个完整的开发任务通常涉及数十轮模型调用。如果每轮调用都需等待数秒,开发者的工作流将频繁中断,效率大打折扣。高速版API带来的“瞬时响应”体验,完美解决了多轮交互累积延迟过高的问题,使得大模型能够像一位实时在线的协作伙伴,而非反应迟缓的离线工具。

实际测试数据充分印证了其性能提升。在代码生成任务中,整体效率提升约10倍。模型不仅能极速生成代码片段,更能精准理解整个项目的上下文,提供更符合实际需求的解决方案。更令人惊叹的是,在3D场景建模等复杂任务中,文字指令能与三维场景实时同步变化;它甚至能根据用户描述,即时生成相应的工具界面,初步展现出下一代智能操作系统的雏形。

实现如此卓越性能的背后,是智谱在技术栈各层面的深度优化。该API由GLM模型团队与TileRT引擎团队协同开发,从推理引擎、调度系统到底层基础设施,完成了三层系统性升级:首先,重写核心推理路径,大幅提升单卡计算吞吐量;其次,采用动态批处理与先进的KV缓存调度策略,有效降低尾部延迟;最后,对计算集群与网络架构进行协同优化,从而保障每秒400个token的稳定、高速输出。

其中的关键技术突破,在于智谱自研的TileRT推理引擎。该引擎通过编译期的静态计算图编排与Tile级微任务调度技术,最大限度地消除了计算过程中的内存与调度开销,使计算效率无限逼近硬件理论极限。

目前,GLM-5.1高速版已针对AI编程、实时交互应用、高频商业决策、实时语音对话等高时效性场景完成专项优化,并通过智谱MaaS平台面向企业定向开放。随着推理引擎技术的持续迭代与高速服务范围的不断扩大,智谱正致力于为企业客户提供兼具超低延迟与顶尖智能的工业化AI能力,进一步强化国产大模型在全球技术竞争中的领先优势。

来源:https://www.163.com/dy/article/KTHAMEVM05198UNI.html
上一篇微软 Surface Pro 9 5G 获 Linux 补丁 修复屏幕与合盖问题 下一篇芯耀科技公司成立专注半导体业务
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。