首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录

智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录

热心网友
63
转载
2026-05-23

智谱今日正式面向部分企业客户推出GLM-5.1高速版API(GLM-5.1-highspeed)。该模型输出速度达到惊人的400tokens/s,成功刷新当前全球大模型厂商API的速度上限。

400tokens/s 刷新全球纪录!智谱联合TileRT推出 GLM-5.1高速版 API

这一突破,打破了行业过去“高性能模型必然带来高延迟”或“高速模型只能是轻量级模型”的惯例。GLM-5.1高速版在国产大模型中,首次将旗舰级模型能力与极致低延迟同时带入生产环境。这意味着,用户无需再为追求响应速度而牺牲模型质量,鱼与熊掌可以兼得。

碘伏传统体验,直击速度敏感场景

速度的提升,在长程任务和复杂生产环境中,带来的不仅仅是效率的线性增长,更是产品形态的质变。具体来看,有几个场景的感受尤为明显:

  • AI编程(Coding Agent):在完整保留GLM-5.1强大能力的基础上,新模型实现了“即问即答”的流畅体验。模型能够一边理解复杂的工程上下文,一边持续生成代码与修改方案。对于那些需要数十轮交互调用的项目重构任务,以往累计数分钟的等待时间被彻底消除,开发者的思路不再被打断。

  • 实时动态建模:例如在3D地图实测中,当玩家控制角色移动并输入文字指令时,模型能够瞬时完成场景建模并实时改变环境。这种近乎零延迟的交互,为游戏、模拟仿真等领域打开了新的想象空间。

  • Agent Swarm并行调度:在长程任务处理中,模型展现出强大的并发协调能力。实测中,它能在30秒内完成复杂网页的信息处理,并能瞬间调度多达50个不同“人格”的智能体并行回答用户问题。这已经不仅仅是单一模型在加速,更像是一个新型操作系统的雏形正在浮现。

核心技术揭秘:TileRT高性能推理引擎

那么,支撑起400 TPS稳定生产级能力的背后,究竟是什么技术?这得益于智谱GLM团队TileRT团队联合进行的系统级深度优化,其核心思路可以概括为“静态编排,极致协同”。

  1. 推理引擎层(TileRT编译期AOT静态编排)

    传统主流框架以算子(operator/kernel)作为基本调度单元,在单token、小batch的典型API场景下,频繁的调度、访存与同步开销会被放大,成为性能瓶颈。TileRT的做法是彻底抛弃Runtime层的动态调度,在编译期(AOT)就将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡内部,计算、异步IO与通信被拆解为更细粒度的Tile级微任务,整个推理过程只需启动一次Kernel。中间结果通过寄存器、Shared Memory和L2 Cache直接传递,不再写回全局内存,从而极大减少了数据搬运的开销。

  2. 调度系统层

    通过动态批处理、智能请求合并以及KV缓存调度优化,系统能够显著降低高并发场景下的尾延迟,保证大多数请求都能获得稳定、高速的响应。

  3. 基础设施层

    将优化从单卡扩展到多卡。TileRT将SM内部的Warp Specialization思路,扩展到了整张8卡NVLink拓扑。不同的GPU rank依据计算密度与数据依赖关系,被特化为不同的专用worker,再配合网络链路与负载均衡的协同优化,确保了高性能在多卡尺度上的常驻稳定性。

开放计划

GLM-5.1高速版主要适用于对响应延迟要求极高的场景,例如AI编程、实时交互应用、快速商业决策以及实时语音交互等。目前,该服务已正式上线智谱MaaS平台,并面向部分企业客户开放。据智谱官方表示,未来将持续推进推理引擎的工程优化,旨在进一步扩大高速模型的服务能力与覆盖范围。

来源:https://www.aibase.com/zh/news/28235
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录
AI资讯
智谱 GLM-5.1 高速版 API 发布 每秒处理 400tokens 刷新全球纪录

智谱推出GLM-5 1高速版API,输出速度达400tokens s,刷新全球纪录。该模型将旗舰级能力与极致低延迟结合,用户无需为速度牺牲质量。其性能得益于与TileRT联合开发的静态编排高性能推理引擎,通过编译期优化、细粒度任务拆分与多卡协同,大幅减少数据搬运与调度开销。该服务适用于AI编程、实时交互等高延迟敏感场。

热心网友
05.23
科大讯飞AI智能鼠标AM50 Pro发布:语音打字翻译新体验
AI资讯
科大讯飞AI智能鼠标AM50 Pro发布:语音打字翻译新体验

近日,京东平台正式发售了科大讯飞旗下新款AI智能鼠标——AM50 Pro,官方售价为498元。产品提供经典黑、简约白与活力红三种时尚配色,整体造型简洁流畅,符合现代办公美学。连接性能方面,这款鼠标支持有线、星闪及蓝牙三种模式,用户可根据不同使用环境灵活选择,兼顾了稳定性和便捷性。 在重量设计上,AM

热心网友
05.21
苹果Grok应用因涉性别深度伪造险遭App Store下架
AI资讯
苹果Grok应用因涉性别深度伪造险遭App Store下架

苹果应用商店规则面临挑战:AI生成内容危机下的平台责任 今年1月,苹果公司向外界传递了一个明确而强硬的信号:正考虑将埃隆·马斯克旗下xAI开发的Grok应用从App Store中下架。根据NBC新闻报道,这一决定源于该应用在应对社交平台X上泛滥的非自愿深度伪造内容方面存在明显不足。与公开舆论场的广泛

热心网友
05.20
钉钉陈航解读AI重构企业大脑软件时代迎来变革
AI资讯
钉钉陈航解读AI重构企业大脑软件时代迎来变革

2026年4月19日,第十八届中国企业家商界木兰年会的舞台上,钉钉创始人兼CEO陈航(花名:无招)的一席开幕演讲,为整个行业投下了一颗重磅冲击波。他旗帜鲜明地宣告:“软件时代已彻底终结。” 在他看来,企业正以前所未有的速度,跨越到一个由AI驱动的新纪元——一个强调即时生成与透明协同的时代。 这绝非一

热心网友
05.20

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位
web3.0
比特币现货持有者坚定持仓 BTC价格逼近115000美元关键阻力位

现货持有者坚守仓位,比特币接近115,000水平 近期比特币(BTC)价格接近$115,000水平,市场整体情绪谨慎,但现货持有者依旧坚守仓位,显示出一定的多头信心。 市场现状与资金流动 那么,当前市场的资金究竟在如何流动?分析显示,一个有趣的现象正在上演:短线资金的流入其实相当有限,市场热度并未急

热心网友
05.23
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析
web3.0
瑞波币XRP现最强看涨形态目标6美元 近期回调后走势深度解析

目录 要点介绍:分析师称XRP呈现“最强看涨结构”高位清算集中于2 90美元以上区域 周四,XRP价格稳稳站在了2 80美元上方。这个位置守住了,意味着什么?意味着市场向那个经典的“杯柄形态”目标价——6美元以上——又迈进了一步。 要点介绍: 先看几个核心数据:周四XRP报收2 82美元。技术分析显

热心网友
05.23
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破
web3.0
以太坊衍生品市场企稳 交易员聚焦4500美元关键阻力位突破

近期,以太坊(ETH)衍生品市场经历了短暂的闪崩,但随后价格快速企稳,交易者开始关注关键突破点——$4,500水平。 ETH衍生品市场现状 市场情绪往往在剧烈波动后显露真容。从最新的链上数据和期权、永续合约的交易情况来看,那场短暂的闪崩更像是一次压力测试——结果是,市场波动率显著下降,多空力量似乎进

热心网友
05.23
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续
web3.0
狗狗币DOGE暴涨11%交易量激增四倍 市场反弹行情能否持续

DOGE单日暴涨11%,交易量激增四倍,市场风向变了? 最近,加密货币市场又热闹起来了。DOGE(狗狗币)上演了一出“旱地拔葱”,价格单日暴涨11%,更关键的是,成交量直接翻了四倍。这种“价量齐升”的场面,无疑给整个迷因币板块打了一针强心剂,市场情绪肉眼可见地回暖了。 DOGE价格拉升原因分析 那么

热心网友
05.23
欧易OKX官方APP下载指南 安全交易入口与安装教程
web3.0
欧易OKX官方APP下载指南 安全交易入口与安装教程

如何安全获取欧易(OKX)官方APP?一份详尽的下载与使用指南 Binance币安 欧易OKX ️ Huobi火币️ 当人们谈论“欧易易欧”时,指的往往是那个全球顶尖的数字资产交易平台——欧易(OKX)。作为业务版图庞大的行业巨头,其官方APP无疑是用户进行交易、查看行情和管理资产的核心工具。不过,

热心网友
05.23