大模型API的响应速度纪录,再次被智谱AI刷新。2025年5月22日,智谱正式向企业客户开放GLM-5.1高速版API(GLM-5.1-highspeed),其模型输出速度突破至每秒400个token。这一成绩不仅创下了全球大模型API速度的新高,更标志着国产大模型首次在顶级模型能力与超低延迟性能上实现了双重飞跃。

长期以来,AI行业存在一个普遍的认知:追求更快的响应速度,往往需要以模型能力的降级为代价,即“速度越快,模型越小”。然而,GLM-5.1高速版的问世,彻底颠覆了这一传统观念。企业用户现在无需在“响应快”和“质量高”之间做选择题,可以同时获得两者带来的优势。
这一优势在代码编程、实时对话等对延迟极度敏感的应用场景中,表现得尤为突出。以AI编程助手为例,一个完整的开发任务通常涉及数十轮模型调用。如果每轮调用都需等待数秒,开发者的工作流将频繁中断,效率大打折扣。高速版API带来的“瞬时响应”体验,完美解决了多轮交互累积延迟过高的问题,使得大模型能够像一位实时在线的协作伙伴,而非反应迟缓的离线工具。
实际测试数据充分印证了其性能提升。在代码生成任务中,整体效率提升约10倍。模型不仅能极速生成代码片段,更能精准理解整个项目的上下文,提供更符合实际需求的解决方案。更令人惊叹的是,在3D场景建模等复杂任务中,文字指令能与三维场景实时同步变化;它甚至能根据用户描述,即时生成相应的工具界面,初步展现出下一代智能操作系统的雏形。
实现如此卓越性能的背后,是智谱在技术栈各层面的深度优化。该API由GLM模型团队与TileRT引擎团队协同开发,从推理引擎、调度系统到底层基础设施,完成了三层系统性升级:首先,重写核心推理路径,大幅提升单卡计算吞吐量;其次,采用动态批处理与先进的KV缓存调度策略,有效降低尾部延迟;最后,对计算集群与网络架构进行协同优化,从而保障每秒400个token的稳定、高速输出。
其中的关键技术突破,在于智谱自研的TileRT推理引擎。该引擎通过编译期的静态计算图编排与Tile级微任务调度技术,最大限度地消除了计算过程中的内存与调度开销,使计算效率无限逼近硬件理论极限。
目前,GLM-5.1高速版已针对AI编程、实时交互应用、高频商业决策、实时语音对话等高时效性场景完成专项优化,并通过智谱MaaS平台面向企业定向开放。随着推理引擎技术的持续迭代与高速服务范围的不断扩大,智谱正致力于为企业客户提供兼具超低延迟与顶尖智能的工业化AI能力,进一步强化国产大模型在全球技术竞争中的领先优势。
