5月21日,智谱AI联合驭驯网络与清华大学宣布,其新一代高性能网络架构ZCube已在GLM-5.1线上生产集群中实现规模化部署与应用。

在GLM-5.1 coding场景的实际线上测试中,在保持原有GPU算力、软件栈及上层应用完全不变的前提下,ZCube架构显著优化了基础设施成本与性能。具体表现为:成功节省了33%的交换机与光模块采购成本,同时将GPU的平均推理吞吐量提升了15%,并将首Token延迟(TTFT)的P99分位值降低了40.6%。
这一技术突破意味着,在不增加额外GPU硬件投入的情况下,智谱GLM大模型服务的整体算力效率获得了实质性提升,每秒能够处理更多API请求。对于依赖大模型API的平台而言,此举直接转化为更高的系统并发处理能力,并确保在流量高峰期间为用户提供更稳定、更迅捷的响应体验。
