近日,智谱AI正式发布并开源了新一代旗舰模型GLM-5.2。在全球百万开发者参与的Code Arena前端开发评测中,该模型以出色表现夺得全球可用模型排名第一。与此同时,摩尔线程宣布在其AI训推一体全功能GPU智算卡MTT S5000上,实现了对GLM-5.2的Day-0极速适配,为高性能AI推理场景提供了全新的硬件支持方案。

这一适配成果意味着,开发者和企业在模型发布后即可第一时间借助MTT S5000的强大计算能力部署并运行GLM-5.2。对于追求前沿AI应用效率的团队来说,这无疑是一项重要的技术突破。
全链路优化赋能超长上下文处理能力
GLM-5.2模型的一大亮点在于其Solid 1M超长上下文处理能力,这对硬件性能提出了极高要求。长输入请求在进入生成阶段之前,需要先完成大规模的Prefill计算,这一过程高度依赖并行矩阵计算效率、注意力(Attention)算子优化、显存容量以及访存带宽。
摩尔线程MTT S5000凭借硬件级原生FP8加速,单卡稠密算力高达1000 TFLOPS,同时配备80GB大容量显存与1.6TB/s的超高带宽。这使得它在处理长输入的Prefill阶段时,能够充分释放高吞吐量优势,为百万token级别的上下文处理提供充足的缓存空间和稳定的数据吞吐能力,从而有效支撑GLM-5.2的长程任务执行。
赋能高效AI编程与智能体应用场景
针对GLM-5.2重点强化的编程、智能体(Agent)以及长程任务场景,摩尔线程技术团队基于SGLang-MUSA推理引擎和TileLang-MUSA算子编程语言,完成了模型结构适配、关键算子优化、框架启动与部署验证等一系列工作。
通过原生算子定制、编程优化与推理框架的协同配合,MTT S5000能够在保障模型精度的前提下,提高推理吞吐量并显著降低响应延迟。这有助于减少长上下文请求的首Token等待时间,从而显著提高AI代码生成、RAG增强检索以及长文档分析等场景的在线推理效率,为客户提供面向AI Coding和Agent工作流的高效服务。
总体而言,摩尔线程MTT S5000与GLM-5.2的快速适配,为需要处理复杂、长序列AI任务的企业和开发者提供了一个性能强劲、软硬件深度优化的解决方案,进一步推动了高性能AI计算在具体业务场景中的落地应用。
