8 月 12 日,科技媒体 WccfTech 发布消息称,英特尔为其锐炫 Pro 系列 GPU 的 Battlematrix 项目推出了首个重要软件更新——LLM Scaler v1.0,新版本在 AI 推理能力方面做出了显著优化。
回顾今年 5 月,英特尔在 COMPUTEX 2025 台北国际电脑展上不仅发布了锐炫 Arc Pro B50 与 B60 显卡,还推出了 Project Battlematrix 推理工作站平台。该平台最高可搭载八张锐炫 Pro 显卡,并配备完整软件包,能够支持运行参数规模达 150B 的中等体量、高精度 AI 模型。
Battlematrix 平台结合了定制化硬件与专用软件栈,旨在优化推理性能与企业部署效率。其中的 LLM Scaler,是基于 vLLM 框架开发的大模型推理容器,可扩展至多 GPU、支持长序列高效推理并兼容多模态任务。

LLM Scaler v1.0 着重改进了 vLLM 推理框架的性能表现。针对 32B 参数模型,在 40K 序列长度下性能提升约 1.8 倍;70B 参数模型则在同一条件下实现高达 4.2 倍的性能增幅。对于 8B 至 32B 范围的模型,输出吞吐量相比上一版本提升了约 10%。
该版本还引入了分层在线量化技术,有效降低了显存占用,并支持管道并行、数据并行、多模态模型嵌入及重排序等功能,进一步提升了模型的灵活性和扩展性。
为了满足企业级运维需求,LLM Scaler v1.0 集成了 XPU Manager 工具,能够实现对 GPU 电源管理、固件升级、设备诊断及显存带宽检测等功能的全面支持。
新容器运行于 Linux 平台,充分发挥多 GPU 扩展与 PCIe 点对点传输的优势,整体性能最高提升 80%。同时,系统还支持 ECC 纠错、SRIOV 虚拟化、遥测数据收集与远程固件更新,保障了其在企业环境中部署的可靠性与可控性。


英特尔指出,其新软件栈兼容行业标准与主流开发流程,并通过集成 OneCCL 基准测试工具,方便开发者进行模型调优与性能评估。这将进一步增强 Battlematrix 平台在 AI 生态中的竞争力。
按照英特尔的产品路线图,本季度还将推出更稳定的容器版本,持续提升 vLLM 的服务能力。预计到四季度,Battlematrix 项目将实现全功能版本的正式落地,为专业领域用户带来更高效、更易用的大模型推理解决方案。
