高通公司近日正式推出面向数据中心领域的新一代AI推理加速解决方案,该方案基于Qualcomm AI200与AI250芯片,推出了配套的加速卡及机架系统。该系列产品深度融合了高通在神经网络处理单元(NPU)领域的技术积淀,通过机架级架构设计实现性能与能效的双重跃升,为生成式AI在各行各业实现规模化部署奠定核心基础设施支撑。
Qualcomm AI200加速卡专为机架级AI推理场景打造,每卡配备768GB LPDDR内存,在显著提升内存容量的同时有效优化整体拥有成本。该方案针对大语言模型(LLM)及多模态模型(LMM)的推理需求进行了专门优化,借助内存扩展技术实现硬件资源的灵活调配,全面覆盖从边缘计算到云端服务的多样化AI工作负载。
作为技术升级的核心突破,Qualcomm AI250率先引入近存计算架构,通过计算单元与内存单元的深度集成,实现超过10倍的有效内存带宽提升。这一创新设计不仅显著降低功耗,还支持解耦式AI推理模式,使硬件资源可根据任务需求动态分配,在保障高性能表现的同时优化客户成本结构。实验数据显示,该架构可使特定AI推理任务的能效比提升高达40%。
在系统设计层面,两款机架解决方案均采用直接液冷散热技术,结合PCIe纵向扩展与以太网横向扩展能力,构建起高密度计算集群。安全防护方面,机架系统集成机密计算模块,通过硬件级安全加密确保AI模型与数据在推理全流程中的安全防护。整机架设计将功耗控制在160千瓦以内,实现高性能与能源效率的完美平衡。
高通技术规划与数据中心业务负责人马德嘉强调,新方案通过软件栈与开放生态的协同创新,重新定义了机架级AI推理的标准。开发者可依托高通Efficient Transformers库和AI Inference Suite工具链,实现与主流AI框架的无缝对接,同时支持Hugging Face模型库的一键部署。这种全链路优化覆盖从模型训练到推理服务的完整生命周期,显著降低AI应用落地的技术门槛。
配套发布的超大规模AI软件栈提供从应用层到系统层的全栈支持,兼容TensorFlow、PyTorch等主流机器学习框架,并集成生成式AI框架优化模块。开发者通过标准化API接口和自动化工具链,可快速完成模型适配与性能调优。该软件栈还提供预训练模型库、开发工具包及AI运营服务,形成端到端的完整解决方案。
据规划披露,Qualcomm AI200将于2026年率先投入商用,AI250则计划在2027年实现规模化部署。高通承诺将保持年度技术迭代节奏,持续优化AI推理性能、能效比及总体拥有成本三大核心指标,通过芯片架构创新与软件生态建设巩固其在数据中心市场的竞争优势。
