近期,百度智能云与昆仑芯科技、CNCF开源项目HAMi携手推出了一项创新的算力调度解决方案——基于昆仑芯P800芯片的XPU/vXPU双模式资源管理体系。目前,该方案已在某大型金融机构的昆仑芯集群中成功部署,为其智能客服、营销辅助等十余类AI业务提供了稳定而高效的算力保障。通过整合整卡XPU与虚拟化vXPU资源,企业能够在同一集群内灵活调配算力,既充分满足业务的高效运行需求,又显著提升了资源整体利用率。
在算力调度技术领域,百度智能云与HAMi共同构建的“XPU整卡+vXPU虚拟化”双模式架构,凭借差异化调度策略有效适应各类业务场景。XPU整卡模式专注支撑大规模模型训练任务,运用拓扑优化调度与集群健康度评估技术,确保多卡协同工作场景下的通信性能与系统稳定性。系统能够自动识别服务器物理分区,优先在单侧翼范围内分配资源,显著减少跨区通信开销;同时,通过评估节点拓扑规整度,智能选择最优调度节点,有效避免资源碎片化问题。这一设计让运维团队无需手动配置硬件,即可实现大规模模型训练的稳定运行。
针对模型推理、开发测试等轻量化计算任务,vXPU虚拟化模式提供了多粒度算力切分支持。该模式下,单张昆仑芯P800计算卡可被灵活划分为1/4卡(24GB显存)或1/2卡(48GB显存)等规格,充分满足不同场景的精细化算力需求。用户仅需声明所需显存容量,系统便会自动匹配最合适的切分方案——例如当申请20GB显存时,系统将直接分配24GB规格,大幅简化操作流程。通过“同规格共享”机制,同一物理计算卡仅允许相同规格的虚拟实例共享使用,进一步降低了资源隔离与管理的复杂度。
为应对灰度测试、硬件故障复现等特殊场景,该方案设计了UUID精准控卡功能。运维人员可通过指定物理卡唯一标识,直接选定或排除特定计算卡。例如在新模型灰度发布阶段,仅需调用部分卡片刻完成验证;在硬件故障排查时,可精确定位问题卡芯进行调试,无需整机下线。这种设计结合了自动化调度与人工调控双通道,既保障了日常调度效率,又赋予运维团队灵活管理的能力。
这套双模式调度方案在金融行业的成功实践,验证了“场景驱动调度策略”的技术价值。通过整合开源生态与企业服务能力,该方案不仅提升了国产AI硬件利用率,也为复杂业务场景下的算力管理提供了可复制的解决方案。
