华为昇腾助力KunLun AI Space实现DeepSeek V3.1 FP8推理，成本降低50%

10 月 28 日消息，近期发布的 DeepSeek V3 1 大模型，因搭载了 FP8 精度格式（UE8M0 FP8）引发业界关注。据华为计算今日消息，河南昆仑技术有限公司（简称“昆仑技术”）基

10月28日消息，近期发布的DeepSeek V3.1大模型因搭载了FP8精度格式（UE8M0 FP8）引发业界广泛关注。据华为计算今日透露，河南昆仑技术有限公司（简称“昆仑技术”）基于昇腾AI的Ascend C算子编程语言，研发出一套软FP8解决方案。

据悉，FP8精度格式相比传统的FP16/BF16精度，能够将模型的显存需求直接减半，有效减轻服务器硬件压力；与常见的INT8量化精度相比，不仅推理精度更高，数据表示范围也更广，成功解决了“降成本”与“保效果”之间的核心矛盾。

华为计算：KunLun AI Space 基于昇腾实现 DeepSeek V3.1 FP8 推理，成本减半

▲ 图源：KunLun AI Space 正式截图

该方案实现了“精度无损、成本减半”的双重技术突破：

通过将FP8权重模型输入昇腾硬件，利用精准的反量化算子，将其转换为BF16格式参与计算，既确保了计算过程的准确性，又为后续新FP8权重模型的快速适配预留了灵活空间，无需进行权重重度格式转换；

在模型精度几乎无损的前提下，单台KunLun G8600即可流畅运行满血版DeepSeek V3.1模型；即便在KunLun G5500V2、KunLun G5580等标卡机型上，也能实现模型参数规模翻番，同时大幅提升并发处理能力，让不同硬件配置的用户都能享受到FP8推理带来的技术红利。

华为计算：KunLun AI Space 基于昇腾实现 DeepSeek V3.1 FP8 推理，成本减半

昆仑技术的软FP8解决方案拥有三大核心技术亮点：自研FP8反量化算子，实现显存与内存带宽双减半；算子整图下发，推理效率提升32%；生态级兼容，支持主流模型无缝运行。

从华为计算获悉，KunLun AI Space软FP8解决方案已全面兼容DeepSeek V3.1、DeepSeek-V3 / R1、Qwen3等主流FP8量化模型。同时，该方案具备优异的扩展性，能够快速支持后续新发布的大模型。