AMD研究发现FP4训练不稳定根源并非随机性不足

首页

AI资讯

热心网友

转载

2026-05-28

在原生 FP4 硬件上实现端到端 9-10% 的训练加速

大模型训练的成本压力，一直是悬在行业头顶的达摩克利斯之剑。降低训练精度，是公认的破局关键。DeepSeek-V3 采用 FP8 训练，将成本压至 560 万美元，已经让业界看到了显著成效。

那么，一个很自然的问题随之而来：既然 FP8 可行，精度能否进一步下探到 FP4？理论上，FP4 的计算吞吐潜力是 FP8 的两倍。NVIDIA 的 Blackwell 和 AMD 的 MI350 系列，都已经在硬件层面原生支持了 FP4 运算。硬件似乎已准备就绪，但软件和算法侧却卡在了一个顽固的难题上：

用 FP4 从头训练大模型，过程极不稳定。

过去两年，LLM-FP4、NVFP4 预训练等研究陆续尝试，但鲜有方案能干净利落地在 4 比特精度下跑完全流程预训练，同时保持接近 FP8 的收敛质量。更棘手的是，崩溃的根源一直模糊不清，普遍分析认为，问题可能出在随机性不足上。

然而，最近由 AMD 联合宾夕法尼亚州立大学发布的一篇论文，碘伏了这一传统认知，为原生 FP4 训练提供了一个全新的、清晰的诊断。

论文标题：Pretraining large language models with MXFP4 on Native FP4 Hardware
论文链接：https://arxiv.org/abs/2605.09825

这项研究在 AMD Instinct MI355X GPU 上，使用 MXFP4 格式成功完成了 Llama 3.1-8B 模型的全流程预训练。最终，端到端的训练速度比 FP8 基线快了 9-10%，而 token 开销仅增加了 8-9%。这是目前首个在原生 FP4 硬件（非软件模拟）上完成大模型预训练的完整实验。

更重要的是，论文揭示了核心问题的本质：FP4 训练不稳定性的根源，并非随机性不足，而是结构性的微缩放误差沿着敏感的梯度路径被累积并放大了。

MXFP4 是什么

在深入拆解论文之前，有必要先理解 MXFP4 这一数据格式。

传统的整数量化通常为整个张量使用一个统一的缩放因子。MXFP4 的核心设计在于「微缩放」：它将一个张量切分成小块（例如每 32 个元素一组），为每个小块分配一个共享指数（采用 E8M0 格式），块内的每个元素则用 4 比特浮点数表示。其重建公式可以表述为：

其中，E_shared 是块内的最大指数，Q_FP4 是经过最近舍入后得到的 4 比特浮点可表示值。

微缩放的优势在于，每个小块拥有独立的动态范围，从而避免了被全局异常值“绑架”。这使得 4 比特浮点数的表示质量，远优于朴素的全局量化方法。

但即便有了微缩放，FP4 训练依然不够稳定。

排查实验：不稳定的根源

研究团队设计了一套逐步排查的控制实验来定位问题。

一次完整的 Transformer 线性层计算，涉及三个通用矩阵乘法操作：

Fprop（前向传播）：计算 Y = XW^T，产出激活值。
Dgrad（激活梯度）：计算 ∇X = ∇Y · W，将梯度回传给输入。
Wgrad（权重梯度）：计算 ∇W = (∇Y)^T · X，产出用于更新权重的梯度。

研究团队保持其他所有因素不变，逐步将这三个操作从 FP8 替换为 MXFP4，观察每一步对模型收敛的影响。所有实验均在 AMD Instinct MI355X 上使用原生 FP4 Tensor Core 执行，不依赖任何软件模拟。

训练任务采用 MLPerf 标准设置，在 C4 数据集上预训练 Llama 3.1-8B，收敛目标为验证集困惑度达到 3.3。

实验结果显示，前两步（Fprop 和 Dgrad）替换为 MXFP4 仅带来了温和的额外 token 开销。然而，一旦将 Wgrad 也替换为 MXFP4，开销便急剧跃升至 26-27%。

Wgrad 是 FP4 训练的瓶颈所在。前向传播和激活梯度对 FP4 量化表现出相当的容忍度，但权重梯度一旦被量化到 4 比特，收敛质量便出现显著退化。

业界此前的普遍直觉是，FP4 量化误差本质上是噪声问题，因此可以通过注入随机性来“平滑”误差分布。两种常见策略是：

随机舍入：在量化时引入随机性，使舍入误差的期望值为零。
随机 Hadamard 旋转：在量化前，使用带有随机符号翻转的 Hadamard 变换来打散数据分布。

然而，当 Wgrad 被量化后，这两种随机性策略不仅未能稳定训练，反而直接导致了训练不收敛。随机性非但没有起到帮助作用，反而在关键的梯度路径上引入了更多有效的量化误差。

相比之下，确定性的 Hadamard 旋转一举将全流程的 token 开销从 26-27% 压缩回 8-9%，训练轨迹紧密跟踪 FP8 基线。

这是一个极具诊断价值的结果。随机和确定性的 Hadamard 旋转都是正交变换，理论上都能打散异常值的能量分布，对量化误差的缓解效果应该类似。但它们在 Wgrad 场景下的表现却截然相反，这揭示了问题的本质：

FP4 训练的不稳定性，是由 MXFP4 微缩放在敏感梯度路径上产生的结构性误差所驱动的。随机性策略之所以失败，是因为它们在每一步引入了不同的误差模式，而这些变化的误差模式沿着梯度路径累积，反而放大了不稳定性。确定性旋转之所以有效，恰恰是因为它在每一步施加了相同的变换，使得误差模式保持一致，从而避免了误差的灾难性累积。

端到端效率：训练步吞吐 +20%，综合加速 9-10%

在应用确定性 Hadamard 旋转并启用全流程 MXFP4 之后，效率数据如下：

训练步吞吐提升了 20%，扣除多出的 8-9% token 开销后，端到端的综合加速仍能达到 9-10%。

考虑到这是将精度从 8 比特直接削减到 4 比特，这样的收敛质量和加速幅度都相当可观。

左图展示了在 C4 数据集上进行 MLPerf 预训练时，Llama 3.1–8B 的验证困惑度随训练 token 数变化的曲线。结果显示，MXFP4 + 确定性 Hadamard 与 FP8 基线的表现非常接近，而未进行稳定化处理的全流程 MXFP4 则收敛更慢，稳定性也更差。右图是训练后期的局部放大视图，MLPerf 的目标困惑度为 3.3。可以清晰看到，与未稳定化的 MXFP4 运行相比，采用确定性 Hadamard 旋转的方案能够与 FP8 基线保持更紧密的一致性。

需要特别指出的是，论文作者明确强调了一项重要限制：这套 FP4 训练方案（在 MLPerf C4 数据集 + Llama 3.1-8B 上）的效果已得到验证，但不能直接假设它能无缝迁移到所有模型、数据集和训练方法。FP4 训练的行为可能是高度依赖于具体设置的，针对不同场景的稳定策略需要重新验证。

结语

将这篇论文置于更广阔的产业脉络中审视，至少有三层意义。

第一层，它回答了一个根本性的“为什么”。过去的 FP4 训练研究大多聚焦于“如何让它不崩溃”，而这篇论文首次给出了清晰的因果诊断：崩溃源于 Wgrad 路径上的结构性微缩放误差，而非随机性不足。这个诊断本身具有方法论价值，它指引后续研究者在遇到低精度训练不稳定性时，应优先排查结构性误差源，而非盲目增加随机性。

第二层，它将 FP4 从“推理专属”推向了“训练可用”。此前的行业共识是 FP4 仅适合推理量化，训练至少需要 FP8。NVIDIA 在 Blackwell 架构上主推 FP4 推理而非训练，也反映了这一判断。这篇论文在原生 FP4 硬件上跑通了全流程预训练，意味着 MI355X 和 Blackwell 上那些为推理准备的 FP4 算力，理论上也可以用于训练。如果 FP4 训练在更大模型和更多场景中得到验证，现有硬件的可用训练算力将有望直接翻倍。

第三层，它基于 OCP 开放标准。MXFP4 是 OCP Microscaling 格式标准的一部分，其背后有 AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm 七家公司的联合支持。基于开放标准意味着这套方法在不同厂商的硬件上具备可移植性，不会被锁定在单一生态中。

从 FP16 到 FP8，DeepSeek-V3 已经证明精度减半可以大幅降低训练成本。从 FP8 到 FP4，这篇论文迈出了关键的第一步。精度每削减一次，整个大模型训练的经济性都在发生深刻转变。