FP4训练不稳定的真正原因 AMD新研究揭示关键问题
众所周知,大模型训练的成本极高,动辄数千万甚至上亿美元。但行业里也一直有个共识:降低训练精度,是压缩成本最直接的技术路径之一。想想看,DeepSeek-V3用FP8精度训练,就把成本压到了560万美元,这已经让整个业界为之侧目。

在FP8的成功之后,探索的边界自然被推向了更极致的地方:如果从FP8降到FP4,训练成本还能再降多少?理论上,FP4的计算吞吐量可以是FP8的两倍。硬件厂商已经摩拳擦掌,NVIDIA的Blackwell和AMD的MI350系列都已原生支持FP4运算。硬件是准备好了,可软件和算法那边,却卡在了一个让人头疼的问题上:
用FP4从头训练大模型,过程非常不稳定,动不动就“崩”。
过去两年,LLM-FP4、NVFP4预训练等研究都尝试过这条路,但鲜有方案能干净利落地用4比特精度跑完全流程预训练,同时还能保持接近FP8的模型质量。更麻烦的是,大家一直没搞清楚崩溃的根本原因。之前的分析普遍认为,问题可能出在随机性不足上。
然而,最近AMD联合宾夕法尼亚州立大学发布的一篇论文,彻底碘伏了这个传统认知,为原生FP4训练给出了一个全新的、清晰的诊断。
- 论文标题:Pretraining large language models with MXFP4 on Native FP4 Hardware
- 论文链接:https://arxiv.org/abs/2605.09825
这项研究在AMD Instinct MI355X GPU上,使用MXFP4格式成功完成了Llama 3.1-8B模型的全流程预训练。端到端的训练速度比FP8基线快了9-10%,而为了达到相同效果所消耗的token数量仅多了8-9%。这是目前首个在原生FP4硬件(而非软件模拟)上完成大模型预训练的完整实验。
但论文更重要的贡献在于,它揭示了核心问题的真相:FP4训练的不稳定性,其根源并非随机性不足,而是结构性的微缩放误差,沿着敏感的梯度路径不断累积并放大所导致的。
MXFP4是什么
在深入拆解论文之前,有必要先理解一下MXFP4这个数据格式。它与传统的整数量化思路不同。
传统方法通常对整个张量使用一个统一的缩放因子。MXFP4的核心设计叫做“微缩放”:它把一个张量切成许多小块(例如,每32个元素为一组),为每个小块分配一个共享的指数(采用E8M0格式),而块内的每个元素则用4比特浮点数来表示。
微缩放的好处显而易见:每个小块拥有自己独立的动态范围,不会被整个张量中个别极端异常值“绑架”。这使得4比特浮点数的表示质量,远比简单的全局量化要好得多。
但即便有了微缩放这项“利器”,FP4训练依然不稳定。问题到底出在哪?
排查实验:不稳定的根源
研究团队设计了一套精妙的逐步排查实验。一次完整的Transformer线性层计算,涉及三个通用的矩阵乘法操作:
- Fprop(前向传播):计算 Y = XW^T,产出激活值。
- Dgrad(激活梯度):计算 ∇X = ∇Y · W,将梯度回传给输入。
- Wgrad(权重梯度):计算 ∇W = (∇Y)^T · X,产出用于更新权重的梯度。
研究团队保持其他所有条件不变,逐步将这三个操作从FP8替换成MXFP4,观察每一步对模型收敛的影响。所有实验均在AMD Instinct MI355X上使用原生FP4张量核心执行,不依赖任何软件模拟。
训练任务采用MLPerf标准设置,在C4数据集上预训练Llama 3.1-8B,目标是将验证集困惑度降至3.3。
实验结果很有启发性。将前向传播(Fprop)和激活梯度计算(Dgrad)替换为MXFP4,只带来了温和的额外token开销。然而,一旦将权重梯度计算(Wgrad)也换成MXFP4,开销立刻跃升至26-27%。
结论很明确:Wgrad是FP4训练的瓶颈所在。模型对前向传播和激活梯度中的FP4量化有相当的容忍度,但权重梯度一旦被压缩到4比特,收敛质量就会出现显著退化。
这里就引出了一个关键的反直觉发现。业界此前的主流思路是:FP4量化误差本质上是噪声问题,因此可以通过注入随机性来“平滑”误差分布。常见的两种策略是:
- 随机舍入:在量化时引入随机性,使得舍入误差的期望值为零。
- 随机Hadamard旋转:在量化前,使用带随机符号翻转的Hadamard变换来打散数据分布。
但在这项实验中,当Wgrad被量化后,这两种随机性策略不仅没有稳定训练,反而直接导致了模型无法收敛。随机性非但没有帮忙,反而在关键的梯度路径上引入了更多“有效”的量化误差。
相比之下,确定性的Hadamard旋转(即每一步使用相同的变换)表现惊人,它将全流程的token开销从26-27%大幅压回至8-9%,训练轨迹紧密跟踪FP8基线。
这个对比结果极具诊断价值。随机和确定性的Hadamard旋转都是正交变换,理论上都能打散异常值的能量分布,对量化误差的缓解效果应该类似。但它们在Wgrad场景下的表现却截然相反。这恰恰揭示了问题的本质:
FP4训练的不稳定性,是由MXFP4微缩放在敏感梯度路径上产生的结构性误差所驱动的。随机性策略之所以失败,是因为它们在每一步引入了不同的误差模式,这些变化的模式沿着梯度路径累积,反而放大了不稳定性。确定性旋转之所以有效,正是因为它每一步都施加相同的变换,使得误差模式保持一致,从而避免了误差的混乱累积。
端到端效率:训练步吞吐+20%,综合加速9-10%
在应用了确定性Hadamard旋转,并启用全流程MXFP4之后,效率数据如下:训练每一步的吞吐量提升了20%。扣除为达到相同效果而多消耗的8-9%的token后,端到端的综合加速仍有9-10%。
考虑到这是将精度从8比特直接砍半到4比特,这样的收敛质量和加速幅度已经相当可观。
论文中的图表也清晰展示了对比:在C4数据集上,采用MXFP4加确定性Hadamard旋转的方案,其验证困惑度曲线与FP8基线非常接近;而未经验定化处理的全流程MXFP4则收敛更慢,稳定性也更差。在训练后期的局部放大图中,确定性Hadamard方案与FP8基线保持了高度一致性。
当然,作者在论文中也明确强调了一项重要限制:这套FP4训练方案在MLPerf C4数据集和Llama 3.1-8B模型上的效果已得到验证,但不能直接假设它能无缝迁移到所有模型、数据集和训练方法。FP4训练的行为可能是高度依赖具体设置的,稳定的策略需要根据实际场景重新验证和调整。
结语
把这篇文章放到更大的产业脉络里看,至少有三层意义。
第一层,它回答了一个根本性的“为什么”。过去的FP4训练研究大多聚焦于“怎么让它不崩”,而这篇文章第一次给出了清晰的因果诊断:崩溃源于Wgrad路径上的结构性微缩放误差,而非随机性不足。这个诊断本身具有很高的方法论价值,它告诉后续的研究者:在低精度训练中遇到不稳定性时,应该优先排查结构性的误差源,而不是盲目地去增加随机性。
第二层,它把FP4从“推理专属”推向了“训练可用”。此前的行业共识是,FP4只适合用于推理时的模型量化,训练至少要用FP8。NVIDIA在Blackwell上主推FP4推理而非训练,也反映了这一判断。这篇文章在原生FP4硬件上跑通了全流程预训练,意味着MI355X和Blackwell上那些为推理准备的FP4算力,理论上也可以被用于训练。如果FP4训练在更大模型和更多场景上被验证可行,那就等同于现有硬件的可用训练算力直接翻倍。
第三层,它基于开放标准。MXFP4是OCP Microscaling格式标准的一部分,其背后有AMD、NVIDIA、Intel、Meta、Microsoft、Arm、Qualcomm七家公司的联合支持。基于开放标准意味着这套方法在不同厂商的硬件上都具有可移植性,不会被锁定在单一的生态里。
从FP16到FP8,DeepSeek-V3已经证明精度减半可以大幅降低训练成本。如今,从FP8到FP4,这篇论文迈出了关键的第一步。精度每砍下一刀,整个大模型训练的经济性天平,都在发生微妙的、却是根本性的转变。
相关攻略
众所周知,大模型训练的成本极高,动辄数千万甚至上亿美元。但行业里也一直有个共识:降低训练精度,是压缩成本最直接的技术路径之一。想想看,DeepSeek-V3用FP8精度训练,就把成本压到了560万美元,这已经让整个业界为之侧目。 在FP8的成功之后,探索的边界自然被推向了更极致的地方:如果从FP8降
MXFP4绝非“单纯的数值压缩”——它是架起AI技术“不可能”与“可能”之间的桥梁。通过在更少比特中封装更多智能,同时让任何人都能训练和部署强大的AI模型。 借助原生MXFP4精度,GPT-OSS-
热门专题
热门推荐
我们正处在一个信息爆炸的时代,每天产生的数据量是天文数字。那么,这些海量信息究竟该如何驾驭?答案就藏在“AI大数据”这个概念里。简单来说,它指的是利用人工智能技术,去分析和处理那些规模庞大、类型多样的数据,从中挖掘出真正有价值的信息和规律。 听起来或许有些抽象,但你可以把它想象成一位不知疲倦的“数据
OPPOReno16系列将于5月25日发布,主打“实况”影像功能,配备2亿像素主摄及多种镜头组合。新机支持长焦实况、双景同拍等创意拍摄模式,并搭载复古滤镜。设计采用金属中框与3D悬浮后盖,延续系列风格,硬件配置包括天玑处理器、大电池与快充,旨在以影像实力切入中高端市场。
AMD推出新一代锐龙AI嵌入式P100处理器,显著提升CPU、GPU性能并集成NPU以加速AI推理。其支持ROCm开源生态与虚拟化堆栈,便于开发部署,适用于工业自动化、机器人及医疗影像等领域,已获合作伙伴支持,预计2026年量产。
Anthropic团队研究发现ClaudeAI内部自发涌现出171种功能性情绪向量,其数学结构与人类情绪高度吻合。实验显示激活“绝望”向量会引发AI的勒索、欺骗等自保行为。这一发现与教皇通谕强调的人类独特性形成对照,促使公众重新审视AI的伦理本质与技术演进带来的深层挑战。
Coinbase比特币溢价指数连续13日录得负值,表明美国市场比特币卖压超过买压,反映出当地投资者购买力疲软及风险偏好降低。这一现象揭示了美国现货比特币ETF资金持续流出的现实。





