DeepSeek昨日发布重磅更新,今日引爆行业热议
DeepSeek在8月21日正式发布V3.1,一则官方补充留言激起千层浪。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

是的,因为官方在V3.1的发布文章里把有关过程算力支持的描述写得太隐晦,又自己在评论区补充了一句。
一夜过去,短短的一句话,A股市场集体“开香槟”。据财联社报道,全市场超2800只个股上涨。从板块来看,算力股全线爆发,云天励飞等多股涨停。芯片股集体大涨,寒武纪涨停创历史新高,中芯国际大涨14%,海光信息涨停。
资本市场的反应并不是对一句口号的追捧,而是看到了国产芯片在算力赛道上真正切入国际前沿的可能。DeepSeek的这句话,不仅被视作一次“技术换挡”的信号,更是国内算力产业链罕见的共振时刻。
DeepSeek这枚炸弹,到底是什么?
要理解“UE8M0 FP8”为何能引发如此大的关注,必须将其拆解为两个部分:作为本体的“FP8”和作为灵魂的“UE8M0”。FP8本身是一种将数字压缩到仅用8位(bit)来存储的浮点格式,旨在用更少的数据位宽降低AI大模型训练和推理中对显存带宽的空前压力。
而DeepSeek的模型一直使用的都是这个格式,但有一个问题,国内的芯片公司只有极少数GPU厂商原生支持FP8,比如摩尔线程,其旗舰产品MTT S5000就是国内首批原生支持FP8并大规模量产的GPU。大家普遍支持的都是FP16,这使得国产芯片在跑DeepSeek的模型时,性能至少会折损一半,所以,这也解释了为什么大家还是喜欢买英伟达的芯片,因为如果是过去的国产芯片,起手就已经不是“满血”了,更别说自己在本地调配时还有可能因为水平不足再降低性能。

图|豆包AI生成
有AI infra企业告诉凤凰网科技,解决方案就是在软件上做突破,国内有专门针对国产芯片做软件适配DeepSeek的企业,比如清程极智,其原则是让国产芯片在用DeepSeek时可以提升性能。
这里补充一个知识,纯粹的FP8(如常见的E4M3或E5M2格式)在动态范围和精度上存在固有权衡,处理具有极端大小值的复杂数据时仍可能面临精度损失或数值溢出的挑战。通俗地说,就是数据会有损,就像你压缩打包一批衣服,可以压到很小,但衣服会皱得厉害。
而真正的突破来自由Meta、谷歌等科技巨头推动的开放计算项目(OCP)所制定的MX(Microscaling)格式,其核心思想不再是整个张量共用一个大缩放因子,而是将其切分为微小的数据块,并为每个块单独配备一个轻量级的8位缩放因子,从而在保持8位存储效率的同时,动态范围扩展了数十倍。通俗地说,就是把一批衣服分开打包。
回到DeepSeek这次发布的“UE8M0”,正是MX格式中为每个数据块指定的那个关键缩放因子的数据格式。它是一种极为高效的8位指数表示法:“U”代表无符号(Unsigned),意味着它永远是一个正数,无需符号位;“E8”代表8个比特全部用于表示指数(Exponent);“M0”代表没有尾数(Mantissa)。用一个比喻来形容,UE8M0就像一个“只调档位、不调微刻度”的超级节能灯泡开关,就像AI芯片里的快进键。
这种“全指数”设计带来了两大根本性优势:其一,硬件在执行缩放(即数据还原)时异常简单快捷,只需进行简单的整数次幂运算(相当于直接移动二进制小数点),完全规避了复杂的浮点乘法与舍入操作,极大缩短了关键计算路径,提升了能效。
其二,其巨大的动态范围(从2⁻¹²⁷到2¹²⁸)足以确保任何数据块都能被恰到好处地缩放至FP8的表示范围内,从而几乎完全避免了因数值过大而溢出或过小而被舍入为零的信息损失问题,错误率曲线得以从高位大幅降至一条平坦的低水平线。
所以说UE8M0 FP8是让国产芯片在跑大模型,尤其是在跑DeepSeek的模型时——更快、更省、更能扛大数。
许多现有国产AI加速器并未原生支持完整的E4M3/E5M2 FP8计算单元,但其架构正在向支持块缩放(Block Scaling)的MX格式演进。UE8M0作为缩放因子,其本身格式极简,无需复杂的专用浮点乘法器即可实现,降低了硬件实现门槛。
更重要的是,它为突破“内存墙”提供了最优解:相较于传统的为每个数据块配备一个32位FP32缩放因子,UE8M0仅需追加8位,即可高效管理32个FP8数据,带宽开销骤降75%。这对于HBM带宽仍处于追赶阶段的国产芯片而言,是一项通过数据格式创新实现“带宽减负”的架构级优化,成为了在下一代竞争中实现效能跃升的关键技术路径。因此,这不仅是单纯的技术兼容,更是一次在主流标准框架内,通过前沿设计实现差异化竞争力的精准卡位。
中国算力产业正在迎来“顿悟时刻”
从产业层面看,DeepSeek的这次表态不只是一种技术选择,更是一次产业生态的确认。想想看,中国最好用的大模型产品与英伟达如此紧密地捆绑,本身是一件不乐观的事情,DeepSeek这一次的发布,可以看作一种渐进式的解绑,官方主动下场为国产芯片发展生态站位。
UE8M0 FP8的落地,也意味着国产算力厂商已经在浮点格式、编译器优化、训练框架适配等环节上实现全栈打通,这背后意味着长期积累的软硬件协同终于显现成果。
至于其所提到的下一代国产芯片是谁,凤凰网科技此前了解到的,目前成熟的头部国产芯片公司其实都与DeepSeek有所接触。另外,有不少本身都是支持FP8的,除了摩尔线程,今天涨得最凶猛的寒武纪,旗下的思元590以及最新690系列都支持。
凤凰网科技还了解到,摩尔线程的MUSA架构本就原生支持硬件FP8张量加速计算,现在还能够很好地支持UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。
所以说,其实利好谁并不需要猜测,因为DeepSeek此次就是要普遍支持国产芯片生态。
DeepSeek一句话背后,是对未来大模型算力效率的重新定义,也是国产芯片厂商获得国际话语权的起点。资本市场的集体狂欢,既有情绪成分,更折射出一个信号:中国芯片正迎来前所未有的窗口期,而这一次,它们有机会真正站到技术潮水的前沿。
本文来自微信公众号:凤凰网科技 (ID:ifeng_tech),作者:姜凡,编辑:董雨晴
-->本文来自微信公众号:凤凰网科技 (ID:ifeng_tech),作者:姜凡,编辑:董雨晴,题图来自:AI生成
DeepSeek在8月21日正式发布V3.1,一则官方补充留言激起千层浪。

是的,因为官方在V3.1的发布文章里把有关过程算力支持的描述写得太隐晦,又自己在评论区补充了一句。
一夜过去,短短的一句话,A股市场集体“开香槟”。据财联社报道,全市场超2800只个股上涨。从板块来看,算力股全线爆发,云天励飞等多股涨停。芯片股集体大涨,寒武纪涨停创历史新高,中芯国际大涨14%,海光信息涨停。
资本市场的反应并不是对一句口号的追捧,而是看到了国产芯片在算力赛道上真正切入国际前沿的可能。DeepSeek的这句话,不仅被视作一次“技术换挡”的信号,更是国内算力产业链罕见的共振时刻。
DeepSeek这枚炸弹,到底是什么?
要理解“UE8M0 FP8”为何能引发如此大的关注,必须将其拆解为两个部分:作为本体的“FP8”和作为灵魂的“UE8M0”。FP8本身是一种将数字压缩到仅用8位(bit)来存储的浮点格式,旨在用更少的数据位宽降低AI大模型训练和推理中对显存带宽的空前压力。
而DeepSeek的模型一直使用的都是这个格式,但有一个问题,国内的芯片公司只有极少数GPU厂商原生支持FP8,比如摩尔线程,其旗舰产品MTT S5000就是国内首批原生支持FP8并大规模量产的GPU。大家普遍支持的都是FP16,这使得国产芯片在跑DeepSeek的模型时,性能至少会折损一半,所以,这也解释了为什么大家还是喜欢买英伟达的芯片,因为如果是过去的国产芯片,起手就已经不是“满血”了,更别说自己在本地调配时还有可能因为水平不足再降低性能。

图|豆包AI生成
有AI infra企业告诉凤凰网科技,解决方案就是在软件上做突破,国内有专门针对国产芯片做软件适配DeepSeek的企业,比如清程极智,其原则是让国产芯片在用DeepSeek时可以提升性能。
这里补充一个知识,纯粹的FP8(如常见的E4M3或E5M2格式)在动态范围和精度上存在固有权衡,处理具有极端大小值的复杂数据时仍可能面临精度损失或数值溢出的挑战。通俗地说,就是数据会有损,就像你压缩打包一批衣服,可以压到很小,但衣服会皱得厉害。
而真正的突破来自由Meta、谷歌等科技巨头推动的开放计算项目(OCP)所制定的MX(Microscaling)格式,其核心思想不再是整个张量共用一个大缩放因子,而是将其切分为微小的数据块,并为每个块单独配备一个轻量级的8位缩放因子,从而在保持8位存储效率的同时,动态范围扩展了数十倍。通俗地说,就是把一批衣服分开打包。
回到DeepSeek这次发布的“UE8M0”,正是MX格式中为每个数据块指定的那个关键缩放因子的数据格式。它是一种极为高效的8位指数表示法:“U”代表无符号(Unsigned),意味着它永远是一个正数,无需符号位;“E8”代表8个比特全部用于表示指数(Exponent);“M0”代表没有尾数(Mantissa)。用一个比喻来形容,UE8M0就像一个“只调档位、不调微刻度”的超级节能灯泡开关,就像AI芯片里的快进键。
这种“全指数”设计带来了两大根本性优势:其一,硬件在执行缩放(即数据还原)时异常简单快捷,只需进行简单的整数次幂运算(相当于直接移动二进制小数点),完全规避了复杂的浮点乘法与舍入操作,极大缩短了关键计算路径,提升了能效。
其二,其巨大的动态范围(从2⁻¹²⁷到2¹²⁸)足以确保任何数据块都能被恰到好处地缩放至FP8的表示范围内,从而几乎完全避免了因数值过大而溢出或过小而被舍入为零的信息损失问题,错误率曲线得以从高位大幅降至一条平坦的低水平线。
所以说UE8M0 FP8是让国产芯片在跑大模型,尤其是在跑DeepSeek的模型时——更快、更省、更能扛大数。
许多现有国产AI加速器并未原生支持完整的E4M3/E5M2 FP8计算单元,但其架构正在向支持块缩放(Block Scaling)的MX格式演进。UE8M0作为缩放因子,其本身格式极简,无需复杂的专用浮点乘法器即可实现,降低了硬件实现门槛。
更重要的是,它为突破“内存墙”提供了最优解:相较于传统的为每个数据块配备一个32位FP32缩放因子,UE8M0仅需追加8位,即可高效管理32个FP8数据,带宽开销骤降75%。这对于HBM带宽仍处于追赶阶段的国产芯片而言,是一项通过数据格式创新实现“带宽减负”的架构级优化,成为了在下一代竞争中实现效能跃升的关键技术路径。因此,这不仅是单纯的技术兼容,更是一次在主流标准框架内,通过前沿设计实现差异化竞争力的精准卡位。
中国算力产业正在迎来“顿悟时刻”
从产业层面看,DeepSeek的这次表态不只是一种技术选择,更是一次产业生态的确认。想想看,中国最好用的大模型产品与英伟达如此紧密地捆绑,本身是一件不乐观的事情,DeepSeek这一次的发布,可以看作一种渐进式的解绑,官方主动下场为国产芯片发展生态站位。
UE8M0 FP8的落地,也意味着国产算力厂商已经在浮点格式、编译器优化、训练框架适配等环节上实现全栈打通,这背后意味着长期积累的软硬件协同终于显现成果。
至于其所提到的下一代国产芯片是谁,凤凰网科技此前了解到的,目前成熟的头部国产芯片公司其实都与DeepSeek有所接触。另外,有不少本身都是支持FP8的,除了摩尔线程,今天涨得最凶猛的寒武纪,旗下的思元590以及最新690系列都支持。
凤凰网科技还了解到,摩尔线程的MUSA架构本就原生支持硬件FP8张量加速计算,现在还能够很好地支持UE8M0 FP8 Scale,利用硬件原生FP8,相对于传统的FP16计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。
所以说,其实利好谁并不需要猜测,因为DeepSeek此次就是要普遍支持国产芯片生态。
DeepSeek一句话背后,是对未来大模型算力效率的重新定义,也是国产芯片厂商获得国际话语权的起点。资本市场的集体狂欢,既有情绪成分,更折射出一个信号:中国芯片正迎来前所未有的窗口期,而这一次,它们有机会真正站到技术潮水的前沿。
本文来自微信公众号:凤凰网科技 (ID:ifeng_tech),作者:姜凡,编辑:董雨晴
相关攻略
在当前的人工智能(AI)盛宴中,似乎每个科技巨头都在不计后果地“砸重金”,确保不会在这场竞赛中落后。Meta首席执行官马克·扎克伯格也不例外,他正斥巨资确保Meta不会错过人工智能的“大好时机”。在
几天前,咱刚带大伙儿看过英伟达支援英特尔的逆袭爽文,世超都还没缓过来,前天老黄居然又搞了一波史无前例的大动作。这真不是咱夸大其词,天天非要整点大新闻。而是前天,英伟达放出计划,要掏出1000亿美元投
众所周知,最近两个月,淘宝搜索的AI化有了明显的提速趋势。8月,淘宝低调全量上线了“AI万能搜”产品;9月,淘宝“AI助手”传出内测消息、拍立淘的“AI找低价”也全量上线。这三个产品分别覆盖了传统搜
去年暑期,图灵奖得主、英国计算机科学家莱斯利·瓦利安特(Leslie Valiant)在北京出席2024国际基础科学大会(ICBS)时,获颁理论计算机与信息科学领域基础科学终身成就奖。瓦利安特在理论
近来百度搜索全面AI化,作为核心业务,内部称大搜,确如百度AIDay上所称,为十年来最大变化。然而众所周知,搜索的关键字零散,隐约指向用户的问题,而AI预期的Agent模式,能够辅助执行完整的任务,
热门专题
热门推荐
我国刀具市场发展调研报告 在当今制造业持续升级的背景下,市场调研报告的重要性日益凸显。一份结构清晰、数据翔实的报告,能为决策提供关键参考。以下这份关于我国刀具市场的调研报告,旨在梳理现状、剖析问题,并为未来发展提供借鉴。 当前,国内刀具年销售额约为145亿元,其中硬质合金刀具占比不足25%。这一比例
国内首份空净市场调研报告 在公众健康意识日益增强的今天,市场报告的重要性不言而喻。一份结构清晰、数据翔实的报告,能为行业描绘出精准的航图。那么,一份优秀的市场调研报告究竟该如何呈现?近期发布的这份国内空气净化器行业蓝皮书,或许能提供一个范本。 市场增长的势头有多强劲?数据显示,国内空气净化器市场正驶
水利工程供水管理调研报告 在各类报告日益成为工作常态的今天,撰写一份扎实的调研报告,关键在于厘清现状、找准问题、提出思路。这份关于水利工程供水管理的报告,旨在系统梳理情况,为后续决策提供参考。 一、基本情况 横跨区域的**水库及八座枢纽拦河闸,构成了**运河流域防洪与兴利供水的骨干工程体系。自投入运
财产保全申请书范本 一份规范的财产保全申请书,是启动财产保全程序的关键文书。其核心在于清晰、准确地列明各方信息、诉求与依据。通常,申请书的结构是固定的,但具体内容需要根据案件事实来填充。下面,我们通过几个典型的范本来拆解其中的要点。 篇一:通用格式范本 首先来看一个通用模板。这个模板清晰地勾勒出了申
“防台抗台”活动由学院的积极分子组成,他们踊跃报名,利用暑期时间奉献自己的青春,为社会尽一份力量。 带队的学院分团委书记吕老师点出了活动的深层价值:这不仅是一次能力锻炼,更是学生认识社会、融入社会并最终回馈社会的关键一步。经过这番历练,团队友谊愈发坚固,协作精神显著增强,感恩之心也油然而生。 青春洋





