游乐游手机版
首页/AI教程/文章详情

英伟达CUDA史上最大版本更新正式发布

时间:2026-06-19 13:48
CUDA13 1更新:NsightSystems追踪增强;cuBLAS分组GEMM支持Blackwell,MoE推理提速4倍;cuSPARSE推出新SpMVOpAPI;cuFFT提供设备端cuFFDAPI;cuSOLVER批处理特征分解性能翻倍;CCCL新增确定性浮点运算及简化单步CUBAPI。

先聊聊大家最关心的工具链更新——Nsight Systems。这次CUDA Toolkit 13.1同步发布的Nsight Systems 2025.6.1,在追踪能力上做了几项非常实用的增强。系统级CUDA追踪方面,开启cuda-trace-scope参数后,就能追踪到跨进程甚至整个系统的行为,调试视野一下子开阔了许多。主机函数追踪也补全了,现在cudaGraph里的主机函数节点和cudaLaunchHostFunc()都能被追踪到——这些函数在主机上执行,并且会阻塞stream,追踪它们对于理解异步逻辑至关重要。CUDA硬件追踪在支持的环境下已经作为默认模式启用,如果想切回软件模式,只需添加--trace=cuda-sw参数即可。此外,Green Context时间轴行现在会在tooltip中显示SM的分配情况,GPU资源是否被充分利用,看一眼便一目了然。

数学库更新亮点

CUDA工具箱中的几个核心数学库,这次也迎来了新特性。

cuBLAS方面,推出了一个实验性的新API,专为Blackwell GPU的分组GEMM操作设计,支持FP8和BF16/FP16数据类型。更值得一提的是,针对这些数据类型,分组GEMM在CUDA Graph中可以实现无需主机同步的计算,依靠设备端的形状动态调度,在MoE推理等场景下,比传统的多流GEMM快了最高4倍。

cuSPARSE也发布了一个全新的稀疏矩阵向量乘法API,名为SpMVOp。相比之下,原有的CsrMV API性能已被它远远超越。该API支持CSR格式、32位索引、双精度,并允许用户自定义后缀操作。

cuFFT方面,则提供了一套全新的设备端API——cuFFD设备API。这本质上是一组C++头文件中的主机函数,可用于查询或生成设备功能代码以及相关的数据库元数据。这套API专为cuFFTDx库设计,让开发者通过cuFFT直接生成cuFFTDx的代码块,然后链接到应用中,性能自然得到提升。

cuBLAS Blackwell 性能表现

说到Blackwell架构,最早在CUDA 12.9中就已引入块缩放的FP4和FP8矩阵乘法。到了CUDA 13.1,这些数据类型加上BF16的性能支持已全面铺开。图2展示了Blackwell和Hopper平台上的加速比实测结果,数值十分直观。

在 NVIDIA Blackwell 和 Hopper 平台上的加速比

cuSOLVER Blackwell 性能提升

cuSOLVER在CUDA 13.1中继续优化其批处理特征分解API,主要是SYEVDGEEV,性能提升显著。

批处理SYEV(全称 cusolverDnXsyevBatched)专为解决大量小矩阵的并行求解问题而设计。图3的测试在批大小5000、矩阵行数24到256的条件下进行。与NVIDIA L40S相比,Blackwell RTX Pro 6000 Server Edition几乎快了一倍,这一加速比大致与内存带宽的提升吻合。

在批大小为 5000(矩阵行数 24–256)的测试结果

具体到数据细节:无论是复数单精度还是实数单精度,当矩阵行数N=5时,加速比约为1.5倍,然后随着行数增大持续上升,到N=250时稳定达到2.0倍。

再来看看cusolverDnXgeev(GEEV),该函数处理非对称稠密矩阵的特征值和特征向量。它是一个CPU/GPU混合算法,CPU单线程负责QR算法中早期降阶的高效处理,GPU则承担其余繁重任务。图4给出了矩阵大小从1024到32768的相对加速比。

cusolverDnXgeev(GEEV) 的性能加速比

数据很实在:矩阵行数n=5000时,加速比刚好1.0,随着规模扩大逐渐攀升,到n=30000时达到约1.7倍。

NVIDIA CUDA 核心计算库更新

CCCL这次为CUB带来了两个非常实用的更新。

确定性浮点运算简化

浮点数加法不满足结合律会出现什么后果?历史上cub::DeviceReduce为了保证同一GPU每次运行结果逐位一致,被迫采用了两遍算法。CUDA 13.1搭载的CCCL 3.1现在提供了三个选项,让你在确定性和性能之间自由选择:

  • 不保证:使用原子操作进行单次归约,结果不会逐位相同。
  • GPU间:基于NVIDIA GTC 2024大会上Kate Clark的演讲成果。结果保证逐位一致。

通过一个标志位即可切换这些模式,代码编写非常直接。

演示代码

数据对比

更便捷的单相 CUB API

另一个痛点也得到了解决。几乎所有CUB算法都需要临时存储空间,过去开发者必须走一套两阶段模式:先查询临时存储大小,再分配空间,最后释放。这套流程复杂且容易出错——两次调用之间参数稍有不对应,就会出问题。CCCL 3.1为接受内存资源的CUB算法增加了新的重载,直接将临时存储的查询、分配、释放合并为一个步骤,这才是真正的“一次搞定”。

演示代码

来源:https://www.aiagiai.com/15387.html
上一篇液态玻璃缔造者艾伦戴伊跳槽Meta AI硬件战争开打 下一篇微软31年老员工被裁六旬老将重新踏上求职路
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
Claude Token节省十大实用技巧方案
AI教程 · 2026-07-04

Claude Token节省十大实用技巧方案

通过编辑而非追加消息、每15-20条消息开新对话、合并问题、利用Projects缓存、预设记忆、关闭附加功能、按任务选择模型、分散时段、避开高峰及开启超额使用,能有效减少上下文重读,节省Token。

硅基流动冲刺Token工厂第一股亏损反更值钱?
AI教程 · 2026-07-04

硅基流动冲刺Token工厂第一股亏损反更值钱?

硅基流动冲刺港交所“Token工厂第一股”,2025年营收5533万元,净亏损3 45亿元,毛利率-24%。两条业务线分化:公有云服务亏损严重,本地部署毛利率达82 5%。依赖中立第三方定位吸引资本,但面临原厂降价、大厂竞争及供应链风险,估值77亿背后存隐忧。

AI Agent的真正价值在于长在业务流程中
AI教程 · 2026-07-04

AI Agent的真正价值在于长在业务流程中

AIAgent需嵌入企业业务流程,而非仅作聊天工具。以零售品类管理为例,通过趋势识别、选品与货架规划,预计可带来2%—5%销售提升及10%P&L改善。设计需模块化、可整合,确保可解释性,重新界定人、AI与工具的关系。

后张雪峰时代大厂抢滩AI志愿填报
AI教程 · 2026-07-04

后张雪峰时代大厂抢滩AI志愿填报

AI高考志愿填报工具在大厂推动下普及,能快速整合信息、生成方案,但存在数据幻觉、同质化风险。它无法替代张雪峰式实用主义建议和信誉责任,志愿填报仍需个性化判断与深度信息。

阿里禁用Anthropic全系产品的理性风控决策
AI教程 · 2026-07-04

阿里禁用Anthropic全系产品的理性风控决策

阿里自7月10日起全员禁用Anthropic全系产品,因其ClaudeCode被发现存在隐蔽身份识别与隐写标记机制,且Anthropic曾指控阿里进行模型蒸馏。此举源于安全信任崩塌、中美AI博弈加剧,阿里同步换装自研工具Qoder,推动国产AI编码工具替代。