12月7日,英伟达正式推出CUDA 13.1版本,并将其定位为“自2006年CUDA平台诞生以来最大、最全面的一次升级”。
此次更新的核心亮点,在于引入了革命性的CUDA Tile编程模型。这标志着GPU编程范式迈入了一个全新且更抽象的崭新阶段。

传统的GPU编程基于SIMT(单指令多线程)模式,开发者需要关注线程、内存和同步等底层细节。
而CUDA Tile是一种基于tile(瓦片、数据块)的模型。开发者现在可以专注于将数据组织成块,并对这些数据块执行计算。底层的线程调度、内存布局以及硬件资源映射等复杂工作,则将由编译器和运行时自动处理。
为了支持Tile编程,CUDA 13.1引入了虚拟指令集(Tile IR),并配套发布了cuTile工具。该工具允许开发者使用Python来编写基于Tile的GPU内核程序。
这极大地降低了GPU编程的门槛,使得不熟悉传统CUDA C/C++或底层SIMT模型的数据科学家和研究人员,也能编写GPU加速代码。
需要明确的是,Tile编程并非要取代SIMT,而是提供了一个并存的备选路径。开发者可以根据具体应用场景,灵活选择最合适的编程模型。
CUDA 13.1的意义,不仅在于新增功能或优化性能,更在于为构建新一代高层、跨架构的GPU计算库和框架奠定了基础。通过引入Tile IR和高层抽象,英伟达在硬件与软件之间,增加了一个更厚实的中间层。
过去,英伟达的竞争对手(如AMD的ROCm、Intel的OneAPI)主要依赖兼容层来进行CUDA代码翻译。但对于CUDA Tile这种更高抽象层的新模式,单纯的代码翻译已远远不够。
竞争对手必须构建同样智能的编译器来处理Tile IR,这无疑增加了技术对齐的难度,客观上进一步提升了CUDA生态系统的粘性和用户锁定度。

