英伟达CUDA Tile将如何再次革新AI计算格局?
在AI大模型轮番刷屏的这两年里,人们每次提到算力,都会首先想到英伟达显卡,但是很多人却不知道,想把英伟达的显卡算力变成生产力,可不仅仅是把显卡插进主板然后启动那么简单。而是需要为其准备一整套适配的软件、算法,才能真正发挥出显卡的性能,让它帮你完成工作。
而CUDA就是英伟达为此准备的一套软件生态,可以说是英伟达真正的护城河。前段时间,CUDA迎来了13.1版本更新,该版本也被英伟达称为自2006年CUDA发布以来最大规模的一次功能拓展。

图源:英伟达
在此次更新中,英伟达推出了全新的CUDA Tile编程模型,并且提供了一整套的配套工具、文档和调度特性。而在CUDA Tile更新后,不少著名半导体及AI从业者都表态点赞,认为将改变整个行业,估计有不少朋友就好奇了:一个编程模型的更新,为什么会影响整个AI行业?
CUDA Tile登场,“模块化”时代来了
如果只看“版本号+0.1”,很容易误以为 CUDA 13.1 只是例行升级,但翻完最新文档和版本说明后,小雷发现这次更新,几乎是“从编程模型到资源管理再到工具链”的全链路升级。
先来说说此次更新的核心CUDA Tile,到底带来了什么改变?简单来说,以前使用CUDA时,要自己管理threadIdx、blockIdx等核心变量,而且还要手动分配内存使用参数,然后再按SIMT模型进行展开,做针对性的编程。
而CUDA Tile则是直接在算法层面把数据切成单独的Tile(矩阵块),开发者只需要针对矩阵块的用途进行编程即可,至于后续矩阵块如何运转、是否需要调用 Tensor Core、TMA 等专用计算单元,就不需要开发者再去操心,由编译器和运行时系统在执行阶段自行决定。

图源:英伟达
为了支撑这个新模型,英伟达在CUDA 13.1里引入了一个新的虚拟指令集CUDA Tile IR,并在上层给出了cuTile Python这个DSL。得益于这两个新的开发工具,开发者可以直接用熟悉的Python写tile kernel(矩阵块内核),再由Tile IR负责落到底层硬件。
其实类似的做法在计算行业里并不少见,华为的昇腾AI处理器开发中,“Tiling”(图块化编程)也是关键步骤,用于将算子的输入数据分块,以适应NPU有限的片上内存,阿里的ATB框架同样采用了算子Tiling技术来优化深度学习计算,可以说核心思路都是为了降低开发及运行的成本,并提高效率。
除了Tile,CUDA 13.1还优化了不少基础功能模块,比如新的Green Contexts让GPU的SM(核心计算单元)按实际运行指令进行资源分割,让GPU可以优先满足低时延任务的资源需求,进一步强化云服务器对在线服务等方面的支持。
此外,Multi-Process Service也得到了针对性的增强,引入了MLOPart分区和静态SM分区模式,让多进程共享GPU资源时能够得到更准确的资源划分,对AI大模型这类混合负载为主的计算需求非常关键。
同时,英伟达还对数学库和工具链做了全面升级,cuBLAS现在可以提供了基于Tensor Core的FP32/FP64仿真GEMM(用FP16/INT8等低精度计算拼凑出高精度结果),在Blackwell这类GPU上提供加速双精度矩阵运算支持,让主流的Transformer、MoE等AI模型可以进一步压榨GPU性能。

可以说,CUDA 13.1几乎从头到尾都做了更新和升级,以至于很多开发者都用:“一个新时代的到来”去形容此次更新。在这次版本更新后,手写线程索引的时代算是结束了,甚至有人认为这次更新的意义不亚于从汇编到Python,因为它将CUDA开发的门槛明显拉低。
大家可以这么理解,以前编写CUDA的库和工具等玩意时,等于要开发者从一根线缆开始把一台汽车组装起来,虽然零件都是现成的,但是如果在拼装过程中出现了一些小BUG,你就得在一箩筐的零件里找出有问题的,然后再替换,费时费力不说还对开发者的知识储备有极高的要求。
而在CUDA 13.1之后,等于把汽车拆解成引擎、座椅、传动结构、轮胎等完整的子系统,你只需要决定这些系统的各自参数和功能,然后把它们拼在一起,就可以变成一个完整的程序运行。

图源:英伟达
对于AI行业来说,这也意味着想深度编译CUDA程序,不再只能指望少数掌握了CUDA C++工程师,普通的开发者也可以通过阅读英伟达提供的技术手册来按部就班的部署。
而且,Tile IR本身就是一套虚拟指令集架构,相当于在CUDA生态中再加入一个中间层,让开发者不再需要面向底层硬件进行开发,只要后续英伟达在更新硬件时做好后端适配,应用层就可以通过Tile IR直接适配新硬件,等于直接抹去了更换硬件所带来的重新适配成本。
不过也有开发者对此表示担忧,认为一旦CUDA Tile的性能表现不如预期,那么想再进行深度调试会麻烦,因为届时开发者看到的都是一堆抽象的Tile运算,无法像以前一样直接触及底层指令。
但是在小雷看来,CUDA开发的简易化是不可阻挡的趋势,英伟达不可能还会走回头路的。而且,CUDA 13.1并没有剔除传统SIMT开发工具,两者其实是并存的,对于开发者来说仍然可以用传统方法来进一步优化程序。
CUDA 13.1的更新,就是给所有AI开发者递上了新的“万用工具箱”,对于整个行业来说都是重大的利好,也难怪有人认为这是“新时代的到来”。
护城河or突破口?AI生态大战即将到来
随着CUDA 13.1的更新,针对AI生态的讨论也再次引起了大家的关注,过去的AMD ROCm、Intel oneAPI也好,中国厂商的自研GPU也罢,很多都是在CUDA的基础上,通过转编译来打造适配自家生态的版本。
或许有人觉得,这不就是抄袭吗?确实,不过也是无奈之举,CUDA作为最成熟的AI生态,拥有最广泛的设备兼容性,其他生态想追赶,那就只能选择“站在巨人的肩膀上”,才有可能成功,面对这种涉及到根本利益和未来话语权的争夺,手段尽出才是王道。

图源:英伟达
但是CUDA Tile的到来,或许会让这套适配体系变得更加困难,因为开发者一旦习惯用Tile IR+cuTile写代码,真正面对的接口就不再是具体线程、寄存器和block等工具,而是一整套Tile语义。
有开发者表示,想要兼容这套生态未来不仅要翻译语法,还要重建一套理解tile运算、映射到自家指令集和计算核心的编译器,等于是被迫从“抄CUDA代码”变成“抄 CUDA 编译器”,难度和成本都翻倍。
不过也有人给出了不同的看法,传奇芯片架构师Jim Keller(苹果A系列芯片、AMD Zen架构、特斯拉FSD芯片的开发者)认为CUDA Tile或许会加速CUDA的护城河消失。
看起来很匪夷所思,对吧?而Jim Keller的理由则是CUDA的优势是建立在其完善的库和框架的基础上,但是过高的上手门槛阻挡了大多数开发者。而CUDA Tile将让Tiling将成为CUDA生态的主流,另一边,业界的大多数主流AI生态其实早就转向了Tiling。
换言之,Tiling是大家更熟悉的工具,只需要先解决好CUDA Tile代码与其他Tiling 体系之间的互译问题,开发者就可以非常轻松地将CUDA软件移植到其他AI芯片生态中,而不必再从底层结构开始重新梳理。
从这个角度来看,Jim Keller的观点确实是有道理的,不过关键点就在于其他厂商是否愿意继续跟随英伟达,打造一个适用于CUDA Tile的移植工具。其实国内也有厂商在全盘复刻CUDA生态,比如刚刚上市的摩尔线程,他们的MUSA生态的目标就是在国产GPU上打造一个类似于CUDA的平台,让同一套软件能在图形、计算、多媒体和AI等多个产品线上复用。

图源:摩尔线程
为了解决生态问题,摩尔线程打造了一套MUSA SDK,里面包括运行时、编译器、GPU 加速数学库、神经网络库和通信库,并提供MUSIFY这样的迁移工具,允许开发者将CUDA代码直接转成MUSA版本,并且配备了一系列的专用库来减少开发者切换生态的成本。
而在接下来的时间里,摩尔线程也需要考虑如何重建MUSA生态对CUDA生态的适配,并进一步拓展其对国产芯片的适配性。如果摩尔线程可以整合好生态,那么也可以更好承接CUDA生态的国产化,成为国产AI生态的基座之一。
当然,要面对这个问题的也不止摩尔线程,英特尔、AMD等其他芯片企业也是一样的。不管怎样,接下来几年里,围绕AI生态展开的博弈只会变得更加激烈。英伟达希望进一步加深与AI行业的捆绑,而其他厂商则要在追赶CUDA生态的同时构筑自己的护城河,一场没有硝烟的战争已然到来。
雷科技2025“年度灯塔产品榜”评选启动!致敬堪称“科技之光、时代大作”的科技产品,欢迎关注~



相关攻略
过去一年,科技行业的权力格局正在悄然重塑。曾经在人工智能浪潮中略显被动的谷歌母公司Alphabet,如今已强势转身,成为几乎在AI技术各个层面都握有重要筹码的巨头。而现在,它正将目光投向一个更具象征意义的王座——超越芯片霸主英伟达,问鼎全球市值第一的宝座。 行情数据揭示了这场竞赛的激烈程度。截至上周
芯片巨头英伟达正从一家纯粹的芯片制造商,全面转型为AI生态的深度投资者。自2026年以来,其公开承诺的股权投资金额已突破400亿美元,覆盖了从基础设施到模型应用的AI全产业链。然而,这一激进的资本扩张策略也引发了市场的广泛讨论,有观点质疑,英伟达是否正在用自身的资产负债表,支撑起整个AI产业的非自然
英伟达CEO黄仁勋近日被拍到在北京蜜雪冰城门店购买饮品,品尝后竖起大拇指。随后,蜜雪冰城CEO疑似在朋友圈隔空回应,以“最顶级的显卡需要最纯粹的散热方式”幽默玩梗。品牌官方微博也迅速跟进,发布融合显卡、皮衣元素的海报进行互动,确认了“黄仁勋同款”饮品。这一系列趣味联动,展现了消费品牌与科技热点结合的
瑞银报告指出,英特尔EMIB-T先进封装技术有望凭借其成本与设计灵活性优势,进入英伟达下一代RubinUltraAI芯片供应链。该技术通过在基板嵌入硅桥连接芯片,无需昂贵中介层,适合大规模集成。分析认为,4芯片版本的RubinUltra可能采用此方案,但最终落地仍取决于英伟达的决策以及基板产能
据外媒Tweak Town最新报道,英特尔CEO已公开确认,与英伟达的深度合作仍在积极推进。这无疑是自双方约八个月前宣布战略合作以来,最明确、最受关注的官方进展信号。 回顾此前公布的合作蓝图,双方的合作主要锚定在数据中心与消费级PC两大核心战场。具体来看,英特尔将为英伟达的AI基础设施定制x86至强
热门专题
热门推荐
在亚马逊FBA运营中,商品入仓前正确粘贴FNSKU标签是至关重要的第一步。这串看似简单的条形码,直接决定了库存的精准识别、订单的准确履行,更是构建品牌库存护城河、有效防止跟卖的核心防线。切勿轻视——标签打印模糊、粘贴位置错误,极易导致货物被FBA仓库拒收,甚至引发库存数据混乱,造成不必要的损失。 本
在《逸剑风云决》的武侠世界中,玩家时常会遭遇身陷重围、濒临绝境的危机时刻。而就在这胜负将分的紧要关头,有时会有一股神秘力量骤然介入,彻底扭转战局——那便是行事诡秘的厂卫。他们的登场,绝非寻常的“援军抵达”,更像是一把精心设计的钥匙,悄然开启了江湖帷幕背后,那重更为错综复杂、暗流涌动的剧情篇章。 逸剑
《绝地求生》第41赛季已全面开启,备受玩家关注的“电波干扰背包”迎来了自上线以来最大规模的机制重做。官方更新日志已经发布,本文将为您深入解析本次调整的核心要点与实战影响,帮助您在新赛季中精准掌握这件战术装备的全新玩法。 简而言之,本次更新的核心理念是“风险与收益的再平衡”。开发团队显然评估了该背包在
打造一套高胜率的绯月絮语阵容,核心在于角色间的精准定位与战术协同。这不仅仅是简单堆砌高战力角色,更需要深入理解各位置的战略职能,以及他们如何通过技能组合产生“1+1>2”的团队效应。 核心输出角色的选择 阵容的战术轴心通常由一至两位核心输出角色奠定。例如,以极致单体爆发见长的[角色名 1],其终结技
在跨境电商领域,Temu凭借其独特的全托管模式和强大的供应链整合能力,已成为众多卖家出海拓展业务的重要选择。然而,不少卖家在准备入驻时,常被一个看似简单的系统提示所阻碍——“注册码长度为15位”,导致注册流程中断,甚至可能错失快速开店的宝贵时机。 本文将深入解析此问题的根本原因,并提供一套清晰、可操





