西湖大学发布DICE模型 GPU核心生成专用扩散语言模型

首页

热心网友

转载

2026-05-14

2026年2月，一项由西湖大学、香港科技大学及罗彻斯特理工学院联合开展的研究，在AI代码生成领域取得了重要进展。其研究成果——论文arXiv:2602.11715v1——正式发布，介绍了一个名为DICE的扩散大语言模型系列。该模型专为生成高性能CUDA内核代码而设计，相当于为AI时代的“计算引擎设计师”提供了一套更为精密的专业工具。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

西湖大学团队推出DICE：首个专为GPU核心生成优化的扩散语言模型

在人工智能技术飞速迭代的今天，GPU已成为计算系统的核心引擎，而CUDA内核则是决定引擎效率的关键部件。传统的大语言模型在生成此类高度专业化、需要极致优化的代码时，往往表现不佳，如同让普通工匠打磨精密仪器的核心零件，难以兼顾整体架构与微观性能。DICE模型的诞生，正是为了攻克这一技术瓶颈。

从“逐字书写”到“整体勾勒”：扩散生成的新范式

DICE的核心技术创新在于其生成范式。它放弃了传统的“自回归”生成模式（即顺序预测下一个词元），转而采用“扩散”模型。形象地说：传统方式如同逐字逐句撰写文章，必须依赖前文才能构思后续；而扩散方式则像画家创作，先描绘出整体的构图与轮廓，再逐步细化、填充细节。对于编程这种强调整体逻辑结构、需要前后深度协同的任务，后一种方式在生成高质量、高性能代码方面展现出显著优势。

高质量的“教科书”：CuKe专用数据集

任何卓越的AI模型都离不开高质量训练数据的支撑。为此，研究团队精心构建了名为CuKe的专用数据集。这本“GPU高性能编程教科书”包含了6303个经过严格筛选的优质代码示例。其独特价值在于其筛选标准：仅收录那些经过实际验证、能带来至少2倍性能提升的优化案例。这意味着，模型从中学到的每一个“模式”和“技巧”，都是经过实战检验的效率提升策略，而非普通的代码片段。

循序渐进的“教学法”：双阶段精选强化学习

为确保DICE能够稳定、高效地学习，研究团队提出了创新的“双阶段精选强化学习”（BiC-RL）训练框架。该框架的设计理念类似于一套精心设计的进阶课程：

第一阶段为“内核填充”。模型面对的是一个不完整的代码框架，其核心任务是补全缺失的关键逻辑部分。这好比让学生先练习完成半成品的习题，专注于掌握核心算法与数据结构。

第二阶段为“端到端生成”。此时，模型需要从零开始，独立编写出完整的CUDA内核。经过第一阶段的针对性训练，模型已深入理解核心要领，从而能够更稳定地生成功能正确且性能优异的整体代码。这种方法有效规避了模型在训练初期因目标复杂而产生的“走捷径”行为（即生成语法正确但逻辑或性能无效的代码）。

实测表现：小身材，大能量

研究团队发布了三个不同参数规模的DICE模型：1.7B、4B和8B。在专业的KernelBench基准测试平台上，它们接受了全面评估。结果令人瞩目：DICE系列在所有难度级别上的表现，均显著优于同参数规模的其他主流代码生成模型。尤为突出的是，在某些任务中，参数规模较小的DICE模型甚至能够媲美或超越参数规模更大的通用商业模型。

在最困难的Level 3基准测试中，最大的DICE-8B模型取得了16%的功能正确率和8%的高性能代码生成率，这一成绩在该领域极具竞争力。而最小的DICE-1.7B模型也展现了出色的潜力，在多项任务中超越了更大的通用模型，充分证明了专业化架构设计带来的效率红利。

超越技术：启示与未来展望

DICE研究的价值，远不止于一项技术指标的突破。它至少为AI发展指明了两个重要方向：

首先，领域深度专业化是一条高效路径。与追求“大而全”的通用代码生成模型不同，DICE选择在“GPU内核优化”这一垂直领域进行深度挖掘。结果表明，这种深度聚焦策略能使模型在特定高价值任务上，以更小的参数量实现更优的性能。这为开发其他科学计算与工程领域的专用AI工具提供了清晰的范本。

其次，数据质量的重要性超越单纯的数量堆砌。研究过程中，团队发现使用经过精心筛选和验证的高质量数据（CuKe），比单纯使用海量但普通的代码数据对模型最终性能的提升更为显著。这对于计算资源有限的研究机构与应用场景，具有重要的方法论指导意义。

总而言之，DICE的成功标志着扩散模型在专业级代码生成领域的一次有力验证。它不仅是实现GPU编程自动化迈出的坚实一步，更象征着AI辅助工具正朝着更深入、更垂直的专业应用场景演进。未来，我们有望看到更多类似DICE的“专家型”AI助手，深入芯片设计、科学计算、金融建模等专业领域，成为人类专家不可或缺的智能协作伙伴。

Q&A

Q1：DICE模型是什么，它与普通的代码生成模型有什么不同？

A：DICE是由西湖大学等机构联合研发的、专门用于生成高性能CUDA内核代码的扩散语言模型。与普通的通用代码生成模型（如Codex、CodeLlama）不同，DICE专注于GPU并行计算这一特定领域，采用扩散生成范式而非传统的逐词自回归生成。这使得它能更好地理解和生成强调整体结构与性能优化的代码，在生成可直接用于加速计算的内核方面表现更为出色。

Q2：BiC-RL训练框架是如何工作的？

A：BiC-RL（双阶段精选强化学习）是一个分阶段的训练框架。第一阶段（内核填充）专注于让模型学习在给定的不完整代码骨架中，填充实现核心计算逻辑的部分。第二阶段（端到端生成）则训练模型从问题描述开始，生成完整的CUDA内核代码。这种由易到难、循序渐进的课程式训练，显著提升了模型学习的稳定性和最终生成代码的正确性与效率。

Q3：DICE在实际应用中能达到什么样的性能表现？

A：根据论文在KernelBench上的测试结果，DICE-8B模型在最困难的Level 3任务上达到了16%的功能正确率和8%的高性能代码生成率，性能显著超越同规模模型。即使是参数量最小的DICE-1.7B模型，在Level 1任务上也实现了24%的正确率，展现了优异的性价比。这证明DICE系列模型在不同计算预算下，都能为GPU内核开发提供有效的自动化辅助。

来源:https://www.techwalker.com/2026/0312/3180927.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：小米全能管家AI机器人发布开启能看会说会动新时代下一篇：上海创新研究院联合打造5B参数轻量级AI画师DeepGen 1.0