西湖大学发布DICE模型 GPU核心生成专用扩散语言模型
2026年2月,一项由西湖大学、香港科技大学及罗彻斯特理工学院联合开展的研究,在AI代码生成领域取得了重要进展。其研究成果——论文arXiv:2602.11715v1——正式发布,介绍了一个名为DICE的扩散大语言模型系列。该模型专为生成高性能CUDA内核代码而设计,相当于为AI时代的“计算引擎设计师”提供了一套更为精密的专业工具。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

在人工智能技术飞速迭代的今天,GPU已成为计算系统的核心引擎,而CUDA内核则是决定引擎效率的关键部件。传统的大语言模型在生成此类高度专业化、需要极致优化的代码时,往往表现不佳,如同让普通工匠打磨精密仪器的核心零件,难以兼顾整体架构与微观性能。DICE模型的诞生,正是为了攻克这一技术瓶颈。
从“逐字书写”到“整体勾勒”:扩散生成的新范式
DICE的核心技术创新在于其生成范式。它放弃了传统的“自回归”生成模式(即顺序预测下一个词元),转而采用“扩散”模型。形象地说:传统方式如同逐字逐句撰写文章,必须依赖前文才能构思后续;而扩散方式则像画家创作,先描绘出整体的构图与轮廓,再逐步细化、填充细节。对于编程这种强调整体逻辑结构、需要前后深度协同的任务,后一种方式在生成高质量、高性能代码方面展现出显著优势。
高质量的“教科书”:CuKe专用数据集
任何卓越的AI模型都离不开高质量训练数据的支撑。为此,研究团队精心构建了名为CuKe的专用数据集。这本“GPU高性能编程教科书”包含了6303个经过严格筛选的优质代码示例。其独特价值在于其筛选标准:仅收录那些经过实际验证、能带来至少2倍性能提升的优化案例。这意味着,模型从中学到的每一个“模式”和“技巧”,都是经过实战检验的效率提升策略,而非普通的代码片段。
循序渐进的“教学法”:双阶段精选强化学习
为确保DICE能够稳定、高效地学习,研究团队提出了创新的“双阶段精选强化学习”(BiC-RL)训练框架。该框架的设计理念类似于一套精心设计的进阶课程:
第一阶段为“内核填充”。模型面对的是一个不完整的代码框架,其核心任务是补全缺失的关键逻辑部分。这好比让学生先练习完成半成品的习题,专注于掌握核心算法与数据结构。
第二阶段为“端到端生成”。此时,模型需要从零开始,独立编写出完整的CUDA内核。经过第一阶段的针对性训练,模型已深入理解核心要领,从而能够更稳定地生成功能正确且性能优异的整体代码。这种方法有效规避了模型在训练初期因目标复杂而产生的“走捷径”行为(即生成语法正确但逻辑或性能无效的代码)。
实测表现:小身材,大能量
研究团队发布了三个不同参数规模的DICE模型:1.7B、4B和8B。在专业的KernelBench基准测试平台上,它们接受了全面评估。结果令人瞩目:DICE系列在所有难度级别上的表现,均显著优于同参数规模的其他主流代码生成模型。尤为突出的是,在某些任务中,参数规模较小的DICE模型甚至能够媲美或超越参数规模更大的通用商业模型。
在最困难的Level 3基准测试中,最大的DICE-8B模型取得了16%的功能正确率和8%的高性能代码生成率,这一成绩在该领域极具竞争力。而最小的DICE-1.7B模型也展现了出色的潜力,在多项任务中超越了更大的通用模型,充分证明了专业化架构设计带来的效率红利。
超越技术:启示与未来展望
DICE研究的价值,远不止于一项技术指标的突破。它至少为AI发展指明了两个重要方向:
首先,领域深度专业化是一条高效路径。与追求“大而全”的通用代码生成模型不同,DICE选择在“GPU内核优化”这一垂直领域进行深度挖掘。结果表明,这种深度聚焦策略能使模型在特定高价值任务上,以更小的参数量实现更优的性能。这为开发其他科学计算与工程领域的专用AI工具提供了清晰的范本。
其次,数据质量的重要性超越单纯的数量堆砌。研究过程中,团队发现使用经过精心筛选和验证的高质量数据(CuKe),比单纯使用海量但普通的代码数据对模型最终性能的提升更为显著。这对于计算资源有限的研究机构与应用场景,具有重要的方法论指导意义。
总而言之,DICE的成功标志着扩散模型在专业级代码生成领域的一次有力验证。它不仅是实现GPU编程自动化迈出的坚实一步,更象征着AI辅助工具正朝着更深入、更垂直的专业应用场景演进。未来,我们有望看到更多类似DICE的“专家型”AI助手,深入芯片设计、科学计算、金融建模等专业领域,成为人类专家不可或缺的智能协作伙伴。
Q&A
Q1:DICE模型是什么,它与普通的代码生成模型有什么不同?
A:DICE是由西湖大学等机构联合研发的、专门用于生成高性能CUDA内核代码的扩散语言模型。与普通的通用代码生成模型(如Codex、CodeLlama)不同,DICE专注于GPU并行计算这一特定领域,采用扩散生成范式而非传统的逐词自回归生成。这使得它能更好地理解和生成强调整体结构与性能优化的代码,在生成可直接用于加速计算的内核方面表现更为出色。
Q2:BiC-RL训练框架是如何工作的?
A:BiC-RL(双阶段精选强化学习)是一个分阶段的训练框架。第一阶段(内核填充)专注于让模型学习在给定的不完整代码骨架中,填充实现核心计算逻辑的部分。第二阶段(端到端生成)则训练模型从问题描述开始,生成完整的CUDA内核代码。这种由易到难、循序渐进的课程式训练,显著提升了模型学习的稳定性和最终生成代码的正确性与效率。
Q3:DICE在实际应用中能达到什么样的性能表现?
A:根据论文在KernelBench上的测试结果,DICE-8B模型在最困难的Level 3任务上达到了16%的功能正确率和8%的高性能代码生成率,性能显著超越同规模模型。即使是参数量最小的DICE-1.7B模型,在Level 1任务上也实现了24%的正确率,展现了优异的性价比。这证明DICE系列模型在不同计算预算下,都能为GPU内核开发提供有效的自动化辅助。
相关攻略
2026年2月,一项由西湖大学、香港科技大学及罗彻斯特理工学院联合开展的研究,在AI代码生成领域取得了重要进展。其研究成果——论文arXiv:2602 11715v1——正式发布,介绍了一个名为DICE的扩散大语言模型系列。该模型专为生成高性能CUDA内核代码而设计,相当于为AI时代的“计算引擎设计
3月10日消息,据 IGN 报道,尽管 2025 年发售的《战地风云 6》创下了系列史上最佳首发纪录,但 EA 仍在对该系列开发团队进行裁员。此次裁员波及 Criterion、DICE、Ripple
《光与影:33号远征队》开发团队在获颁法国艺术与文学骑士勋章之后又荣获互动艺术与科学学院(Academy of Interactive Arts & Sciences)颁发的DICE年度游戏称号,并
1 月 9 日消息,第 29 届 DICE 年度游戏颁奖典礼将于 2026 年 2 月 12 日举行,互动艺术与科学学院(AIAS)正式已公布完整提名名单,《光与影:33 号远征队》、《羊蹄山之魂
12月29日消息,据Alinea Analytics发布新报告显示,瑞典这个人口仅有约1000万的国家正在迅速而悄然地主导整个游戏行业,根据该统计机构数据,瑞典在2025年底成为了今年Steam收入
热门专题
热门推荐
《恋与深空》温泉剧情推广视频因男主角半裸、女主角抚摸互动及喘息音效,被质疑内容露骨擦边。玩家意见分化,部分认为超出浪漫氛围,部分视为常见亲密刻画。官方已回应并处理举报。该游戏此前也曾因尺度问题引发讨论,此次争议再次引发对女性向恋爱游戏内容边界的探讨。
玩家可通过关注游戏官方渠道获取《烹饪牌局》公测信息,或利用游戏社区APP的订阅功能接收推送通知。此外,查询正规手游开测时间表也能了解测试计划。结合这些方法,可及时掌握游戏公测动态。
短线交易盈利5%到30%区间分批抛出较为合理。主流币目标常为5%-15%,小币种或高波动行情可放宽至20%-30%。需结合市场动态调整:震荡市5%-8%可止盈,牛市可设20%-30%目标并配合移动止盈,熊市反弹则3%-5%应果断卖出。可运用分批止盈技巧平衡风险与收益,并严格执行纪律,确保止盈止损相匹配。
索尼重申其PSPlus服务不会大规模采用新作首日入库模式,与XboxGamePass策略形成对比。其会员服务分层明确:基础档提供经典老游戏,进阶档主打历史游戏库,高级档侧重云游戏和复古体验。官方表示每年仅精选少数独立游戏首日入库,所有入库内容均经严格筛选,并借此平台为优质独立游戏提供曝光机会。
索尼解释PlayStation商店30%抽成是维系开发者生态的“关键投入”,超万名开发者参与其中。该抽成支撑着平台运营体系,但索尼因此面临反垄断诉讼,被指控滥用市场地位。目前PS5数字版游戏销量占比已达85%,玩家对商店依赖度显著上升。





