谷歌DiffusionGemma模型文本生成速度提升4倍_AI热点日报

谷歌DiffusionGemma模型文本生成速度提升4倍

类型：热点整理2026-07-05

谷歌发布实验性开源模型DiffusionGemma，基于文本扩散架构实现并行文本生成，速度比传统自回归模型最高提升4倍。该模型为26B混合专家模型，推理仅激活3 8B参数，量化后可在18GB显存显卡部署，支持双向注意力，适合代码补全等低延迟任务，但生成质量不及Gemma4，已开源。

6月11日，谷歌正式发布了一款实验性开源模型——DiffusionGemma。该模型基于文本扩散架构打造，在专用GPU上运行时，文本生成速度相比传统自回归大语言模型最高可提升4倍。本质上，这是一次架构层面的创新：不再按顺序逐字生成，而是实现类似“同时书写多行”的并行输出。谷歌发布DiffusionGemma模型，文本生成速度提升4倍

具体来看，DiffusionGemma是一个参数量达26B的混合专家（MoE）模型，推理时仅需激活3.8B参数。经过量化处理后，它甚至能在配备18GB显存的消费级显卡上顺利部署。技术上最突出的亮点在于支持双向注意力机制，并能并行生成整段文本。这意味着在本地低并发场景下，延迟问题将得到大幅缓解——特别适用于代码补全、行内编辑等对响应实时性要求极高的交互任务。当然，谷歌也坦诚指出：DiffusionGemma目前仍是一个实验性研究项目，整体生成质量尚未达到标准版Gemma 4的水平。如果在生产环境中使用，现阶段仍推荐Gemma 4。目前，该模型的权重已依据Apache 2.0许可证在Hugging Face平台开源，并已兼容vLLM、Transformers等主流推理框架。对于希望尝鲜的开发者而言，上手门槛并不高。

来源：https://www.php.cn/faq/2642815.html?uid=1246273

谷歌

延伸阅读

补充最近整理过的热点入口。

谷歌DiffusionGemma模型文本生成速度提升4倍

相关热点

延伸阅读