具体来看,DiffusionGemma是一个参数量达26B的混合专家(MoE)模型,推理时仅需激活3.8B参数。经过量化处理后,它甚至能在配备18GB显存的消费级显卡上顺利部署。技术上最突出的亮点在于支持双向注意力机制,并能并行生成整段文本。这意味着在本地低并发场景下,延迟问题将得到大幅缓解——特别适用于代码补全、行内编辑等对响应实时性要求极高的交互任务。
当然,谷歌也坦诚指出:DiffusionGemma目前仍是一个实验性研究项目,整体生成质量尚未达到标准版Gemma 4的水平。如果在生产环境中使用,现阶段仍推荐Gemma 4。目前,该模型的权重已依据Apache 2.0许可证在Hugging Face平台开源,并已兼容vLLM、Transformers等主流推理框架。对于希望尝鲜的开发者而言,上手门槛并不高。谷歌DiffusionGemma模型文本生成速度提升4倍
谷歌发布实验性开源模型DiffusionGemma,基于文本扩散架构实现并行文本生成,速度比传统自回归模型最高提升4倍。该模型为26B混合专家模型,推理仅激活3 8B参数,量化后可在18GB显存显卡部署,支持双向注意力,适合代码补全等低延迟任务,但生成质量不及Gemma4,已开源。
6月11日,谷歌正式发布了一款实验性开源模型——DiffusionGemma。该模型基于文本扩散架构打造,在专用GPU上运行时,文本生成速度相比传统自回归大语言模型最高可提升4倍。本质上,这是一次架构层面的创新:不再按顺序逐字生成,而是实现类似“同时书写多行”的并行输出。
具体来看,DiffusionGemma是一个参数量达26B的混合专家(MoE)模型,推理时仅需激活3.8B参数。经过量化处理后,它甚至能在配备18GB显存的消费级显卡上顺利部署。技术上最突出的亮点在于支持双向注意力机制,并能并行生成整段文本。这意味着在本地低并发场景下,延迟问题将得到大幅缓解——特别适用于代码补全、行内编辑等对响应实时性要求极高的交互任务。
当然,谷歌也坦诚指出:DiffusionGemma目前仍是一个实验性研究项目,整体生成质量尚未达到标准版Gemma 4的水平。如果在生产环境中使用,现阶段仍推荐Gemma 4。目前,该模型的权重已依据Apache 2.0许可证在Hugging Face平台开源,并已兼容vLLM、Transformers等主流推理框架。对于希望尝鲜的开发者而言,上手门槛并不高。
具体来看,DiffusionGemma是一个参数量达26B的混合专家(MoE)模型,推理时仅需激活3.8B参数。经过量化处理后,它甚至能在配备18GB显存的消费级显卡上顺利部署。技术上最突出的亮点在于支持双向注意力机制,并能并行生成整段文本。这意味着在本地低并发场景下,延迟问题将得到大幅缓解——特别适用于代码补全、行内编辑等对响应实时性要求极高的交互任务。
当然,谷歌也坦诚指出:DiffusionGemma目前仍是一个实验性研究项目,整体生成质量尚未达到标准版Gemma 4的水平。如果在生产环境中使用,现阶段仍推荐Gemma 4。目前,该模型的权重已依据Apache 2.0许可证在Hugging Face平台开源,并已兼容vLLM、Transformers等主流推理框架。对于希望尝鲜的开发者而言,上手门槛并不高。来源:https://www.php.cn/faq/2642815.html?uid=1246273
相关热点
继续查看同栏目近期热点。
延伸阅读
补充最近整理过的热点入口。
