昨天Google正式发布了Gemma 3,这是他们Gemma系列模型的最新迭代。先说说这次最让人眼前一亮的几个点:轻量级、多模态、支持超过140种语言,而且参数量最大只有27B的版本,据说性能已经超越了DeepSeek V3。

说到这儿,不妨先划个重点。Gemma 3是Google基于Gemini技术构建的开放权重大语言模型系列,这次一口气发布了四个尺寸:1B、4B、12B和27B参数版本。其中1B版本只处理文本,而4B、12B和27B版本都可以同时处理图像和文本——没错,这次的多模态能力算是彻底拉满了。更关键的是,它们都拥有128K的上下文窗口,支持超过140种语言。
说实话,在端侧模型越做越强的当下,前有QwQ-32B,后有Gemma 3,两者叠加来看,未来在边缘设备上跑大模型已经没有太多障碍了。
Gemma 3简介
这次发布的Gemma 3系列包含四个参数版本:1B、4B、12B和27B。每个版本都提供了基础预训练模型和指令调优版本。4B、12B和27B版本可以处理图像和文本两种模态,1B版本则只限于文本。可以说,四种尺寸几乎覆盖了从边缘设备到服务器的全场景需求。
Gemma 3 的模型架构与训练方法
Gemma 3延续了Gemma系列的解码器专用Transformer架构,但这次在架构和训练上做了一些有意思的调整。具体来看——
-
架构与 Gemma 2 的差异
为了降低长上下文场景下的显存需求,Gemma 3在架构中交错使用了局部滑动窗口自注意力层和全局自注意力层,比例是5:1。也就是说,每5个局部层会布局1个全局层。局部层的跨度被限制在1024个token,只有全局层才处理长序列。这么做的好处很明显:添加了更多滑动窗口,能有效减轻KV缓存的负担。实验表明5:1的比例效果是最优的,7:1也能正常工作。滑动窗口大小设为1024,实验显示1024到2048之间的值都是可行的。
-
训练与后训练
Gemma 3的训练过程基于TPU集群,结合了Zero-3类算法与JAX框架。具体数据量上,27B版本在14万亿tokens上训练,12B版本是12T,4B版本是4T,1B版本则是2T。所有版本在强化学习(RL)和后训练阶段都使用了蒸馏技术——每个token采样了256个logits,来自更大的指令模型。强化学习阶段采用的算法包括BOND、WARM和WARP。
-
对话模板调整
这次的对话模板强制包含了BOS(Begin of Sentence)起始标记。格式上固定采用
和user 的写法。词汇表大小为262K,使用SentencePiece分词器,支持拆分数字、保留空格,并具备字节回退机制。model -
长上下文与视觉编码器
训练过程中从32K上下文逐步扩展到128K,上下文旋转位置编码(RoPE)缩放因子设为8。视觉编码器采用“Pan & Scan”算法,固定分辨率为896×896,在推理时通过窗口化处理来支持其他尺寸的图像输入。
-
多语言支持
为了让模型更好地面向全球用户,Gemma 3的预训练数据集包含了两倍于之前的多语言数据,以此提高语言覆盖率。分词器也与Gemini 2.0保持一致——262K条目的SentencePiece分词器,并采用了过滤技术来降低模型生成不安全内容的可能。新分词器对中文、日文和韩文文本的编码效率提升明显,当然英文和代码的标记数量也略有增加。
Gemma 3性能以及评估
Google声称,Gemma 3是目前“世界上最好的单翻跟斗模型”,在配备单个GPU的设备上,性能足以对标甚至超越Facebook的Llama、DeepSeek和OpenAI等竞争对手。具体到数据,Gemma 3 27B在Chatbot Arena Elo分数排名中仅次于DeepSeek-R1,超越了DeepSeek V3、OpenAI的o3-mini、Meta的Llama-405B和Mistral Large。
LMSYS Chatbot Arena评分
LMSYS Chatbot Arena的人类盲测评估结果中,Gemma 3 27B IT模型位居前十,Elo分数为1339。这个分数与o1-preview相当,并且高于其他非思维链开放模型。值得强调的是,这是Gemma 3仅处理文本输入时取得的分数——如果加上多模态能力,成绩可能会更耀眼。
标准基准测试
在标准基准测试中,Gemma 3 IT模型全面超越了Gemma 2和Gemini 2.0。MMLU-Pro(27B: 67.5)、LiveCodeBench(27B: 29.7)和Bird-SQL(27B: 54.4)等基准测试中表现可圈可点,与封闭的Gemini模型相比也不落下风。GPQA Diamond(27B: 42.4)和MATH(27B: 69.0)测试突显了其推理和数学能力,而FACTS Grounding(27B: 74.9)和MMMU(27B: 64.9)则展现了强大的事实接地能力。
Gemma 3 27B 在 pareto 甜点区
Google表示,Gemma 3 27B已经处于帕累托最优点——这个概念在AI领域指的是计算资源(成本)和性能(效果)之间的最佳平衡点。换言之,在同等算力代价下,Gemma 3 27B给出了当前所能获得的最高性能。这才是它真正的竞争力所在。
消融实验
研究团队进行了详细的消融实验,验证了局部/全局注意力层比例、滑动窗口大小、长上下文扩展、教师模型规模以及视觉编码器分辨率等架构和训练策略对模型效果和显存占用带来的影响。实验结果充分证明了Gemma 3架构设计的有效性,尤其是在降低KV-cache显存占用和支持长上下文方面,思路非常清晰——通过增加局部注意力层相对于全局注意力层的比例,并缩短局部注意力的跨度(仅1024个tokens),从根本上缓解了长上下文场景下KV缓存爆炸的问题。
Gemma 3总结
整体来看,Gemma 3作为Gemma系列的最新迭代,主要带来了以下几个关键进步:
- 多模态能力:整合了视觉理解能力,能够处理图像输入。它采用了SigLIP视觉编码器的定制化版本,将图像转换为模型可以理解的token序列。为了降低图像处理的计算成本,嵌入被压缩为固定大小,并以Pan & Scan (P&S)方法来应对不同分辨率的图像。
- 长上下文处理:显著提升了上下文处理能力,至少支持128K tokens,1B版本也支持32K tokens。通过增加局部注意力层与全局注意力层的比例、聚焦局部层的跨度,有效降低了长上下文带来的显存压力。
- 更广泛的语言覆盖:多语言能力得到强化,重新调整了训练数据的组成,增加了多语言数据占比。
- 卓越的表现:无论是预训练版本还是指令调优版本,都比Gemma 2更加出色。尤其是后期训练阶段的创新方法,让Gemma 3-4B-IT的表现就几乎追平Gemma 2-27B-IT,而Gemma 3-27B-IT甚至可以与Gemini 1.5-Pro一较高下。
- 开源发布:Google DeepMind将所有Gemma 3模型完整开源,供社区使用,这对于推动AI技术的普及和发展意义不小。
