Gemma 4这次发布的版本阵容,覆盖了小杯到超大杯的全场景——从E2B、E4B,到26B A4B MoE,再到31B Dense,可以说是相当全面了。最关键的变化在于授权许可——这次改用Apache 2.0了,这绝对是最大的惊喜。
当然,真要评价这次的亮点,核心还是在小模型上。E2B和E4B在结构化输出、对话以及轻量级Agent场景里,目前反馈都还不错。举个实际例子,在6G显存的条件下,E2B的运行速度可以超过Qwen,实际体验也更顺畅,结构化输出的表现同样可圈可点。
到了26B和31B这个级别,如果把它们放在某些排行榜上对比,结果就很有意思了:26B版本可以作为Gemini 3.1 Flash Lite的平替,而31B版本则能直接对标Gemini 2.5 Pro。
从实际体验来看,26B A4B整体的速度和质量平衡会更实用。这个模型的形态很讨巧——总参数25.2B,推理时只激活3.8B,比31B Dense快得多,但质量却相对接近。看看公开benchmark的数据就知道了:
- 在Arena AI Text Leaderboard上,31B的Elo分数仅高出约10分
- 数学基准(如AIME)中,提升约1%
- 代码生成(LiveCodeBench)上,提升约2%~3%
- 高难推理(GPQA Diamond)中,提升约1%~2%
还有测试表明,26B A4B和Qwen 3.5 35B A3B的速度非常接近。比如在Mac Studio M1 Ultra上跑20k上下文长度,两者的速度基本相同(约1000pp、60tg,使用llama.cpp)。这也是为什么31B Dense版本不那么推荐的核心原因——生成速度慢了不少,长思考能力又不够稳定,上下文内存占用还高,综合表现反而不如Qwen 3.5-27B,幻觉问题也更突出。
说到Gemma 4,就不得不提它一开始就存在的硬伤:上下文占用资源过高。刚发布那会儿,没法像Qwen系列那样加载更长的上下文,LM Studio中的缓存量化也会出问题,导致模型不稳定,动不动就陷入循环。
更要命的是,Gemma-4-31B模型发布没多久,就有了越狱版本,安全限制被完全移除。这个名为Gemma-4-31B-JANG_4M-CRACK的破解模型已经公开发布在Hugging Face上了。
回过头来看,目前大多数好评还是集中在小模型上。这个领域要找到一个真正可用的模型实在不容易,尤其是E4B在结构化抽取任务上的表现。有用户把E4B微调到监管文档的JSON抽取任务上,基础模型在零微调的情况下就能达到100%的JSON格式正确率、75%的文档类型准确率。微调之后,准确率直接提升到94%,幻觉义务项从每份文档1.25条降到0.59条。这个底子,确实够扎实。
至于31B Dense版本,速度、上下文占用、推理稳定性方面的问题确实比较多,并没有像benchmark宣传得那么有优势。它更像是一个用来证明模型上限的技术演示版,而不是实际性价比之选。目前在31B这个级别上,还是Qwen更贴合现实应用场景。
有用户基于标准llama-bench基准测试和OpenCode进行了单次编码评估,在24GB显存的RTX 4090上跑出来的结果,也印证了这一点。
所以,现阶段想尝鲜的话,E2B和E4B值得一试,门槛很低。特别是通过Gemini Nano via AICore走Android系统AI Core(需要Pixel设备),有NPU或DSP支持,性能表现更上一层楼。
而26B MoE版本地速度快,属于这次发布的甜点区,性价比和可玩性都很突出,是最值得推荐的。至于31B版本,就见仁见智了——因为现在的测试数据碎片化太严重,很难给出一个绝对的判断。
