这是近期开源社区最具冲击力的一条消息:谷歌在巴黎开发者日上,正式将整个Gemma系列模型迭代到了第三代,并且原生支持多模态、128k上下文——没错,直接支持多模态。
Gemma 3一口气开源了四个参数版本:1B、4B、12B和27B。最值得关注的是,单个GPU或TPU就能跑起来。
之前刚用一台2000元出头的洋垃圾主机装上了通义千问QwQ 32B,虽然速度慢得像老太太散步,但至少能干活。现在Gemma 3来了,能不能也让这台机器跑一跑?

先列一下这台主机的成本明细:
- 2680V4 CPU:80元
- x99主板:200元
- 三线内存条32G:300元
- 二线固态硬盘500G:260元
- 不知名机箱:110元
- 1060显卡:540元
- 二线电源:360元
- 散热器:60元
- 总计:1910元
打开ollama官网一搜,发现Gemma 3已经光速上线了。那就直接上手,下载速度相当快,不到10分钟就搞定了。
ollama run gemma3
然而没跑起来——提示版本不对。原来ollama需要先升级?升级完成后,仔细一看,下载的其实是4B版本。先试试4B的推理速度,结果高达58token/s。那如果装上27B版本,理论上能跑到8token/s?
重新下载27B版本,这次花了整整4小时。输入提示词后等了一会儿没反应——仔细看,死机了。32G内存条完全被撑满,根本不够用。
直接买内存条来不及,热乎劲过去就没意思了。灵机一动:为什么不去租一台配置差不多的洋垃圾机器?那些搞虚拟机多开的小机房到处都是。
先找了一家销量高的,付完钱才发现要实名认证,还得露脸拍视频。租一天电脑就要搭上所有个人信息?果断申请退款。
深夜11点,终于遇到一位敬业的老板,沟通下来租到了一台配置基本相同、只是内存加到64G的机器——主机成本一下来到了2100元。
接下来的部署就顺利多了。下载模型还是慢,挂机等了一晚上。第二天早晨起床一看,又提示版本不对,这次升级后直接重启ollama就行。
输入熟悉的命令,成功跑起来了——速度1.85 token/s。
