生成式 AI 的比拼越来越白热化,算力和调用成本始终是开发者心里那根最敏感的弦。最近,谷歌在开发者生态这边扔下了一颗重磅冲击波——部分账户的 Gemini API 免费配额大幅上调,某些模型的单分钟 Token 处理上限(TPM)直接冲到了 100 万大关。
具体来看,这次调整的覆盖面主要圈定在 Gemini 2.5 系列。其中,Gemini 2.5 Flash 和 Flash-Lite 这两款轻量模型,在部分账号上已经率先实现了 100 万 Token/分钟的吞吐能力。更让人心跳加速的是,这个免费层级依然延续了“免绑卡、不限总量”的超低门槛,对个人开发者和小团队来说,简直就是白给的试错空间。

不过,谷歌这次策略性扩容的“差异化”味道也很明显——不是所有人都能拿到这块顶配蛋糕,不同模型之间的性能限制依然存在。眼下,虽然 Token 处理上限松绑了不少,但各模型的请求频率限制(RPM)仍被压在每分钟 15 到 30 次之间,每日请求总量(RPD)也锁死在 1500 次。另外,作为系列里的高端选手,Pro 版本模型暂时还没挤进免费开放队列。
对注重隐私的开发者来说,有个细节千万不能忽略:谷歌在服务条款里白纸黑字写着,它有权利用免费层级的提示词和反馈内容来做模型训练。如果担心数据合规这块踩雷,可以通过官方的查询页面看看自己账户的具体额度,再根据业务敏感度决定要不要升级到付费版本。
行业里的普遍看法是,谷歌这一手不只是想用高规格的免费配额把开发者拉进自家 API 生态,更是为了在开源模型的冲击下,靠极致的性价比稳住推理服务的市场地位。随着这个免费策略慢慢铺开,个人开发者想捣鼓复杂 AI 应用的门槛,估计会被压得越来越低。
