谷歌Gemini小更新大超越，3.1%迭代碾压对手

时间：2026-02-20 13:29

作者｜王兆洋和他的 Kimi 2 5 Agent集群邮箱｜ wangzhaoyang@pingwest com1Gemini 3 1 来了2026年2月19日，Google发布Gemini

作者｜王兆洋和他的 Kimi 2.5 Agent集群
邮箱｜ wangzhaoyang@pingwest.com

Gemini 3.1 来了

2026年2月19日，Google发布Gemini 3.1 Pro。这是Google首次以".1"作为版本增量发布Gemini模型——此前的版本迭代均为0.5递进（1.0→1.5→2.0→2.5→3.0）。

Google将此次更新定位为"核心推理能力的进步"（a step forward in core reasoning），其技术基础是上周Gemini 3 Deep Think更新中引入的"核心智能"（core intelligence）架构。

在两项关键基准测试中，Gemini 3.1 Pro呈现显著性能提升。ARC-AGI-2测试得分77.1%，较Gemini 3 Pro的31.1%提升超过一倍。在Humanity's Last Exam测试中，Gemini 3.1 Pro得分44.4%，高于Gemini 3 Pro的37.5%和GPT-5.2的34.5%。

Artificial Analysis独立评测显示：整体智能维度Gemini 3.1 Pro以57分居首，Claude Opus 4.6以53分位列第二；编码能力Gemini 3.1 Pro以56分排名第一；Agentic任务方面Claude Opus 4.6以68分领先，Gemini 3.1 Pro为59分。

访问渠道已同步开放。开发者可通过Gemini API、Google AI Studio、Gemini CLI、Google Antigravity及Android Studio（预览版）调用；企业用户可使用Vertex AI和Gemini Enterprise；普通消费者可在Gemini App和NotebookLM中使用，其中Pro和Ultra订阅用户享有更高额度。

此次更新最“吓人”的地方是，Google一个“超级小”版本的迭代，达到了其他家模型大迭代的效果。

当然版本号随便定，但这个信号背后，Google这样处理版号策略的调整——从0.5增量改为0.1增量——直接意味着Google将加快模型迭代节奏，以更细粒度的方式推送能力改进。

也就是，此前一段时间多少还比较淡定的Google，也要开卷了！

最新给出的惊艳案例：更智能，更美，更全面

在最新发布的演示中，四个案例展示了Gemini 3.1 Pro的代码生成能力。

第一个案例是将文学风格转化为设计。系统以《呼啸山庄》为灵感，假设书中角色是一位风景摄影师，生成了一套完整的个人作品集。视觉上，采用了与小说氛围相符的色调和排版，将文学意境直接映射为界面元素。

第二个案例是3D椋鸟群飞模拟。用户可以通过界面交互控制鸟群的运动方向，鸟群的飞行动态会实时生成对应的音景，声音随鸟群密度和运动状态变化。这是一个将视觉、交互和音频整合在一起的完整演示。

第三个案例是国际空间站位置可视化。系统生成了一个HTML仪表盘，集成了第三方API获取的实时数据，在地图上显示空间站的当前位置和运行轨迹。这展示了模型处理外部数据接口的能力。

第四个案例是动画SVG生成。模型直接输出了可在网页中使用的动画SVG文件，这种矢量格式可以任意缩放而不损失画质，适合需要响应式设计的项目。

这些案例的共同特点是：它们都是完整的、可直接运行的代码产物，而非片段或伪代码。从文学作品到交互模拟，从数据可视化到图形生成，覆盖了不同的应用场景。模型在这些任务中的表现如何，读者可以自行判断。

Gemini 3.1 Pro的技术迭代，体现了一条务实的路径：在颠覆式重构不太会经常出现后，要追求对现有架构的精细化打磨。

架构层面延续了MoE（混合专家）路线，100万token的上下文窗口和64,000 token的输出上限维持不变。这个规模在当前的模型梯队中仍属头部，足以支撑长文档分析、代码库理解等场景。真正值得关注的，是推理机制的重构。

三层思考模式（Low/Medium/High）的引入，本质上是对"计算-质量-成本"三角关系的显式化管理。Low模式追求响应速度，适合高并发场景；High模式则调用完整推理能力，处理复杂问题可能需要数分钟——这种设计让用户能够根据任务难度主动权衡成本，而非被动接受统一计价。Medium层级的加入填补了此前的空白，为日常任务提供了更经济的中间选项。

同时，Deep Think技术也出现了“下放”，上周Gemini 3 Deep Think在ARC-AGI-2测试中取得84.6%成绩所依赖的"并行思考技术"，已被整合进基础模型。这意味着模型能够同时探索多条解题路径，再通过内部评估筛选最优解。与此同时，原本用于Flash模型的强化学习技术也被迁移至Pro版本，这种技术栈的横向打通，比单纯的参数堆叠更有价值。

幻觉控制方面的进步也很关键。AA-Omniscience Index从13分跃升至30分，在主流模型中排名第一。这一指标衡量的是模型对自身知识边界的认知能力——知道"不知道什么"，比知道"知道什么"更难，也更重要。

总体而言，Gemini 3.1 Pro的升级逻辑清晰：不追求单项指标的惊艳，而是在可控成本下，系统性地提升模型的可用性和可靠性。

榜单之外，更重要是Google也开始卷了

Gemini 3.1 Pro发布后，技术社区的声音呈现出明显的分化。

乐观派将目光投向了数据。ARC-AGI-2基准77.1%的得分被视为实质性突破——这不仅是上一代31.1%的两倍以上，也意味着模型在处理全新逻辑模式时的能力跃升。

幻觉抗性指标（AA-Omniscience Index）从Gemini 3 Pro的13跃升至30，远超Claude Opus 4.6的11，这一进步被开发者群体频繁提及。三层思考模式的设计也受到好评——让用户根据任务复杂度自主选择"快速/深度/深度+"模式，被认为是对控制权的合理让渡。

但质疑声同样值得倾听。Gartner分析师William McKeon-White的评价代表了一种审慎态度："这是好的持续进步，但没有什么根本性的游戏规则改变者。"华盛顿大学教授Chirag Shah则提出了更深层的问题：更好的推理能力确实是处理复杂任务的必要条件，但并非充分条件——"更何况，'复杂'本身的定义就不明确。"LMArena的盲测数据也提供了另一种视角：3.1 Pro相比Gemini 3 Pro的提升幅度有限，在扩展文本和代码任务上仍落后于Claude。

中立观察者更关注宏观趋势。AI模型排行榜被形容为"抢椅子游戏"——Claude、Gemini、GPT轮流登顶，每次领先周期只有数周。发布节奏的密集同样引人注目：Anthropic Sonnet 4.6于2月17日发布，Google Gemini 3.1 Pro紧随其后于2月19日登场。一个被反复提及的观察是：基准分数与真实用户体验之间存在落差，排行榜上的领先不等于实际工作流中的优势。

其实，相比于在榜单上几个小数点的提升，更重要的是Google自己策略的更加激进化。

Gemini 3.1 Pro的发布，首先标志着Google产品策略的微妙转向。首次采用".1"版本号，意味着从过去追求"大版本震撼"的发布节奏，转向更贴近工程实际的持续迭代模式。

这种转变本身说明：AI竞赛已进入长跑阶段，单次爆发的窗口期正在收窄。在高端推理市场，Google终于拿出了与GPT-5.2和Claude正面交锋的产品，而其真正的护城河或许不在于模型本身，而在于Cloud和Workspace构成的企业基础设施——这是OpenAI和Anthropic短期内难以复制的。

从行业视角看，推理能力正在成为模型竞争的新高地。Gemini 3.1 Pro与Anthropic的发布时间间隔仅两天，这种以天为单位的跟进速度，反映出头部厂商的技术差距正在收窄。更具信号意义的是定价策略：最高性能模型的价格反而更低，这意味着价格战已从"性价比竞争"升级为"性能溢价消失"的新阶段。

Gemini 3.1 Pro定价为$4.50/百万token（混合价格），低于GPT-5.2的$4.80、Claude Sonnet 4.6的$6和Claude Opus 4.6的$10。API定价分档：≤200K tokens时输入$2、输出$12；>200K tokens时输入$4、输出$18。

免费用户可直接在Gemini Web UI使用Gemini 3.1 Pro，无需订阅Gemini Advanced。