Gemini小更新压制对手大迭代,谷歌AI实力再升级

01
Gemini 3.1 来了
2026年2月19日,Google发布Gemini 3.1 Pro。这是Google首次以".1"作为版本增量发布Gemini模型——此前的版本迭代均为0.5递进。
Google将此次更新定位为"核心推理能力的进步",其技术基础是上周Gemini 3 Deep Think更新中引入的"核心智能"架构。
在两项关键基准测试中,Gemini 3.1 Pro呈现显著性能提升。ARC-AGI-2测试得分77.1%,较Gemini 3 Pro的31.1%提升超过一倍。在Humanity's Last Exam测试中,Gemini 3.1 Pro得分44.4%,高于Gemini 3 Pro的37.5%和GPT-5.2的34.5%。

Artificial Analysis独立评测显示:整体智能维度Gemini 3.1 Pro以57分居首,Claude Opus 4.6以53分位列第二;编码能力Gemini 3.1 Pro以56分排名第一;Agentic任务方面Claude Opus 4.6以68分领先,Gemini 3.1 Pro为59分。

访问渠道已同步开放。开发者可通过Gemini API、Google AI Studio、Gemini CLI、Google Antigravity及Android Studio调用;企业用户可使用Vertex AI和Gemini Enterprise;普通消费者可在Gemini App和NotebookLM中使用,其中Pro和Ultra订阅用户享有更高额度。
此次更新最“吓人”的地方是,Google一个“超级小”版本的迭代,达到了其他家模型大迭代的效果。
当然版本号随便定,但这个信号背后,Google这样处理版号策略的调整——从0.5增量改为0.1增量——直接意味着Google将加快模型迭代节奏,以更细粒度的方式推送能力改进。
也就是,此前一段时间多少还比较淡定的Google,也要开卷了!
02
最新给出的惊艳案例:更智能,更美,更全面
在最新发布的演示中,四个案例展示了Gemini 3.1 Pro的代码生成能力。
第一个案例是将文学风格转化为 设计。系统以《呼啸山庄》为灵感,假设书中角色是一位风景摄影师,生成了一套完整的个人作品集 。视觉上, 采用了与小说氛围相符的色调和排版,将文学意境直接映射为界面元素。
自动播放第二个案例是3D椋鸟群飞模拟。用户可以通过界面交互控制鸟群的运动方向,鸟群的飞行动态会实时生成对应的音景,声音随鸟群密度和运动状态变化。这是一个将视觉、交互和音频整合在一起的完整演示。
自动播放第三个案例是国际空间站位置可视化。系统生成了一个HTML仪表盘,集成了第三方API获取的实时数据,在地图上显示空间站的当前位置和运行轨迹。这展示了模型处理外部数据接口的能力。
自动播放第四个案例是动画SVG生成。模型直接输出了可在网页中使用的动画SVG文件,这种矢量格式可以任意缩放而不损失画质,适合需要响应式设计的项目。
自动播放这些案例的共同特点是:它们都是完整的、可直接运行的代码产物,而非片段或伪代码。从文学作品到交互模拟,从数据可视化到图形生成,覆盖了不同的应用场景。模型在这些任务中的表现如何,读者可以自行判断。
Gemini 3.1 Pro的技术迭代,体现了一条务实的路径:在颠覆式重构不太会经常出现后,要追求对现有架构的精细化打磨。


架构层面延续了MoE路线,100万token的上下文窗口和64,000 token的输出上限维持不变。这个规模在当前的模型梯队中仍属头部,足以支撑长文档分析、代码库理解等场景。真正值得关注的,是推理机制的重构。
三层思考模式的引入,本质上是对"计算-质量-成本"三角关系的显式化管理。Low模式追求响应速度,适合高并发场景;High模式则调用完整推理能力,处理复杂问题可能需要数分钟——这种设计让用户能够根据任务难度主动权衡成本,而非被动接受统一计价。Medium层级的加入填补了此前的空白,为日常任务提供了更经济的中间选项。
同时,Deep Think技术也出现了“下放”,上周Gemini 3 Deep Think在ARC-AGI-2测试中取得84.6%成绩所依赖的"并行思考技术",已被整合进基础模型。这意味着模型能够同时探索多条解题路径,再通过内部评估筛选最优解。与此同时,原本用于Flash模型的强化学习技术也被迁移至Pro版本,这种技术栈的横向打通,比单纯的参数堆叠更有价值。
幻觉控制方面的进步也很关键。AA-Omniscience Index从13分跃升至30分,在主流模型中排名第一。这一指标衡量的是模型对自身知识边界的认知能力——知道"不知道什么",比知道"知道什么"更难,也更重要。
总体而言,Gemini 3.1 Pro的升级逻辑清晰:不追求单项指标的惊艳,而是在可控成本下,系统性地提升模型的可用性和可靠性。
03
榜单之外,更重要是Google也开始卷了
Gemini 3.1 Pro发布后,技术社区的声音呈现出明显的分化。
乐观派将目光投向了数据。ARC-AGI-2基准77.1%的得分被视为实质性突破——这不仅是上一代31.1%的两倍以上,也意味着模型在处理全新逻辑模式时的能力跃升。
幻觉抗性指标从Gemini 3 Pro的13跃升至30,远超Claude Opus 4.6的11,这一进步被开发者群体频繁提及。三层思考模式的设计也受到好评——让用户根据任务复杂度自主选择"快速/深度/深度+"模式,被认为是对控制权的合理让渡。
但质疑声同样值得倾听。Gartner分析师William McKeon-White的评价代表了一种审慎态度:"这是好的持续进步,但没有什么根本性的游戏规则改变者。"华盛顿大学教授Chirag Shah则提出了更深层的问题:更好的推理能力确实是处理复杂任务的必要条件,但并非充分条件——"更何况,'复杂'本身的定义就不明确。"LMArena的盲测数据也提供了另一种视角:3.1 Pro相比Gemini 3 Pro的提升幅度有限,在扩展文本和代码任务上仍落后于Claude。
中立观察者更关注宏观趋势。AI模型排行榜被形容为"抢椅子游戏"——Claude、Gemini、GPT轮流登顶,每次领先周期只有数周。发布节奏的密集同样引人注目:Anthropic Sonnet 4.6于2月17日发布,Google Gemini 3.1 Pro紧随其后于2月19日登场。一个被反复提及的观察是:基准分数与真实用户体验之间存在落差,排行榜上的领先不等于实际工作流中的优势。
其实,相比于在榜单上几个小数点的提升,更重要的是Google自己策略的更加激进化。
Gemini 3.1 Pro的发布,首先标志着Google产品策略的微妙转向。首次采用".1"版本号,意味着从过去追求"大版本震撼"的发布节奏,转向更贴近工程实际的持续迭代模式。
这种转变本身说明:AI竞赛已进入长跑阶段,单次爆发的窗口期正在收窄。在高端推理市场,Google终于拿出了与GPT-5.2和Claude正面交锋的产品,而其真正的护城河或许不在于模型本身,而在于Cloud和Workspace构成的企业基础设施——这是OpenAI和Anthropic短期内难以复制的。
从行业视角看,推理能力正在成为模型竞争的新高地。Gemini 3.1 Pro与Anthropic的发布时间间隔仅两天,这种以天为单位的跟进速度,反映出头部厂商的技术差距正在收窄。更具信号意义的是定价策略:最高性能模型的价格反而更低,这意味着价格战已从"性价比竞争"升级为"性能溢价消失"的新阶段。
Gemini 3.1 Pro定价为$4.50/百万token,低于GPT-5.2的$4.80、Claude Sonnet 4.6的$6和Claude Opus 4.6的$10。API定价分档:≤200K tokens时输入$2、输出$12;>200K tokens时输入$4、输出$18。
免费用户可直接在Gemini Web UI使用Gemini 3.1 Pro,无需订阅Gemini Advanced。
相关攻略
亚马逊按下“重启键”:下一代Alexa能否重夺AI语音王座? 科技圈又有新动静了。就在今天,亚马逊发出了人工智能主题活动的邀请函,时间定在2月26日。多方信源,包括路透社的报道均指向一个焦点:亚马逊计划在此次活动上,正式推出其下一代、基于生成式人工智能的Alexa服务。 话说回来,自2014年面世以
派欧算力云产品介绍 人工智能的浪潮正席卷各行各业,企业和开发者们面临一个共同的挑战:如何快速、经济且高效地获取AI算力,将创意迅速转化为市场产品?面对这一需求,一站式AI云服务平台——派欧算力云,提供了颇具吸引力的答案。本文将带你深入剖析派欧算力云的核心功能、独特优势以及应用路径,看它如何为企业的A
京东开源图像模型JoyAI-Image-Edit,从平面修图升级为三维空间重塑 4月7日,京东探索研究院正式宣布,开源自研的JoyAI-Image-Edit图像模型。这不仅是又一个开源工具,更标志着图像生成编辑技术的一次关键转向:从二维平面迈入了三维空间。 简单来说,这个模型被设计为业内首个将“空间
Anthropic启动Project Glasswing计划,集结科技巨头共筑软件安全防线 近日,人工智能公司Anthropic启动了一项名为“Project Glasswing”的新计划。这项计划的核心目标,是借助其尚未公开发布的Claude Mythos Preview模型,来加强全球关键软件基
就在 OpenAI 都停了 Sora,所有人以为 Seedance 2 0 要一统天下的时候,没想到不知哪里冒出来一匹马。 周二晚间,在知名 AI 评测分析平台 Artificial Analysis 上,一个代号为「HappyHorse-1 0」的神秘视频生成模型空降榜首,引发了 AI 社区热议。
热门专题
热门推荐
在文档数字化与智能处理领域,一款高效精准的在线工具能极大提升工作效率。今天重点评测的TextIn Tools,正是这样一个集OCR识别、格式转换于一体的全能型免费平台。它由上海合合信息科技开发,该公司在人工智能文字识别领域拥有超过17年的技术积累,实力深厚。我们熟悉的“扫描全能王”、“名片全能王”等
还在为制作PPT而烦恼吗?排版耗时、素材难寻、风格杂乱……这些常见困扰,或许一个智能工具就能高效化解。 WPS智能PPT,是一款基于先进人工智能技术的在线演示文稿辅助平台。其核心优势在于:用户仅需输入文本内容,内置的AI引擎便能自动进行视觉设计与美化,快速生成多种风格的精美版式供您挑选。这极大地简化
在追求高效办公的今天,各类AI工具不断涌现,但能够真正实现“一站式”智能集成的平台却屈指可数。本文将深入介绍的“超办AI”,正是这样一个致力于将多种AI能力深度融合,直接赋能日常工作效率的集成化平台。 超办AI是什么?一站式AI办公平台详解 简而言之,超办AI是一个智能办公解决方案平台。其核心理念非
学术灵感:AI驱动的中文论文写作辅助工具全解析 在科研写作过程中,从选题构思到初稿完成,研究者往往需要投入大量时间与精力。是否存在一种高效工具,能够在研究起点——即灵感激发与论文框架构建阶段——提供实质性帮助?本文将深入探讨的“学术灵感”平台,正是这样一款专注于中文论文写作场景的AI智能助手,旨在提
在视觉营销主导的数字化时代,一个名为“造物云”的在线3D营销设计平台正在重塑内容生产的规则。它本质上是一个基于浏览器的云端设计工具,其核心价值在于,让用户无需依赖复杂的专业软件或高昂的硬件,就能独立创作出具有商业摄影品质的3D渲染图片和动态视频。这为品牌营销、电商展示和社交媒体内容创作开辟了高效的新





