首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
谷歌Gemini小更新大超越,3.1%迭代碾压对手

谷歌Gemini小更新大超越,3.1%迭代碾压对手

热心网友
48
转载
2026-02-20


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

作者 | 王兆洋和他的 Kimi 2.5 Agent集群
邮箱 | wangzhaoyang@pingwest.com

1

Gemini 3.1 来了

2026年2月19日,Google发布Gemini 3.1 Pro。这是Google首次以".1"作为版本增量发布Gemini模型——此前的版本迭代均为0.5递进(1.0→1.5→2.0→2.5→3.0)。

Google将此次更新定位为"核心推理能力的进步"(a step forward in core reasoning),其技术基础是上周Gemini 3 Deep Think更新中引入的"核心智能"(core intelligence)架构。

在两项关键基准测试中,Gemini 3.1 Pro呈现显著性能提升。ARC-AGI-2测试得分77.1%,较Gemini 3 Pro的31.1%提升超过一倍。在Humanity's Last Exam测试中,Gemini 3.1 Pro得分44.4%,高于Gemini 3 Pro的37.5%和GPT-5.2的34.5%。


Artificial Analysis独立评测显示:整体智能维度Gemini 3.1 Pro以57分居首,Claude Opus 4.6以53分位列第二;编码能力Gemini 3.1 Pro以56分排名第一;Agentic任务方面Claude Opus 4.6以68分领先,Gemini 3.1 Pro为59分。


访问渠道已同步开放。开发者可通过Gemini API、Google AI Studio、Gemini CLI、Google Antigravity及Android Studio(预览版)调用;企业用户可使用Vertex AI和Gemini Enterprise;普通消费者可在Gemini App和NotebookLM中使用,其中Pro和Ultra订阅用户享有更高额度。

此次更新最“吓人”的地方是,Google一个“超级小”版本的迭代,达到了其他家模型大迭代的效果。

当然版本号随便定,但这个信号背后,Google这样处理版号策略的调整——从0.5增量改为0.1增量——直接意味着Google将加快模型迭代节奏,以更细粒度的方式推送能力改进。

也就是,此前一段时间多少还比较淡定的Google,也要开卷了!

1

最新给出的惊艳案例:更智能,更美,更全面

在最新发布的演示中,四个案例展示了Gemini 3.1 Pro的代码生成能力。

第一个案例是将文学风格转化为 设计。系统以《呼啸山庄》为灵感,假设书中角色是一位风景摄影师,生成了一套完整的个人作品集 。视觉上, 采用了与小说氛围相符的色调和排版,将文学意境直接映射为界面元素。

第二个案例是3D椋鸟群飞模拟。用户可以通过界面交互控制鸟群的运动方向,鸟群的飞行动态会实时生成对应的音景,声音随鸟群密度和运动状态变化。这是一个将视觉、交互和音频整合在一起的完整演示。

第三个案例是国际空间站位置可视化。系统生成了一个HTML仪表盘,集成了第三方API获取的实时数据,在地图上显示空间站的当前位置和运行轨迹。这展示了模型处理外部数据接口的能力。

第四个案例是动画SVG生成。模型直接输出了可在网页中使用的动画SVG文件,这种矢量格式可以任意缩放而不损失画质,适合需要响应式设计的项目。

这些案例的共同特点是:它们都是完整的、可直接运行的代码产物,而非片段或伪代码。从文学作品到交互模拟,从数据可视化到图形生成,覆盖了不同的应用场景。模型在这些任务中的表现如何,读者可以自行判断。

Gemini 3.1 Pro的技术迭代,体现了一条务实的路径:在颠覆式重构不太会经常出现后,要追求对现有架构的精细化打磨。



架构层面延续了MoE(混合专家)路线,100万token的上下文窗口和64,000 token的输出上限维持不变。这个规模在当前的模型梯队中仍属头部,足以支撑长文档分析、代码库理解等场景。真正值得关注的,是推理机制的重构。

三层思考模式(Low/Medium/High)的引入,本质上是对"计算-质量-成本"三角关系的显式化管理。Low模式追求响应速度,适合高并发场景;High模式则调用完整推理能力,处理复杂问题可能需要数分钟——这种设计让用户能够根据任务难度主动权衡成本,而非被动接受统一计价。Medium层级的加入填补了此前的空白,为日常任务提供了更经济的中间选项。

同时,Deep Think技术也出现了“下放”,上周Gemini 3 Deep Think在ARC-AGI-2测试中取得84.6%成绩所依赖的"并行思考技术",已被整合进基础模型。这意味着模型能够同时探索多条解题路径,再通过内部评估筛选最优解。与此同时,原本用于Flash模型的强化学习技术也被迁移至Pro版本,这种技术栈的横向打通,比单纯的参数堆叠更有价值。

幻觉控制方面的进步也很关键。AA-Omniscience Index从13分跃升至30分,在主流模型中排名第一。这一指标衡量的是模型对自身知识边界的认知能力——知道"不知道什么",比知道"知道什么"更难,也更重要。

总体而言,Gemini 3.1 Pro的升级逻辑清晰:不追求单项指标的惊艳,而是在可控成本下,系统性地提升模型的可用性和可靠性。

1

榜单之外,更重要是Google也开始卷了

Gemini 3.1 Pro发布后,技术社区的声音呈现出明显的分化。

乐观派将目光投向了数据。ARC-AGI-2基准77.1%的得分被视为实质性突破——这不仅是上一代31.1%的两倍以上,也意味着模型在处理全新逻辑模式时的能力跃升。

幻觉抗性指标(AA-Omniscience Index)从Gemini 3 Pro的13跃升至30,远超Claude Opus 4.6的11,这一进步被开发者群体频繁提及。三层思考模式的设计也受到好评——让用户根据任务复杂度自主选择"快速/深度/深度+"模式,被认为是对控制权的合理让渡。

但质疑声同样值得倾听。Gartner分析师William McKeon-White的评价代表了一种审慎态度:"这是好的持续进步,但没有什么根本性的游戏规则改变者。"华盛顿大学教授Chirag Shah则提出了更深层的问题:更好的推理能力确实是处理复杂任务的必要条件,但并非充分条件——"更何况,'复杂'本身的定义就不明确。"LMArena的盲测数据也提供了另一种视角:3.1 Pro相比Gemini 3 Pro的提升幅度有限,在扩展文本和代码任务上仍落后于Claude。

中立观察者更关注宏观趋势。AI模型排行榜被形容为"抢椅子游戏"——Claude、Gemini、GPT轮流登顶,每次领先周期只有数周。发布节奏的密集同样引人注目:Anthropic Sonnet 4.6于2月17日发布,Google Gemini 3.1 Pro紧随其后于2月19日登场。一个被反复提及的观察是:基准分数与真实用户体验之间存在落差,排行榜上的领先不等于实际工作流中的优势。

其实,相比于在榜单上几个小数点的提升,更重要的是Google自己策略的更加激进化。

Gemini 3.1 Pro的发布,首先标志着Google产品策略的微妙转向。首次采用".1"版本号,意味着从过去追求"大版本震撼"的发布节奏,转向更贴近工程实际的持续迭代模式。

这种转变本身说明:AI竞赛已进入长跑阶段,单次爆发的窗口期正在收窄。在高端推理市场,Google终于拿出了与GPT-5.2和Claude正面交锋的产品,而其真正的护城河或许不在于模型本身,而在于Cloud和Workspace构成的企业基础设施——这是OpenAI和Anthropic短期内难以复制的。

从行业视角看,推理能力正在成为模型竞争的新高地。Gemini 3.1 Pro与Anthropic的发布时间间隔仅两天,这种以天为单位的跟进速度,反映出头部厂商的技术差距正在收窄。更具信号意义的是定价策略:最高性能模型的价格反而更低,这意味着价格战已从"性价比竞争"升级为"性能溢价消失"的新阶段。

Gemini 3.1 Pro定价为$4.50/百万token(混合价格),低于GPT-5.2的$4.80、Claude Sonnet 4.6的$6和Claude Opus 4.6的$10。API定价分档:≤200K tokens时输入$2、输出$12;>200K tokens时输入$4、输出$18。

免费用户可直接在Gemini Web UI使用Gemini 3.1 Pro,无需订阅Gemini Advanced。


点个“爱心”,再走 吧

来源:https://www.163.com/dy/article/KM75IROQ0511N33R.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌 TurboQuant 算法遭质疑,中国博士后指其论文存在严重问题
业界动态
谷歌 TurboQuant 算法遭质疑,中国博士后指其论文存在严重问题

谷歌TurboQuant算法遭中国博士后质疑,论文争议点深度剖析 近日,AI模型压缩领域发生了一场引人关注的学术风波。事件的起因是谷歌研究院在3月25日重磅发布的全新极端压缩算法TurboQuant。该技术旨在破解大语言模型推理过程中的核心瓶颈——键值缓存(KV Cache)所导致的庞大内存占用问题

热心网友
04.01
OpenAI再上演资产大逃亡:别等ASI,模型已成流量诱饵
AI
OpenAI再上演资产大逃亡:别等ASI,模型已成流量诱饵

新智元报道编辑:倾倾【新智元导读】全世界都在等ASI降临,OpenAI却在年初悄悄上线广告位。9亿用户撑不起数百亿美元的算力账单,智力正在贬值,神仙也得下凡赚钱!2025年底,一份名为ChatGPT

热心网友
04.01
谷歌 Willow 量子处理器开放限量早期试用,加速商业化进程
业界动态
谷歌 Willow 量子处理器开放限量早期试用,加速商业化进程

谷歌Willow量子处理器启动限时早期访问,加速商业应用落地 近期,谷歌在量子计算领域的连续动作引发了业界广泛关注,其商业化节奏明显提速。从中性原子计算路径的探索,到后量子加密技术部署时间表的提前,一系列进展均显示出强烈的推进意图。而最新发布的 Willow 量子处理器限量早期访问计划,更被视为其从

热心网友
04.01
谷歌为 Pixel 10 等手机酝酿通勤模式:过滤通知、切换音频等
科技数码
谷歌为 Pixel 10 等手机酝酿通勤模式:过滤通知、切换音频等

谷歌 Pixel 手机将推“通勤模式”:智能优化公共交通出行体验 科技领域的最新动向显示,谷歌即将为其 Pixel 智能手机引入一项备受期待的新功能——“通勤模式”(Transit Mode)。该功能旨在深度优化用户在乘坐地铁、公交等公共交通工具时的手机使用体验,帮助乘客在嘈杂或拥挤的环境中更好地管

热心网友
04.01
谷歌翻译AI外语外教实测:每日学习督导机制详解
手机教程
谷歌翻译AI外语外教实测:每日学习督导机制详解

12 月 9 日消息,科技媒体 Android Authority 今天(12 月 9 日)发布博文,通过拆解谷歌翻译(Google Translate)安卓版 v9 29 安装包代码,发现了多项

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《洛克王国》世界圣羽翼王打法攻略-圣羽翼王技能与实战详解
游戏攻略
《洛克王国》世界圣羽翼王打法攻略-圣羽翼王技能与实战详解

速览攻略:世界圣羽翼王核心打法与全面解析 本攻略将为你完整呈现《洛克王国》世界圣羽翼王的通关秘籍,深度剖析两种高效实战打法:追求极致速度的“燃薪虫四回合速通”与稳定输出的“酷拉无限连击流”。文章将进一步解析这位翼系精灵王的技能机制、属性克制关系及其在PVE与PVP中的实战定位,帮助你彻底掌握应对其隐

热心网友
04.06
《异种航员2》工程系统详解-工作坊与资源管理指南
游戏攻略
《异种航员2》工程系统详解-工作坊与资源管理指南

速览:工程系统核心机制解析 在《异种航员2》中,工程系统是整个抵抗力量赖以运转的“战略后勤中枢”。无论是研发新武器、生产重型装甲还是制造先进飞行器,所有实体装备的产出都依赖于此。简言之,该系统的核心运作围绕着两大关键:工程师人力的高效配置与全球稀缺资源的精细化调度。工程师的数量直接决定了每个项目的建

热心网友
04.06
《洛克王国世界》治愈兔位置详解-任务与战斗关键精灵
游戏攻略
《洛克王国世界》治愈兔位置详解-任务与战斗关键精灵

核心速览 在《洛克王国世界》中,治愈兔是一位兼具功能性任务角色与实战辅助能力的精灵。它的价值不仅在剧情推进中体现,更在于对战里出色的治疗与防护表现。本文将为你全面解析治愈兔的精准获取位置、种族属性特点以及实战技能搭配,助你顺利捕捉并最大化其在队伍中的作用。所有关键信息将通过清晰的图文内容详细展示,确

热心网友
04.06
《红色沙漠》传说之狼打法-传说之狼击杀流程详解
游戏攻略
《红色沙漠》传说之狼打法-传说之狼击杀流程详解

速览 在《红色沙漠》中,挑战传说之狼这一强大的任务BOSS,需要玩家进行充分的准备并遵循完整的任务流程。整个过程环环相扣,你必须首先参与塞莱斯特家族的势力任务,通过完成任务将家族声望提升至指定等级,才能解锁【传说之狼】的专属讨伐任务,最终直面这个传说中的强大生物。 红色沙漠传说之狼怎么打 归根结底,

热心网友
04.06
《宝可梦Pokopia》舒适度提升攻略-环境等级与栖息地优化指南
游戏攻略
《宝可梦Pokopia》舒适度提升攻略-环境等级与栖息地优化指南

【宝可梦Pokopia】舒适度全解析:快速提升环境等级的核心秘诀 你是否正在探索《宝可梦Pokopia》世界,并希望有效提升宝可梦栖息地的舒适度?舒适度不仅是衡量宝可梦快乐程度的晴雨表,更是解锁游戏核心内容、加速发展的关键驱动指标。本攻略将系统性地为你揭示提升舒适度的核心途径,涵盖从装饰栖息地、建造

热心网友
04.06