谷歌Gemini升级版3.1 Pro低调发布:小更新与AI竞赛长跑逻辑
【CNMO】马年春节的热闹劲儿还没完全过去,国内的大模型战场正打得火热,硅谷那边也没闲着。就在行业还在消化上周Gemini 3 Deep Think、Claude Sonnet 4.6等一系列密集更新时,北京时间2月19日深夜,谷歌又毫无预兆地掷出了一枚“核弹”——Gemini 3.1 Pro正式上线。

对于关注AI动态的人来说,这个消息来得既突然,又在情理之中。毕竟,距离去年11月Gemini 3 Pro发布才刚过三个月。但真正耐人寻味的,不是发布节奏的加快,而是谷歌这次打出的牌:一个“.1”的小版本迭代,却实现了让竞争对手大版本更新都汗颜的性能跃升。
“.1”背后的野心:推理能力翻倍与“思考模式”的进化
Gemini 3.1 Pro的最新叙事非常聚焦:专为复杂任务而生,将机器的核心推理能力推向新高度。
数据是最直观的佐证。在衡量AI应对全新逻辑问题能力的 ARC-AGI-2 基准测试中,Gemini 3.1 Pro拿下了77.1% 的实测得分。这是什么概念?上一代Gemini 3 Pro的得分是31.1%。虽然业内对于ARC-AGI测试集是否可能出现在训练数据中仍存有谨慎的讨论,但超过一倍的增长,即便剔除“刷题”水分,其底层逻辑能力的精进也是不容小觑的。
另一个值得关注的维度是幻觉控制。在AA-Omniscience Index(衡量模型对自身知识边界认知能力的指标)上,Gemini 3.1 Pro从前代的13分跃升至30分,在主流模型中排名第一。这或许比单纯的跑分更具现实意义——在大模型从“玩具”走向“工具”的过程中,知道“我不知道”往往比强行生成一个似是而非的答案更重要。
如果说跑分只是纸上谈兵,那么“三层思考模式”(Low/Medium/High)的引入,则是谷歌在工程落地层面的一次精妙设计。这相当于给模型装了一个可调节的“算力旋钮”。
过去的模型是“一勺烩”,简单问答和复杂推理消耗的资源一样,成本和效率都不经济。现在,用户可以根据任务难度自主选择:日常闲聊用Low模式追求极速响应;复杂的数据分析或代码调试用High模式,让模型进入类似Deep Think的状态,花几分钟时间进行深度推理。这种对“计算-质量-成本”三角关系的显式化管理,体现的正是AI进入生产环境后的成熟度思维。
不止于“手搓”Demo:从代码生成到“氛围编程”
当然,技术参数的进步最终要回归到用户体验。这次谷歌及其合作方展示的一系列案例,比以往任何时候都更具“杀伤力”。
最直观的进化体现在视觉生成上。同样是生成“鹈鹕骑自行车”的SVG动画,Gemini 3 Pro生成的结果可能只是元素的堆砌,而Gemini 3.1 Pro生成的画面中,鹈鹕的身体结构、骑行姿态不仅更符合物理常识,甚至连自行车的链条、脚踏这些细节都清晰可见。
但这不仅仅是画质的提升,更是对复杂指令理解能力的跃迁。开发者们用实测证明了这一点:
有人让Gemini 3.1 Pro生成一个Windows 11风格的Web操作系统,结果它直接返回了一个包含完整图标、开始菜单和基础交互逻辑的可运行界面,与之前3.0 Pro生成的简陋形态形成鲜明对比。
还有人要求它为《呼啸山庄》设计一个现代风格的个人作品集 。模型不仅完成了代码编写,更令人惊叹的是,它似乎“读懂了”小说中那种阴郁、狂野的文学氛围,并将其转化为了 的色彩、排版和整体视觉语言。这被一些开发者称为“氛围编程”的开始——模型不再只是执行指令的工具,而是能理解意图的创意伙伴。
在更硬核的工程领域,Gemini 3.1 Pro也展示了其接入现实世界的能力。无论是直接接入公开遥测数据流,实时追踪国际空间站轨道的仪表盘,还是可交互的3D椋鸟群飞模拟,都证明了它在处理复杂API、构建完整应用方面的成熟度。
竞赛进入下半场:谷歌开始“卷”了,但卷的是“长跑”
面对Gemini 3.1 Pro的发布,技术社区的评价呈现出有趣的分化。乐观派看到了它在硬核基准上的全面领先:在Artificial Analysis的综合智能维度以57分居首,超越Claude Opus 4.6的53分;在科学知识测试GPQA Diamond上更是拿下94.3%的高分。
但质疑声同样存在。Gartner分析师William McKeon-White的评价代表了一种审慎态度:“这是好的持续进步,但没有什么根本性的游戏规则改变者。 ” 华盛顿大学教授Chirag Shah则进一步指出,更好的推理能力是处理复杂任务的必要条件,但并非充分条件,更何况“复杂”本身就是一个模糊的定义。
然而,如果我们跳出单纯的性能对比,从行业战略层面审视这次发布,会发现一个更值得关注的信号:谷歌的迭代策略开始变得空前激进。
这是谷歌首次在Gemini系列中使用“.1”作为版本增量。此前无论是从1.0到1.5,还是2.0到2.5,都是0.5的跨度。现在改为0.1的细粒度更新,意味着谷歌放弃了过去追求“大版本震撼”的发布模式,转向更贴近工程实际、更快速的持续迭代。
这种转变本身就说明了AI竞赛的残酷性:单次爆发的窗口期正在急剧收窄。 在Anthropic发布Sonnet 4.6仅两天后,谷歌就携3.1 Pro正面回击。头部厂商的技术差距正在肉眼可见地缩小,大家拼的不再是谁能憋出“王炸”,而是谁能以更快的速度、更稳的步伐进行“长跑”。
更耐人寻味的是定价。Gemini 3.1 Pro预览版的API价格与上一代完全持平:输入每百万tokens 2美元起,输出12美元起。这在一众涨价的竞品中显得尤为突出。Artificial Analysis算了一笔账:跑完其智能指数测试集,Gemini 3.1 Pro的花费还不到Claude Opus 4.6的一半。
当最强的模型不再伴随最高的溢价,这意味着大模型行业的竞争已经从“性能溢价”阶段,进入了“性能普惠”的新阶段。
结语:重新定义“王座”
有人说Gemini 3.1 Pro是来“抢王座”的。但在我看来,在这样一个每周都有新王登基的时代,“王座”本身的概念正在被消解。
过去,我们习惯于用一两个基准测试的榜首来定义王者。但今天,当谷歌用一个“.1”版本就实现了推理能力翻倍、幻觉率大幅下降,并将最强能力以最低价格推向市场时,它传递的信息其实是:AI竞赛的下一程,比的不是谁在领奖台上站得更高,而是谁能构建一个让开发者和企业真正愿意扎根的生态。
Gemini 3.1 Pro或许不是一个颠覆性的“游戏规则改变者”,但它清晰地划出了谷歌的赛道:凭借Google Cloud和Workspace构成的企业基础设施,以及对核心推理能力的持续打磨,谷歌正在向外界证明,它要做的是那个能满足企业所有模型需求的“一站式商店”。
AI的2026年,就这样在硅谷的你追我赶中拉开了序幕。DeepSeek们何时会再次出场“杀死比赛”仍是未知数,但可以确定的是,这场游戏的节奏,已经快到让所有人都必须屏住呼吸。
相关攻略
2026年凯度BrandZ全球品牌价值百强榜发布,全球百强品牌总价值达13 1万亿美元,同比增长22%。谷歌品牌价值飙升57%,超越苹果重登榜首,微软、亚马逊紧随其后,首次出现四个品牌价值同时突破万亿美元。AI成为关键驱动力,ChatGPT品牌价值同比暴涨285%,成为增速最快品牌,Claude首次
近日,谷歌正式揭晓了2022年度博士奖学金(Google PhD Fellowship)的获奖名单。今年,众多华人学者再次表现亮眼,在获奖总人数中占比接近30%,展现出强大的科研实力。 仔细查阅获奖者的学术背景,可以发现多位学者在本科或硕士阶段均在中国顶尖高校打下坚实的学术基础。他们的母校包括清华大
谷歌同意支付1 35亿美元和解一桩集体诉讼。该诉讼指控安卓系统未经用户同意通过移动网络传输数据,甚至在设备闲置时仍持续收集。和解方案已获法院批准,符合条件的美国安卓用户可提交赔偿申请。赔偿总额在扣除相关费用后,将由最多约1亿名符合条件的用户分配。
谷歌健康应用将上线,整合并取代Fitbit。部分功能将移除或调整:睡眠档案、鼾声检测等将整合;有氧健身评分更名为VO2max,计算方式更新;每日目标改为个性化每周目标;勋章系统取消;社交功能简化,移除私信与群组,旧版社交将于2026年5月锁定。迁移后用户可管理好友并参与新排名。
谷歌推出全新笔记本电脑Googlebook,以Gemini为核心深度整合安卓与ChromeOS生态。产品与宏碁、华硕等五大厂商合作,配备标志性Glowbar发光条。其引入MagicPointer智能光标,能感知意图提升效率,并支持动态生成桌面小组件。设备可实现安卓应用在电脑端流式运行,并支持跨设备无缝访问手机文件。谷歌同时承诺现有Chromebook将继续获
热门专题
热门推荐
钉钉文档官网 在探讨企业级协同办公解决方案时,钉钉文档无疑是备受瞩目的核心工具之一。作为阿里巴巴钉钉官方推出的旗舰级应用套件,它深度融合了在线文档编辑、智能表格、思维导图等多种高效创作工具。其核心优势在于与钉钉平台生态的无缝衔接,能够直接同步企业内部组织架构与通讯录,实现团队成员间的即时协作与信息流
在数字化转型浪潮中,高效、易用的数据分析工具已成为企业提升决策效率的关键。商汤科技推出的“办公小浣熊”智能助手,正是基于自研大语言模型打造的一款创新产品,旨在彻底降低数据分析的技术门槛。用户无需掌握编程知识或复杂操作,即可通过自然对话完成从数据查询、处理到可视化洞察的全流程,让数据价值触手可及。 办
在人工智能技术快速发展的今天,MiniMax作为一家专注于全栈自研的AI公司,正以其独特的技术路径和前瞻性的布局,在业界脱颖而出。公司致力于构建覆盖文本、图像、语音和视频的新一代多模态智能模型矩阵,这不仅体现了对核心底层技术自主权的深度掌控,也展现了对未来人机交互与内容生成形态的前瞻思考。 那么,M
ApolloCreditFund(ACRED)作为连接传统信贷与DeFi的桥梁,其价格受市场情绪、协议基本面及宏观环境影响。其价值逻辑根植于现实世界资产(RWA)的收益捕获与链上流动性释放。短期价格波动难以预测,但长期发展取决于信贷资产质量、协议安全性和市场采用度。投资者需关注其底层资产表现、代币经济模型及整个RWA赛道的发展趋势。
在数字化转型浪潮中,一套能够深度适配业务、彰显品牌特色的智能客服系统,已成为企业提升服务效率与用户体验的关键工具。然而,市场上许多解决方案往往模式固化,难以满足个性化需求。如何让AI客服不仅具备基础的自动化应答能力,更能承载独特的品牌文化与服务哲学?其核心在于系统是否支持深度的自定义与持续的AI训练





