Gemini 3惊艳发布断崖领先马斯克OpenAI齐称赞

时间：2026-06-19 13:45

谷歌发布Gemini3，融合原生多模态、推理及Agent能力，基于自研TPU训练，支持100万token上下文。横扫主流评测集，1501Elo登顶LMArena，获OpenAI及马斯克称赞，已部署多平台。

谷歌旗下最强推理模型Gemini 3，于今日凌晨正式亮相。该模型集原生多模态、推理与Agent三大能力于一身，在业内较为罕见。官方表示，这是当前全球最先进的多模态理解模型，同时也是谷歌最强大的Agent编程与氛围编程模型——能够呈现更丰富的可视化效果和更深层次的交互体验，且完全基于最前沿的推理技术构建。

模型采用谷歌自研TPU训练，支持100万token上下文窗口，专为Agent、高级编程、长上下文理解、多模态分析、算法开发等场景打造。发布当天，Gemini 3几乎横扫所有主流评测集，以1501 Elo得分登顶LMArena大模型竞技场，成绩远超前代模型及竞品。

Gemini 3在LMArena榜单排名第一

有意思的是，OpenAI的Sam Altman和xAI的马斯克都第一时间发来祝贺。Altman发推评价“Gemini 3看起来很不错”，谷歌CEO皮查伊用一个表情包回复；马斯克则转发了DeepMind CEO哈萨比斯的推文称“干得不错”。

Sam Altman推特截图

埃隆·马斯克推特截图

从今天起，Gemini 3将在以下平台全面部署：Gemini应用所有用户（含AI模式中的Google AI Pro和Ultra订阅用户）、Gemini API开发者、全新Agent开发平台Antigra vity的开发者、Gemini CLI开发者，以及Vertex AI平台与Gemini企业版的企业用户。未来几周，谷歌还将向Google AI Ultra订阅者开放Gemini 3的深度思考模式，该功能目前仍在安全评估中。皮查伊认为，这一模型能让用户的任何想法变为现实。

01. 几分钟内即可创建交互游戏与应用

还能辅助学习新知识

Gemini 3的能力到底有多强？看看它几分钟内能做什么就明白了。

例如，它可以编写托卡马克装置中等离子体流的可视化代码，并创作一首捕捉核聚变物理原理的诗歌——同时兼顾理工与文艺风格。

托卡马克装置可视化代码示例

若想学习家族传统烹饪，Gemini 3能解读并翻译多语言手写食谱，直接生成可共享的家庭食谱册。

家庭食谱生成示例

想深入钻研新课题？输入学术论文、长视频讲座或教程，它能自动产出交互式抽认卡、可视化图表等多种格式代码，助你高效掌握知识。

交互式学习工具示例

匹克球爱好者也有福利：上传你的比赛视频，Gemini 3可以分析找出技术短板，并生成针对性的训练计划。

匹克球动作分析示例

在AI搜索模式下，Gemini 3能借助生成式用户界面，学习像RNA聚合酶作用机制这类复杂知识点。值得一提的是，这是谷歌首次在模型发布首日，就将新模型直接集成至AI搜索功能中。

AI搜索模式学习复杂知识示例

不仅如此，Gemini 3还能编写具有丰富可视化界面与互动性的复古3D飞船游戏，通过代码构建、解构与再创作精细的3D体素艺术，将用户的想象转化为现实。

3D飞船游戏示例

它甚至能利用着色器创建可玩的科幻世界，并生成更具实用性、元素丰富的互动性网页与应用。

实用App生成示例

02. 横扫评测榜单

刷新大模型能力天花板

再来看看硬核的基准测试结果。据谷歌博客介绍，Gemini 3 Pro在推理、多模态能力、Agent工具使用、多语种性能与长上下文等多项基准测试中接受了全面评估，主要AI基准测试成绩均大幅超越前代Gemini 2.5 Pro，并以1501 Elo得分高居LMArena大模型竞技场榜首。

Gemini 3 Pro基准测试结果图

该模型展现出博士级推理能力：在“人类终极测试”（不使用任何工具，得分37.5%）和GPQA钻石级测试中均斩获最高分，在MathArena Apex测试中取得23.4%的最新顶尖成绩。多模态方面，MMMU-Pro得分81%，Video-MMMU得分87.6%，SimpleQA Verify也获得了最高的72.1%。这意味着Gemini 3 Pro能够以高度可靠性解决涵盖科学、数学等广泛主题的复杂问题。

深度思考模式的提升更为显著：Gemini 3 Deep Think在“人类终极测试”中达到41.0%（未使用工具），在GPQA Diamond上拿到93.8%，在ARC-AGI-2（代码执行，ARC奖项认证）上取得45.1%——这些数字全面超越谷歌自家前代模型，以及OpenAI、Anthropic的竞品。

深度思考模式对比测试结果

编程能力方面，Gemini 3是谷歌迄今为止构建过的最佳氛围编程和Agent编程模型。它以1487 Elo得分登顶WebDev竞技场排行榜；在Terminal-Bench 2.0测试模型工具使用能力上，得分54.2%；在衡量编程Agent能力的SWE-bench Verified上，表现远超2.5 Pro。开发者可以在Google AI Studio、Vertex AI、Gemini CLI以及全新的Agent开发平台Google Antigra vity中使用它，还支持Cursor、GitHub、JetBrains、Manus、Replit等第三方平台。

自Gemini 2以来，谷歌在Agent方面已经取得不少进展，这次Gemini 3还登顶了Vending-Bench 2排行榜。该基准测试通过模拟自动售货机业务运营来考核模型的长期规划能力：结果显示，Gemini 3 Pro在一整年的模拟运营中，始终保持稳定的工具使用和决策连贯性，既未偏离任务目标，又实现了更高收益。

Vending-Bench 2测试结果

这意味着，Gemini 3能帮用户完成日常生活中的实际事务——比如预约本地服务，或者整理收件箱。

日常事务处理示例

03. 全新Agent开发平台登场

实现端到端软件开发自动化

今天谷歌还发布了全新的Agent开发平台：Google Antigra vity。借助Gemini 3的高级推理、工具使用及Agent编程能力，Antigra vity将AI辅助功能从开发者工具包里的一个普通工具，转变为积极主动的合作伙伴。

尽管核心仍是AI集成开发环境（AI IDE），但Antigra vity中的Agent已升级至专属界面，可以直接访问编辑器、终端和浏览器。这些Agent能够自主规划并同步执行复杂的端到端软件任务，同时对自身代码进行验证。除了Gemini 3 Pro，Antigra vity还将结合最新的Gemini 2.5 Computer Use模型，以及图像编辑模型Nano Banana。

一个直观的例子：借助Gemini 3，Antigra vity为航班追踪应用打造了端到端的Agent工作流。该Agent能够自主规划、编写应用代码，并通过基于浏览器的计算机操作来验证其执行效果。

端到端Agent工作流示例

最后，谷歌强调，Gemini 3是其迄今为止最安全的模型，经历了谷歌AI模型中最全面的安全评估。测评结果显示，其谄媚行为减少，对即时注入的抵抗力增强，对网络攻击滥用的防护也得到提升。

回顾时间线：从2023年12月Gemini 1发布至今已近两年。Gemini 1在原生多模态和长上下文窗口上实现了突破，扩展了可处理信息的种类和量级；Gemini 2帮助用户处理更复杂的任务和想法，使2.5 Pro版本在LMArena中领先超过六个月。如今，谷歌基于Gemini模型的搜索功能AI Overviews月活用户达20亿，Gemini应用月活用户超6.5亿，超过70%的云端客户使用谷歌AI功能，1300万开发者用其生成模型搭建了作品。

04. 结语：免费开放且性能飙升

Gemini 3撼动大模型竞争格局

相比前几代，Gemini 3的性能提升是质的飞跃。它能感知用户提示词中的细微线索和复杂问题，理解请求的背景和背后意图，让用户用更少的提示就能获得所需信息。谷歌在博客中提到，接下来的新篇章中，他们将继续突破智能、Agent和个性化的前沿，让AI真正惠及所有人。

随着Gemini 3正式亮相，加之谷歌此次直接免费开放使用权限，一场围绕大模型的新一轮行业竞争已经全面打响。压力，现在来到了同行这边。

来源：https://www.aiagiai.com/15169.html

上一篇全国首家7S店开业，人形机器人商业化线下体系成关键 下一篇ChatGPT最爱用的emoji暴露AI不想让你知道的秘密

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。