Gemini Pro 3.1新王登基：演示一口气操作Win11系统

首页

热心网友

转载

2026-02-23

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

性能暴增价格不变。

作者 |程茜江宇

编辑 |心缘

智东西2月20日消息，谷歌正式发布其新一代旗舰模型Gemini 3.1 Pro。根据谷歌放出的基准测试，谷歌最强复杂任务处理模型Gemini 3.1 Pro在12项测试中超过Gemini 3 Pro、Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.2等模型，拿下第一。

谷歌DeepMind主要提升了Gemini 3.1 Pro的推理能力。面对业界公认高难度的ARC-AGI-2通用智能基准测试，Gemini 3.1 Pro斩获77.1%的高分，超越Claude、GPT模型，且成绩相较Gemini 3 Pro实现翻倍提升。

去年9月加入谷歌DeepMind的清华物理系传奇人物姚顺宇（Shunyu Yao）也发文官宣了新模型发布，并称“更好的Gemini模型正以势不可挡的速度涌现”。

下面这一经典的“鹈鹕骑自行车SVG动画”对比，直观体现了新模型的能力提升，右侧Gemini 3.1 Pro生成的鹈鹕身体结构、骑行姿态自然合理，且自行车的车架、链条、脚踏、座椅等细节完整，相比Gemini 3 Pro的生成结果符合物理常识，更像一个完整的动画场景。

为Gemini 3.1开发SVG生成功能的清华校友Jiao Sun，在X上评论说“无比自豪”。

从今日起，Google AI Pro、Ultra订阅用户可以在Gemini应用、AI助手NotebookLM中使用Gemini 3.1 Pro，免费用户可向Gemini 3.1 Pro提问2次。开发者和企业用户可以在AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI及Android Studio的Gemini API预览版中使用Gemini 3.1 Pro。

Gemini 3.1 Pro预览版的API价格采用分级计费模式，与上一代Gemini 3 Pro预览版保持一致，提示词在20万token以内，每百万token输入价格2美元（约合人民币14元），输出价格12美元（约合人民币83元），提示词超过20万token，每百万token输入价格4美元（约合人民币28元），输出价格18美元（约合人民币124元）。

01.

能搭WebOS、能做《我的世界》

还能拆视觉错觉

Gemini 3.1 Pro的核心升级集中在复杂任务处理能力上。其博客透露，新模型在高级推理、多模态理解和复杂项目生成方面进一步强化，能够更好应对高难度工作场景。模型发布后，社区实测迅速跟进。

知名AI博主Chetaslua展示了其用Gemini 3.1 Pro一次性安装Windows 11 WebOS的结果。

Chetaslua在帖中直言：“上次我分享类似案例时还非常困难，现在已经变成常态。有了智能体系统，我们几乎可以用这个模型做任何事。”

他之前也发过用Gemini 3.0 Pro生成Windows Web操作系统的视频，两个视频放一起对比，提升效果非常明显。

Gemini 3.1 Pro生成的系统界面有完整应用图标、开始菜单样式布局以及基础窗口交互逻辑，整体形态更接近一个可运行的轻量级操作系统。

相比之下，之前3.0 Pro生成的系统形态相对简陋，一些基础桌面交互和系统级应用缺失。

另一组更偏工程化的案例显示，有开发者用Gemini 3.1 Pro在浏览器中直接生成并运行了一个可交互的VoxelWeb项目，形态类似“我的世界”式3D沙盒。

界面已包含启动按钮、移动控制、方块交互以及基础合成逻辑，具备完整的轻量沙盒雏形。

在前端生成与动画细节方面，也有开发者要求模型生成一段完整的交互式生长动画，覆盖种子发芽、根系形成、枝干生长到树叶展开的全过程。

实测结果显示，模型在生长阶段衔接与叶片细节上表现较为完整。该开发者评价称：“这是我在这个提示词下见过最好的树叶效果。”

视觉理解方向的测试则进一步拉高了难度。有网友专门验证“AgenticVision”能力，输入素材是一张看似普通的街头垃圾桶照片。

模型不仅完成了基础识别，还进一步指出：当眯眼或拉远观看时，画面中的垃圾、阴影与轮廓会在视觉上拼合成两个并排而坐的卡通角色。模型还逐项拆解了这一视觉错觉的形成机制，解释不同布料、垃圾袋与阴影分别对应角色的头部、身体与外轮廓关系，体现出多步视觉推理能力。

整体来看，Gemini 3.1 Pro已经开始触及空间关系理解、形状映射和视觉错觉解释等更高阶视觉认知任务。开发者给出的综合判断是，其表现已进入当前第一梯队水平。

我们还用“开车还是步行去距离100米的洗车店洗车”、“父母能否结婚”等陷阱题考了考Gemini 3.1 Pro，结果它都成功避坑答对。

02.

手搓《模拟城市》

创意编程、交互式设计分分钟搞定

谷歌DeepMind的最新X账号展示了谷歌UX工程师Michael Chang用Gemini 3.1 Pro开发了一个逼真的城市规划应用程序。Gemini 3.1 Pro能自己处理复杂地形、绘制基础设施图、模拟交通，最后生成高质量的可视化效果。

除了上面提到的鹈鹕骑自行车，Gemini 3.1 Pro在生成青蛙骑老式高轮自行车、长颈鹿驾驶微型汽车、鸵鸟穿着旱冰鞋等各种抽象画面的SVG动画上，表现也毫不逊色。相比Gemini 3 Pro，Gemini 3.1 Pro的生成效果整体场景更生动、更有故事感，细节表现力大幅提升。

如Gemini 3.1 Pro可以直接根据文本提示生成可用于的动画SVG，并且由于这些动画是用纯代码而非像素构建的，因此在任何尺寸下都能保持清晰，并且文件体积相比传统视频非常小。

Gemini 3.1 Pro的复杂推理能力，能帮助用户使用复杂API完成设计。如下面案例，该模型构建了一个实时航空航天仪表盘，成功配置了公共遥测数据流，以可视化国际空间站的轨道运行轨迹。

在交互式设计方面，Gemini 3.1 Pro可以编写代码，生成一个复杂的3D椋鸟群飞模拟。并且其还能构建沉浸式体验，用户可以通过手势追踪操控鸟群，同时聆听一段生成式配乐，音乐会随着鸟群的动态变化而改变。

Gemini3.1 Pro还能进行创意编程，将文学主题转化为可运行的代码。当被要求为艾米莉·勃朗特（Emily Brontë）的《呼啸山庄》构建一个现代个人作品集时，该模型深入分析了小说的氛围基调，设计出一个简洁现代的界面，打造出一个能捕捉主角精神内核的。

03.

编程、推理、多模态样样行

数项测试超Claude、GPT模型

研究人员在一系列基准测试中对Gemini 3.1 Pro进行了评估，包括推理、多模态能力、智能体工具使用、多语言性能和长上下文。

相比Gemini 3 Pro、Claude Sonnet 4.6、Claude Opus 4.6、GPT-5.2、GPT-5.3-Codex，Gemini 3.1 Pro在12项基准测试中拿下第一。

在需要更强推理能力的测试中，Gemini 3.1 Pro在人类最后的考试、ARC-AGI-2、GPQA Diamond 3项测试中，表现都优于Claude、GPT模型。

编程能力测试中，Gemini 3.1 Pro在SWE-Bench Pro（公开版）和SWE-Bench Verified中得分相对较低，这两大测试集考验的是模型在真实项目中理解需求、定位问题、修改代码、保证可用的端到端工程能力。

GDPval-AA Elo是当前衡量大模型在高价值知识工作中综合能力的相对评分体系，Gemini 3.1 Pro的表现优于GPT-5.2、GPT-5.3-Codex，仅次于Sonnet 4.6。

衡量大模型工具使用能力的τ2-bench、MCP Atlas、BrowseComp、多语言性能的MMLU、长上下能力的MRCR v2测试集中，新模型的表现同样优于其他模型。

在多模态大模型学术评测基准MMMU-Pro上，Gemini 3.1 Pro的表现比Claude、GPT模型更好，但略逊于Gemini 3 Pro。

04.

结语：大模型竞赛焦点

转向复杂任务落地能力

当前大模型行业正从通用能力比拼，转向真实世界复杂任务的实战能力竞争，海内外各家模型在推理、工程化、多模态理解等核心能力上不断发力突破，力求让大模型真正落地应用，与真实业务场景相结合。

谷歌近期的加速布局也是如此，其上周发布了Gemini 3 Deep Think模型升级、一周后又推出Gemini 3.1 Pro，都将模型的升级重点放在专业领域加速技术研发、解决实际工作中的复杂问题上。可以看出，当下大模型已经让更智能的大模型真正具备解决真实世界复杂任务能力，AI成为专业领域核心生产力的潜力增加。

来源:https://www.163.com/dy/article/KMFI1CUM051180F7.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：MiniMax春节发3T周调Tokens，热度登顶的疯狂策略解析下一篇：奥特曼反思AI训练：揭秘计算“人肉成本”背后的挑战