首页 游戏 软件 资讯 排行榜 专题
首页
AI
Gemini Pro 3.1新王登基:演示一口气操作Win11系统

Gemini Pro 3.1新王登基:演示一口气操作Win11系统

热心网友
93
转载
2026-02-23



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

性能暴增价格不变。

作者 |程茜 江宇

编辑 |心缘

智东西2月20日消息,谷歌正式发布其新一代旗舰模型Gemini 3.1 Pro。根据谷歌放出的基准测试,谷歌最强复杂任务处理模型Gemini 3.1 Pro在12项测试中超过Gemini 3 Pro、Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.2等模型,拿下第一。



谷歌DeepMind主要提升了Gemini 3.1 Pro的推理能力。面对业界公认高难度的ARC-AGI-2通用智能基准测试,Gemini 3.1 Pro斩获77.1%的高分,超越Claude、GPT模型,且成绩相较Gemini 3 Pro实现翻倍提升。

去年9月加入谷歌DeepMind的清华物理系传奇人物姚顺宇(Shunyu Yao)也发文官宣了新模型发布,并称“更好的Gemini模型正以势不可挡的速度涌现”。



下面这一经典的“鹈鹕骑自行车SVG动画”对比,直观体现了新模型的能力提升,右侧Gemini 3.1 Pro生成的鹈鹕身体结构、骑行姿态自然合理,且自行车的车架、链条、脚踏、座椅等细节完整,相比Gemini 3 Pro的生成结果符合物理常识,更像一个完整的动画场景。



为Gemini 3.1开发SVG生成功能的清华校友Jiao Sun,在X上评论说“无比自豪”。

从今日起,Google AI Pro、Ultra订阅用户可以在Gemini应用、AI助手NotebookLM中使用Gemini 3.1 Pro,免费用户可向Gemini 3.1 Pro提问2次。开发者和企业用户可以在AI Studio、Antigravity、Vertex AI、Gemini Enterprise、Gemini CLI及Android Studio的Gemini API预览版中使用Gemini 3.1 Pro。

Gemini 3.1 Pro预览版的API价格采用分级计费模式,与上一代Gemini 3 Pro预览版保持一致,提示词在20万token以内,每百万token输入价格2美元(约合人民币14元),输出价格12美元(约合人民币83元),提示词超过20万token,每百万token输入价格4美元(约合人民币28元),输出价格18美元(约合人民币124元)。



01.

能搭WebOS、能做《我的世界》

还能拆视觉错觉

Gemini 3.1 Pro的核心升级集中在复杂任务处理能力上。其博客透露,新模型在高级推理、多模态理解和复杂项目生成方面进一步强化,能够更好应对高难度工作场景。模型发布后,社区实测迅速跟进。

知名AI博主Chetaslua展示了其用Gemini 3.1 Pro一次性安装Windows 11 WebOS的结果。

Chetaslua在帖中直言:“上次我分享类似案例时还非常困难,现在已经变成常态。有了智能体系统,我们几乎可以用这个模型做任何事。”



他之前也发过用Gemini 3.0 Pro生成Windows Web操作系统的视频,两个视频放一起对比,提升效果非常明显。

Gemini 3.1 Pro生成的系统界面有完整应用图标、开始菜单样式布局以及基础窗口交互逻辑,整体形态更接近一个可运行的轻量级操作系统。

相比之下,之前3.0 Pro生成的系统形态相对简陋,一些基础桌面交互和系统级应用缺失。

另一组更偏工程化的案例显示,有开发者用Gemini 3.1 Pro在浏览器中直接生成并运行了一个可交互的VoxelWeb项目,形态类似“我的世界”式3D沙盒。

界面已包含启动按钮、移动控制、方块交互以及基础合成逻辑,具备完整的轻量沙盒雏形。



在前端生成与动画细节方面,也有开发者要求模型生成一段完整的交互式生长动画,覆盖种子发芽、根系形成、枝干生长到树叶展开的全过程。



实测结果显示,模型在生长阶段衔接与叶片细节上表现较为完整。该开发者评价称:“这是我在这个提示词下见过最好的树叶效果。”

视觉理解方向的测试则进一步拉高了难度。有网友专门验证“AgenticVision”能力,输入素材是一张看似普通的街头垃圾桶照片。

模型不仅完成了基础识别,还进一步指出:当眯眼或拉远观看时,画面中的垃圾、阴影与轮廓会在视觉上拼合成两个并排而坐的卡通角色。模型还逐项拆解了这一视觉错觉的形成机制,解释不同布料、垃圾袋与阴影分别对应角色的头部、身体与外轮廓关系,体现出多步视觉推理能力。



整体来看,Gemini 3.1 Pro已经开始触及空间关系理解、形状映射和视觉错觉解释等更高阶视觉认知任务。开发者给出的综合判断是,其表现已进入当前第一梯队水平。

我们还用“开车还是步行去距离100米的洗车店洗车”、“父母能否结婚”等陷阱题考了考Gemini 3.1 Pro,结果它都成功避坑答对。



02.

手搓《模拟城市》

创意编程、交互式设计分分钟搞定

谷歌DeepMind的最新X账号展示了谷歌UX工程师Michael Chang用Gemini 3.1 Pro开发了一个逼真的城市规划应用程序。Gemini 3.1 Pro能自己处理复杂地形、绘制基础设施图、模拟交通,最后生成高质量的可视化效果。

除了上面提到的鹈鹕骑自行车,Gemini 3.1 Pro在生成青蛙骑老式高轮自行车、长颈鹿驾驶微型汽车、鸵鸟穿着旱冰鞋等各种抽象画面的SVG动画上,表现也毫不逊色。相比Gemini 3 Pro,Gemini 3.1 Pro的生成效果整体场景更生动、更有故事感,细节表现力大幅提升。

如Gemini 3.1 Pro可以直接根据文本提示生成可用于 的动画SVG,并且由于这些动画是用纯代码而非像素构建的,因此在任何尺寸下都能保持清晰,并且文件体积相比传统视频非常小。

Gemini 3.1 Pro的复杂推理能力,能帮助用户使用复杂API完成设计。如下面案例,该模型构建了一个实时航空航天仪表盘,成功配置了公共遥测数据流,以可视化国际空间站的轨道运行轨迹。

在交互式设计方面,Gemini 3.1 Pro可以编写代码,生成一个复杂的3D椋鸟群飞模拟。并且其还能构建沉浸式体验,用户可以通过手势追踪操控鸟群,同时聆听一段生成式配乐,音乐会随着鸟群的动态变化而改变。

Gemini3.1 Pro还能进行创意编程, 将文学主题转化为可运行的代码。当被要求为艾米莉·勃朗特(Emily Brontë)的《呼啸山庄》构建一个现代个人作品集 时,该模型深入分析了小说的氛围基调,设计出一个简洁现代的界面,打造出一个能捕捉主角精神内核的 。

03.

编程、推理、多模态样样行

数项测试超Claude、GPT模型

研究人员在一系列基准测试中对Gemini 3.1 Pro进行了评估,包括推理、多模态能力、智能体工具使用、多语言性能和长上下文。

相比Gemini 3 Pro、Claude Sonnet 4.6、Claude Opus 4.6、GPT-5.2、GPT-5.3-Codex,Gemini 3.1 Pro在12项基准测试中拿下第一。

在需要更强推理能力的测试中,Gemini 3.1 Pro在人类最后的考试、ARC-AGI-2、GPQA Diamond 3项测试中,表现都优于Claude、GPT模型。

编程能力测试中,Gemini 3.1 Pro在SWE-Bench Pro(公开版)和SWE-Bench Verified中得分相对较低,这两大测试集考验的是模型在真实项目中理解需求、定位问题、修改代码、保证可用的端到端工程能力。

GDPval-AA Elo是当前衡量大模型在高价值知识工作中综合能力的相对评分体系,Gemini 3.1 Pro的表现优于GPT-5.2、GPT-5.3-Codex,仅次于Sonnet 4.6。

衡量大模型工具使用能力的τ2-bench、MCP Atlas、BrowseComp、多语言性能的MMLU、长上下能力的MRCR v2测试集中,新模型的表现同样优于其他模型。

在多模态大模型学术评测基准MMMU-Pro上,Gemini 3.1 Pro的表现比Claude、GPT模型更好,但略逊于Gemini 3 Pro。

04.

结语:大模型竞赛焦点

转向复杂任务落地能力

当前大模型行业正从通用能力比拼,转向真实世界复杂任务的实战能力竞争,海内外各家模型在推理、工程化、多模态理解等核心能力上不断发力突破,力求让大模型真正落地应用,与真实业务场景相结合。

谷歌近期的加速布局也是如此,其上周发布了Gemini 3 Deep Think模型升级、一周后又推出Gemini 3.1 Pro,都将模型的升级重点放在专业领域加速技术研发、解决实际工作中的复杂问题上。可以看出,当下大模型已经让更智能的大模型真正具备解决真实世界复杂任务能力,AI成为专业领域核心生产力的潜力增加。

来源:https://www.163.com/dy/article/KMFI1CUM051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

AI违规致案件激增5倍:擅删邮件与滥用成隐患
科技数码
AI违规致案件激增5倍:擅删邮件与滥用成隐患

IT之家 3 月 28 日消息,英国卫报昨日(3 月 27 日)发布博文,报道称由英国政府资助的一项最新研究显示,过去六个月内,AI 聊天机器人违抗人类指令、实施欺骗的真实案例激增五倍,总数近 70

热心网友
03.28
Anthropic算力告急:本周Claude高峰时段使用指南
科技数码
Anthropic算力告急:本周Claude高峰时段使用指南

Claude的爆炸式增长遇到算力瓶颈。这家AI公司本周悄然收紧了旗下Claude产品的使用限制,成为大模型厂商面临算力瓶颈这一行业困境的最新注脚。据悉,Anthropic本周对Claude免费版、P

热心网友
03.28
谷歌内存论文疑被抄袭,华人学者控诉业内学术不公
AI
谷歌内存论文疑被抄袭,华人学者控诉业内学术不公

新智元报道编辑:好困 Aeneas【新智元导读】把闪存股一夜干崩的谷歌顶会论文,出大事了。TurboQuant的核心方法,两年前就被一位华人学者做完、发完顶会、代码全部开源了。谷歌不仅没正面提及,而

热心网友
03.28
Pixel新蓝牙诊断工具实测:一键改善连接质量
网络安全
Pixel新蓝牙诊断工具实测:一键改善连接质量

IT之家 3 月 28 日消息,据科技媒体 Phone Arena 昨天报道,谷歌正在向 Pixel 系列手机用户推送蓝牙诊断工具(IT之家注:Bluetooth diagnostics),目前版本

热心网友
03.28
谷歌黑客帝国成真?服务器挤爆背后AI绝密代码失控
AI
谷歌黑客帝国成真?服务器挤爆背后AI绝密代码失控

新智元报道编辑:Aeneas 好困【新智元导读】刚刚,谷歌内部AI曝光了!Agent Smith一经推出,就火到一塌糊涂,全体员工集体疯抢,服务器直接被挤爆。现在,三巨头的秘密新模型都集体炸出了,让

热心网友
03.28

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

拼多多电脑版网页端:官方购物网站主页入口详解
电脑教程
拼多多电脑版网页端:官方购物网站主页入口详解

拼多多电脑版正式入口为https: www pinduoduo com ,支持主流浏览器快速访问、多种登录方式、智能搜索、商品360°查看、实时物流追踪及嵌入式售后操作。拼多多电

热心网友
03.28
PPT网格线设置技巧:快速提升排版精准与美观
手机教程
PPT网格线设置技巧:快速提升排版精准与美观

在ppt制作中,合理运用网格线和参考线能极大提升页面元素的对齐精度与整体美观度。以下将详细介绍其设置方法及应用技巧。一、ppt网格线的设置1 打开视图菜单:打开ppt软件,找到菜

热心网友
03.28
帆船纪元前期好用船只评测:新手开荒必选船型
游戏攻略
帆船纪元前期好用船只评测:新手开荒必选船型

在风帆纪元手游前期,选择一艘合适的船对于玩家的游戏体验至关重要。以下为大家推荐几种前期好用的船只。小型双桅纵帆船特点它具有较高的机动性,转向灵活,能快速调整航行方向。操作相对简单,

热心网友
03.28
《琢玉》收官在即!孙俪迪丽热巴刘烨,谁主沉浮引新潮
娱乐
《琢玉》收官在即!孙俪迪丽热巴刘烨,谁主沉浮引新潮

眼下,口碑两极、热度一路走高的话题大剧《逐玉》即将迎来收官。紧随其后,剧集市场迎来上新热潮,荧屏竞争愈发热闹。白宇、龚俊、迪丽热巴、孙俪、刘烨、聂远等实力派与人气演员轮番登场,年代现实、律政行业、东

热心网友
03.28
OPPO Pad mini轻薄小平板曝光,小尺寸也有大亮点
网络安全
OPPO Pad mini轻薄小平板曝光,小尺寸也有大亮点

IT之家 3 月 28 日消息,OPPO 智能生态产品总监今日在抖音平台曝光了 OPPO Pad mini,定位轻薄小尺寸平板,预计将于 4 月亮相。据博主 @数码闲聊站 此前爆料,OPPO Pad

热心网友
03.28