首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
谷歌Gemini 3模型升级:瞄准科研与工程,测试成绩创新高

谷歌Gemini 3模型升级:瞄准科研与工程,测试成绩创新高

热心网友
99
转载
2026-02-13

谷歌的深度思考模型Gemini 3 Deep Think迎来重大升级,将其专业推理能力从抽象理论推进至实际应用场景。这一升级聚焦于解决现代科学研究与工程领域的复杂挑战,标志着谷歌在企业级AI市场的战略性押注。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

美东时间12日周四,谷歌官宣Gemini 3 Deep Think升级,称升级后的模型在多项行业基准测试中取得突破性成绩,包括在“人类的最后考试”Humanity's Last Exam(HLE)基准测试、ARC-AGI-2测试中获得84.6%的成绩,经ARC Prize基金会验证;在竞技编程平台Codeforces上,Gemini 3 Deep Think获得3455的Elo评分。


升级后的深度思考模式即日起面向Google AI Ultra订阅用户开放,同时通过Gemini API向部分研究人员、工程师及企业用户提供早期访问权限。谷歌表示,该模型已在实际研究中展现应用价值,从发现研究论文中的逻辑漏洞到优化半导体材料生长工艺。

这一发布使谷歌在AI推理模型竞争中与OpenAI的o1系列和Anthropic的Claude正面交锋。随着通用AI能力日趋商品化,专业推理能力成为企业级市场的新战场,而深度思考模式的推出显示谷歌不愿在这一高价值领域让步。

从基准测试到金牌表现

谷歌在其最新博客中强调了深度思考模式在严格学术基准测试中的表现。除前述成绩外,Gemini 3深度思考模型在2025年国际物理奥林匹克和化学奥林匹克的笔试部分均达到金牌水平,并在CMT-Benchmark高级理论物理测试中取得50.5%的分数。

谷歌提供的成绩对比可见,本月Gemini 3深度思考模型的多种测试结果均超过Anthropic和OpenAI各自的最强模型思维模式,也强于Gemini 3 Pro预览版的思考模式。

例如,在ARC-AGI-2测试中,Gemini 3深度思考的准确率为84.6%,Anthropic的Claude Opus 4.6 Thinking Max测试成绩为68.8%,OpenAI的GPT-5.2 Thinking xhigh为52.9%。


谷歌团队称,这次升级是与科学家和研究人员密切合作完成的,目标是应对“缺乏明确边界或单一正确答案,且数据往往杂乱或不完整”的研究挑战。该模型通过将深厚的科学知识与实用工程能力结合,实现了从抽象理论到实际应用的跨越。

在数学和编程能力的突破之外,深度思考模式的表现范围已扩展至化学、物理(包括理论物理)等多个科学领域。这种广度意味着该模型不再局限于特定学科,而是成为跨领域研究工具。

实际应用案例验证价值

早期测试用户的使用场景展示了该模型的实际应用潜力。罗格斯大学数学家Lisa Carbone在研究高能物理所需数学结构时,利用深度思考模式审阅一篇高度专业的数学论文。该模型成功识别出一处此前通过人类同行评审但未被发现的细微逻辑缺陷。

在杜克大学,Wang实验室利用深度思考模式优化复杂晶体生长的制造方法,用于潜在半导体材料的发现。该模型成功设计出一套配方,生长出超过100微米的薄膜,达到了先前方法难以实现的精确目标。

谷歌平台与设备部门的研发负责人、Liftware前CEOAnupam Pathak测试了新版深度思考模式,以加速物理组件的设计。

谷歌展示的另一应用场景显示,借助升级后的Gemini 3 Deep Think,用户可以将草图转化为可3D打印的实体模型。该模型能分析图纸,对复杂形状进行建模,并生成用于3D打印的实体模型文件。


企业级市场的战略布局

这次升级体现了AI行业的转向趋势——从通用聊天机器人转向能够处理专业级问题的专业推理引擎。对于企业客户而言,评估标准正在改变,不再仅关注哪个AI能最快编写代码或总结文档,而是聚焦推理能力——模型能否处理复杂财务模型、分析实验数据并识别方法论缺陷、协助专利研究或药物发现。

谷歌的优势在于整合能力。深度思考模式不是孤立存在,而是更广泛的Gemini生态系统的一部分,这意味着它可能利用谷歌庞大的知识图谱、科学数据集和研究合作伙伴关系。通过Google Cloud使用深度思考模式的研究人员,理论上可以访问独立AI服务无法匹敌的计算能力和数据源。

该公司周四在X平台发文称:“升级后的深度思考模式已经在推动发现并帮助研究人员解决'不可解'的问题——从发现研究论文中的缺陷到优化半导体(晶体)生长。” 这一表述强调了模型从测试基准到实际应用的转化能力。

从产品策略看,谷歌同时面向消费者和企业用户开放访问权限。Google AI Ultra订阅用户可通过Gemini应用程序立即使用,而科学家、工程师和企业用户则可通过早期访问计划申请使用Gemini API。这种分层策略反映出谷歌既要保持消费市场存在感,又要争夺高价值企业客户的双重目标。

推理模型竞赛升温

深度思考模式的推出使谷歌在AI推理竞赛中正面对抗OpenAI和Anthropic。OpenAI的o1模型据报道在生成响应前花费更多时间“思考”,使用强化学习改进推理链。Anthropic的Claude 3则在研究和分析任务中占据了一席之地。现在谷歌在同一领域插旗,背后是集成到Workspace和Cloud Platform带来的基础设施和分销优势。

对于专业用户而言,这意味着在快速通用响应与较慢的深度推理之间做出选择,成为新的架构决策。应用程序可能将简单查询路由到标准模型,同时将复杂问题上报到推理模式,创建分层AI推理方法。

谷歌周四在X平台发文称:"Gemini 3深度思考模式在推动智能前沿的基准测试中表现突出。具体数据:在'人类最后的考试'中达到48.4%(无工具),在ARC-AGI-2中达到84.6%(经ARC Prize基金会验证),在Codeforces竞技编程中获得3455 Elo评分。"

谷歌同时指出,模型现在在化学和物理等科学领域表现出色。

这场竞争的真正考验不在于发布声明,而在于实际采用率。如果研究机构和工程公司开始通过深度思考模式处理复杂工作,将验证谷歌的判断——企业AI的未来在于深度而非速度。目前,该公司已明确表态:它正在争夺AI市场的高端领域,在那里思考比对话更重要。

来源:https://www.163.com/dy/article/KLK8L0RG05198NMR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

揭秘Token经济学:两年间为何从集体降价转向全面涨价
科技数码
揭秘Token经济学:两年间为何从集体降价转向全面涨价

Token是AI时代的“新货币”。2024年,AI价格战打响,Token以“厘”计价;2026年,算力需求引爆,模型厂商和云厂商的Token集体涨价。在过去两年里,大模型行业经历了从价格战到价值战的

热心网友
04.01
YC掌门4天零代码复活37年古董软件,AGI突破引行业惊呼
AI
YC掌门4天零代码复活37年古董软件,AGI突破引行业惊呼

新智元报道编辑:peter东【新智元导读】一位开发者用四天时间,让AI「盲移植」了拥有37年历史的SimCity代码库。整个过程无人阅读一行原始C代码,仅靠AI生成与自动化测试验证。当AI开始重写软

热心网友
04.01
智谱AI年营收7.24亿增长132%,MaaS平台ARR突破17亿元
科技数码
智谱AI年营收7.24亿增长132%,MaaS平台ARR突破17亿元

雷递网 雷建平 3月31日智谱(HK:02513)今日正式发布2025年全年业绩,这是其上市后首份财报。智谱2025年营收7 24亿,较上年同期的3 12亿增131 9%。MaaS商业飞轮全面运转,

热心网友
03.31
Trae独立客户端桌面与网页端同步开启内测
科技数码
Trae独立客户端桌面与网页端同步开启内测

3月31日,字节跳动旗下AI编程产品TRAE推出“SOLO独立端”。TRAE 原有的 SOLO 模式(SOLO Agent)深度集成于传统 IDE 架构,此次 SOLO 独立端的推出,旨在优化新用户

热心网友
03.31
Meta华人实习生:独立编写代码实现AI自我进化突破
科技数码
Meta华人实习生:独立编写代码实现AI自我进化突破

henry 发自 凹非寺量子位 | 公众号 QbitAI能无限进步的「超级智能体」来了!最近,Meta研究团队的一篇题为HYPERAGENTS(超级智能体)的论文迅速刷屏。这篇论文将LSTM之父Jü

热心网友
03.31

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

关于曙光英雄里青木角色的技能特性说明
游戏攻略
关于曙光英雄里青木角色的技能特性说明

曙光英雄青木全面攻略:技能解析、连招技巧与出装思路 在《曙光英雄》中,青木是位列T1梯度的顶尖刺客,其强度与机动性仅次于版本强势英雄飞廉。凭借高额的瞬间爆发伤害,以及集隐身、位移、免伤于一体的全能机制,他能够有效掌控战场节奏,成为对手后排的梦魇。本文将为你深度解析这位“幻影刺客”的技能机制、实战技巧

热心网友
04.03
《三国杀:武将觉醒》新手专武和锦囊选择推荐
游戏攻略
《三国杀:武将觉醒》新手专武和锦囊选择推荐

《三国杀:武将觉醒》新手专武和锦囊选择全攻略 当角色等级达到30至35级,游戏核心的专武与锦囊系统随之解锁。这无疑是前期养成的重要分水岭:选择得当能带来立竿见影的战力飞跃,决策失误则会浪费宝贵资源,拖慢游戏进度。本攻略将为你详细解析,帮助各位主公高效构建阵容,走好养成第一步。 首先要掌握一个关键信息

热心网友
04.03
三国志王道天下盾兵阵容玩法攻略
手机教程
三国志王道天下盾兵阵容玩法攻略

三国志王道天下盾兵阵容深度解析 在策略手游《三国志:王道天下》中,一套强力的阵容往往能让你在沙场上所向披靡。最近,许多玩家都在探讨如何构建一支攻防兼备的盾兵队伍。本文将为你全面拆解一套经过PVP与PVE双重考验的顶尖盾兵阵容体系,从配置到机制,助你打造坚不可摧的防御核心。 阵容核心构成与战略定位 本

热心网友
04.03
爱奇艺双十一有哪些活动
手机教程
爱奇艺双十一有哪些活动

双十一购物节来袭,爱奇艺多重福利重磅开启! 海量影视限时特惠 今年的双十一,爱奇艺将海量优质影音资源纳入超值促销。无论是刚刚下映的院线热门大片、全网刷屏的爆款电视剧,还是口碑载道的独家王牌综艺,均推出了前所未有的心动折扣。这意味着您无需支付高昂的影院票价,也无需为多平台会员费烦恼,居家即可轻松搭建个

热心网友
04.03
葫芦兄弟×梦境护卫队联动活动全攻略
游戏攻略
葫芦兄弟×梦境护卫队联动活动全攻略

《梦境护卫队》×《葫芦兄弟》2024联动活动完整攻略:奖励领取与资源规划指南 备受期待的《梦境护卫队》与经典国漫《葫芦兄弟》官方联动现已正式开启!本次活动为玩家带来了丰富的限定奖励与趣味玩法,社区热度持续攀升。无论你是追求收藏还是提升战力,这份详尽的奖励解析与高效获取攻略,都将帮助你轻松领满全部免费

热心网友
04.03