谷歌模型升级:清华姚顺宇参与,从业者称其如外星智能
北京时间2月13日,谷歌正式推出了Gemini 3 DeepThink的重大升级版本,该模型专门设计用于处理复杂任务的推理模式,旨在应对科学和工程领域中存在的诸多挑战。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
值得一提的是,去年9月加入谷歌DeepMind团队的清华物理系知名学者姚顺宇(Shunyu Yao)也深度参与了此次DeepThink新模型的研发工作,并在当天通过社交媒体发文,邀请广大用户体验这一全新模型。

谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在发帖中表示:"我们与科学家和研究团队紧密合作,对DeepThink进行了全面改进,以应对现实世界中各种棘手的挑战。"这些挑战往往缺乏明确的指导原则或唯一正确答案,数据也常常呈现杂乱无章或不完整的状态。DeepThink将科学知识与日常工程实践相结合,有效推动实际应用落地。
从测试数据来看,这一模型在多项基准测试中创下了新纪录,超越了头部竞争对手旗下的Claude Opus 4.6和GPT-5.2,也超越了谷歌自家的Gemini 3 Pro Preview版本。
具体而言,在"人类终极考试"测试中,DeepThink取得了48.4%的成绩(在不使用工具的情况下),刷新了该测试的最佳纪录。而Claude Opus 4.6的成绩为40%,OpenAI的GPT-5.2成绩为34.5%。
在ARC-AGI-2测试中,DeepThink获得了前所未有的84.6%成绩,此前最强模型的得分在60%-70%之间,Claude Opus 4.6的成绩是68.8%。在竞技编程基准测试平台Codeforces中,DeepThink的Elo评分达到3455分,这一分数相当于在全球编程能力排名中位列前8。
此外,Gemini 3 DeepThink在化学和物理等科学领域表现卓越。谷歌特别提到,在2025年国际物理和化学奥林匹克竞赛的笔试环节,该模型取得了金牌级别的优异成绩。
去年,谷歌已证实DeepThink模式的定制版本能够攻克诸多高难度推理难题,在国际数学和编程锦标赛事中达到金牌水准。而此次升级则让DeepThink模式进一步支持研发人员开展研究级(research-level)的数学探索工作。
在官方博客中,谷歌展示了一些早期测试用户使用最新版DeepThink取得的成果。
罗格斯大学的数学家Lisa Carbone致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用DeepThink技术审阅了一篇高度专业的数学论文。DeepThink成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。
DeepThink还可以用来优化复杂晶体生长的制备方法,用于探索新的半导体材料。在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法。
除了其最先进的性能外,DeepThink还旨在推动实际应用,使研究人员能够解释复杂的数据,使工程师能够通过代码对物理系统进行建模。例如,DeepThink对图纸进行分析,对复杂的形状进行建模,并生成文件,通过3D打印创建物理对象。
在谷歌官方评论区中,不少从业者震惊于ARC-AGI-2测试得分能达到84.6%。作为参考,大多数人在这类抽象推理题上都很难达到80%的正确率。
"如果这个模型在识别新模式(而不仅仅是记忆)方面真的达到了这样超人的水平,我们就应该停止称它为聊天机器人,而应该称它为外星智能。"一位AI从业者感慨道,Codeforces上的Elo等级是3455简直就是"传奇大师"级别了。
"真正让人惊讶的是,DeepThink竟然发现了一篇经过同行评审的数学论文中,人类审核人都忽略的逻辑缺陷。那不是工具,那是合作者。我们已经跨越了人工智能辅助研究人员和人工智能验证研究人员工作的界限。"一位谷歌前工程师评论道。
谷歌表示,DeepThink现已在Gemini应用中上线,目前Google AI Ultra订阅用户可以使用。此外,谷歌首次通过Gemini API向部分研究人员、工程师和企业开放DeepThink的使用权限。
相关攻略
过去两个月,OpenClaw火得一塌糊涂。它让AI开始像一个真正能替人跑流程、调工具、接任务的数字执行者。现如今,谷歌也准备分一杯羹,外媒爆料称,谷歌正在开发一款叫做Smith的agent,不仅比O
谷歌近期推出TurboQuant压缩算法,称将大模型关键缓存占用减少至少6倍,这一消息一度让存储行业陷入恐慌。但在MemoryS 2026峰会上,来自三星电子、长江存储、铠侠、闪迪等多家存储厂商,以
如果你还在等iPhone18系列来个外观大改,可能要失望了,但如果你在意的是体验大改,那这次可能真的有惊喜。一方面,近期有消息称iPhone18系列的黑边、边框没有变化,只有灵动岛缩小;核心升级集中
喜欢折腾的用户都知道,谷歌当年在安卓12里把快捷设置面板的Wi-Fi开关改了,点一下不直接开关,而是弹出一个网络列表,你得再点一下开关才能关掉Wi-Fi。这个两步走的设计被骂了五年,而随着时间的推移
IT之家 3 月 28 日消息,据外媒 9to5Google 报道,谷歌上周终于公布了备受关注的安卓“高级流程”,用于允许用户继续从未经验证的开发者处侧载 APK,并计划在今年晚些时候向所有安卓机型
热门专题
热门推荐
3月28日消息,中国联通近日发布2025年度业绩报告,在网络建设领域交出亮眼答卷。中国联通表示,公司持续落实信号升格、宽带升级相关举措,目前近九成宽带已具备千兆接入能力,万兆光网更在全国100多个城
163邮箱个人版登录入口为https: mail 163 com,支持网页及手机浏览器直接访问,提供手机号、邮箱账号、扫码三种登录方式,界面简洁,功能齐全,适配多终端使用。163
在冒泡社区中,设置键盘能为用户带来更便捷、舒适的操作体验。以下是详细的设置方法。首先,打开冒泡社区应用程序。进入社区主界面后,找到屏幕上的设置选项。这通常可以在界面的某个角落,以一
一场谎言的终幕是崩坏星穹铁道中4 1版本的新光锥之一,其属性可以提高装备的暴击率,下面小编就为大家带来《崩坏:星穹铁道》一场谎言的终幕光锥效果一览,不清楚的一起来看看吧。《崩坏:星
2026年3月28日中午12时整,由腾讯视频全网独播的古装奇幻剧《白日提灯》准时上线。该剧开播前预约人数高达674万人次,被平台力推为“年度古偶扛鼎之作”,然而仅播出六小时后,口碑便急速崩塌,引发全





