谷歌模型升级：清华姚顺宇参与，从业者称其如外星智能

时间：2026-02-13 16:49

北京时间2月13日，谷歌发布了Gemini3DeepThink的重大升级，作为专门用于复杂任务的推理模式，DeepThink旨在解决科学、工程领域的诸多挑战。值得一提的是，去年9月加入谷歌DeepM

北京时间2月13日，谷歌正式推出了Gemini 3 DeepThink的重大升级版本，该模型专门设计用于处理复杂任务的推理模式，旨在应对科学和工程领域中存在的诸多挑战。

值得一提的是，去年9月加入谷歌DeepMind团队的清华物理系知名学者姚顺宇（Shunyu Yao）也深度参与了此次DeepThink新模型的研发工作，并在当天通过社交媒体发文，邀请广大用户体验这一全新模型。

谷歌首席执行官桑达尔·皮查伊（Sundar Pichai）在发帖中表示："我们与科学家和研究团队紧密合作，对DeepThink进行了全面改进，以应对现实世界中各种棘手的挑战。"这些挑战往往缺乏明确的指导原则或唯一正确答案，数据也常常呈现杂乱无章或不完整的状态。DeepThink将科学知识与日常工程实践相结合，有效推动实际应用落地。

从测试数据来看，这一模型在多项基准测试中创下了新纪录，超越了头部竞争对手旗下的Claude Opus 4.6和GPT-5.2，也超越了谷歌自家的Gemini 3 Pro Preview版本。

具体而言，在"人类终极考试"测试中，DeepThink取得了48.4%的成绩（在不使用工具的情况下），刷新了该测试的最佳纪录。而Claude Opus 4.6的成绩为40%，OpenAI的GPT-5.2成绩为34.5%。

在ARC-AGI-2测试中，DeepThink获得了前所未有的84.6%成绩，此前最强模型的得分在60%-70%之间，Claude Opus 4.6的成绩是68.8%。在竞技编程基准测试平台Codeforces中，DeepThink的Elo评分达到3455分，这一分数相当于在全球编程能力排名中位列前8。

此外，Gemini 3 DeepThink在化学和物理等科学领域表现卓越。谷歌特别提到，在2025年国际物理和化学奥林匹克竞赛的笔试环节，该模型取得了金牌级别的优异成绩。

去年，谷歌已证实DeepThink模式的定制版本能够攻克诸多高难度推理难题，在国际数学和编程锦标赛事中达到金牌水准。而此次升级则让DeepThink模式进一步支持研发人员开展研究级（research-level）的数学探索工作。

在官方博客中，谷歌展示了一些早期测试用户使用最新版DeepThink取得的成果。

罗格斯大学的数学家Lisa Carbone致力于研究高能物理学界所需的数学结构，以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据，她利用DeepThink技术审阅了一篇高度专业的数学论文。DeepThink成功地识别出了一个细微的逻辑缺陷，而这个缺陷此前在人工同行评审中均未被发现。

DeepThink还可以用来优化复杂晶体生长的制备方法，用于探索新的半导体材料。在杜克大学的案例中，其设计的方案培育出了尺寸超过100微米的薄膜，技术指标超过此前所有方法。

除了其最先进的性能外，DeepThink还旨在推动实际应用，使研究人员能够解释复杂的数据，使工程师能够通过代码对物理系统进行建模。例如，DeepThink对图纸进行分析，对复杂的形状进行建模，并生成文件，通过3D打印创建物理对象。

在谷歌官方评论区中，不少从业者震惊于ARC-AGI-2测试得分能达到84.6%。作为参考，大多数人在这类抽象推理题上都很难达到80%的正确率。

"如果这个模型在识别新模式（而不仅仅是记忆）方面真的达到了这样超人的水平，我们就应该停止称它为聊天机器人，而应该称它为外星智能。"一位AI从业者感慨道，Codeforces上的Elo等级是3455简直就是"传奇大师"级别了。

"真正让人惊讶的是，DeepThink竟然发现了一篇经过同行评审的数学论文中，人类审核人都忽略的逻辑缺陷。那不是工具，那是合作者。我们已经跨越了人工智能辅助研究人员和人工智能验证研究人员工作的界限。"一位谷歌前工程师评论道。

谷歌表示，DeepThink现已在Gemini应用中上线，目前Google AI Ultra订阅用户可以使用。此外，谷歌首次通过Gemini API向部分研究人员、工程师和企业开放DeepThink的使用权限。

来源：https://www.163.com/dy/article/KLLLKQ3R0519DDQ2.html

谷歌编程清华姚顺宇人工智能真实世界知名企业

上一篇安费诺飞凤获穿戴设备银链专利，优化AR/VR眼镜结构设计 下一篇Micro LED商业化加速：AR智能眼镜驱动2025年收入激增150%

本站内容用于信息整理与展示，如有侵权或内容问题请及时联系处理。

同类最新

继续查看同栏目最近更新的文章。

科技数码 · 2026-07-10

地下室发现尘封12年AMD前CEO旧PC苏姿丰签名推土机硬件

一位技工在客户家地下室发现一台属于AMD前CEORoryRead的旧PC，机箱上留有苏姿丰等高管签名，配置为推土机时代硬件且从未开机。这台电脑封存了AMD从推土机失败到Zen架构崛起的关键转折历史。

科技数码 · 2026-07-10

Laravel 12生态成熟助力全栈开发效率提升

Laravel12延续开发体验优势，在项目结构、查询构建、API开发、调试及性能上持续优化。其生态日趋成熟，形成Reverb、Pulse等完整工具链，覆盖API、SaaS、企业后台及AI应用开发。与Next js的组合逐渐流行，Laravel已演变为现代Web开发平台，保持社区活力。

科技数码 · 2026-07-10

Linux内核持续演进：Rust语言与零拷贝网络成新焦点

LinuxKernel6 15重大更新：Rust驱动正式入主线，NOVADRM成为首个实践案例；io_uring新增零拷贝网络接收，降低CPU开销与延迟；Btrfs增强实时zstd压缩、DirectIO及稳定性。内核同步推进安全化与高性能网络化。

科技数码 · 2026-07-10

谷歌Gemini进入Agent时代打造全天候AI助理

Google推出GeminiSpark、Omni等新功能。Spark可全天候在后台运行，主动处理邮件、日历等任务；Omni侧重视频理解与环境推理，布局世界模型。AI正从被动回答转向主动观察、规划与执行，标志着竞赛进入新阶段。

科技数码 · 2026-07-10

CPU-Z 2.20.2正式版发布支持Intel三大平台及AMD锐龙AI Max

CPU-Z2 20 2正式版发布，新增支持IntelPantherLake、WildcatLake、BartlettLake三大架构及AMD锐龙AIMax、Pro系列，加入锐炫G3识别库，修复缓存错误和锐龙77700X3D检测问题，免费下载。