谷歌模型升级:清华姚顺宇参与,从业者称其如外星智能
北京时间2月13日,谷歌正式推出了Gemini 3 DeepThink的重大升级版本,该模型专门设计用于处理复杂任务的推理模式,旨在应对科学和工程领域中存在的诸多挑战。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
值得一提的是,去年9月加入谷歌DeepMind团队的清华物理系知名学者姚顺宇(Shunyu Yao)也深度参与了此次DeepThink新模型的研发工作,并在当天通过社交媒体发文,邀请广大用户体验这一全新模型。

谷歌首席执行官桑达尔·皮查伊(Sundar Pichai)在发帖中表示:"我们与科学家和研究团队紧密合作,对DeepThink进行了全面改进,以应对现实世界中各种棘手的挑战。"这些挑战往往缺乏明确的指导原则或唯一正确答案,数据也常常呈现杂乱无章或不完整的状态。DeepThink将科学知识与日常工程实践相结合,有效推动实际应用落地。
从测试数据来看,这一模型在多项基准测试中创下了新纪录,超越了头部竞争对手旗下的Claude Opus 4.6和GPT-5.2,也超越了谷歌自家的Gemini 3 Pro Preview版本。
具体而言,在"人类终极考试"测试中,DeepThink取得了48.4%的成绩(在不使用工具的情况下),刷新了该测试的最佳纪录。而Claude Opus 4.6的成绩为40%,OpenAI的GPT-5.2成绩为34.5%。
在ARC-AGI-2测试中,DeepThink获得了前所未有的84.6%成绩,此前最强模型的得分在60%-70%之间,Claude Opus 4.6的成绩是68.8%。在竞技编程基准测试平台Codeforces中,DeepThink的Elo评分达到3455分,这一分数相当于在全球编程能力排名中位列前8。
此外,Gemini 3 DeepThink在化学和物理等科学领域表现卓越。谷歌特别提到,在2025年国际物理和化学奥林匹克竞赛的笔试环节,该模型取得了金牌级别的优异成绩。
去年,谷歌已证实DeepThink模式的定制版本能够攻克诸多高难度推理难题,在国际数学和编程锦标赛事中达到金牌水准。而此次升级则让DeepThink模式进一步支持研发人员开展研究级(research-level)的数学探索工作。
在官方博客中,谷歌展示了一些早期测试用户使用最新版DeepThink取得的成果。
罗格斯大学的数学家Lisa Carbone致力于研究高能物理学界所需的数学结构,以弥合爱因斯坦引力理论和量子力学之间的鸿沟。由于该领域缺乏大量的训练数据,她利用DeepThink技术审阅了一篇高度专业的数学论文。DeepThink成功地识别出了一个细微的逻辑缺陷,而这个缺陷此前在人工同行评审中均未被发现。
DeepThink还可以用来优化复杂晶体生长的制备方法,用于探索新的半导体材料。在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法。
除了其最先进的性能外,DeepThink还旨在推动实际应用,使研究人员能够解释复杂的数据,使工程师能够通过代码对物理系统进行建模。例如,DeepThink对图纸进行分析,对复杂的形状进行建模,并生成文件,通过3D打印创建物理对象。
在谷歌官方评论区中,不少从业者震惊于ARC-AGI-2测试得分能达到84.6%。作为参考,大多数人在这类抽象推理题上都很难达到80%的正确率。
"如果这个模型在识别新模式(而不仅仅是记忆)方面真的达到了这样超人的水平,我们就应该停止称它为聊天机器人,而应该称它为外星智能。"一位AI从业者感慨道,Codeforces上的Elo等级是3455简直就是"传奇大师"级别了。
"真正让人惊讶的是,DeepThink竟然发现了一篇经过同行评审的数学论文中,人类审核人都忽略的逻辑缺陷。那不是工具,那是合作者。我们已经跨越了人工智能辅助研究人员和人工智能验证研究人员工作的界限。"一位谷歌前工程师评论道。
谷歌表示,DeepThink现已在Gemini应用中上线,目前Google AI Ultra订阅用户可以使用。此外,谷歌首次通过Gemini API向部分研究人员、工程师和企业开放DeepThink的使用权限。
相关攻略
币安是全球领先的数字资产交易平台。为确保安全,应直接访问其官方域名binance com,并确认网址无误。通过官网下载官方App,安卓或iOS设备需按指引完成安装。注册账户后,为提升安全性,务必在App的安全设置中绑定谷歌验证器。绑定后,进行关键操作时需输入动态验证码,从而为资产提供额外保护。
谷歌正式入驻广州国际金融中心,计划于第三季度启动跨境数智赋能服务创新项目。该项目旨在通过数字技术与智能方案,为本地企业跨境业务提供创新支持,助力产业数字化与贸易智能化升级。此举将为粤港澳大湾区企业接入全球前沿技术和服务提供新机遇。
谷歌发布无屏智能手环FitbitAir,需付费购买硬件。其核心高级功能需额外订阅月费会员,引发争议。订阅模式可能削弱硬件创新动力,并将用户健康数据的解析服务持续收费。相比之下,国内厂商多采用基础功能免费、增值服务付费的模式,对消费者更为友好。
腾讯开源“袖珍”AI翻译引擎:1 25比特极致压缩,手机离线跑出百GB模型水准 最近,腾讯在开源社区扔下了一颗“技术冲击波”——正式发布了紧凑型AI翻译模型Hy-MT1 5-1 8B-1 25bit。这个模型最吸引人的地方在于,它宣称能在保持高性能的同时,完全在智能手机上离线运行。这意味着什么?或许
谷歌为安卓Chrome引入“大致位置”选项:隐私保护再进一步 最近,谷歌为安卓版的Chrome浏览器带来了一项值得关注的更新:用户现在可以选择只向网站分享“大致位置”,而不是精确到小数点后几位的具体坐标。简单来说,当你查询天气或者浏览本地新闻时,网站只能知道你大概在哪个城区或街区,而无法 pinpo
热门专题
热门推荐
开发者Chris通过Codex服务,仅用一句指令便自主完成开源赏金任务,盈利23 68美元,覆盖订阅成本。此事展示AI自主执行商业闭环的潜力,也引发成本与安全争议。AI正从工具向主动创收者转变。
在《崩坏:星穹铁道》的众多角色中,火花以其独特的技能机制,为战斗策略带来了丰富的变数与操作乐趣。她并非单纯的数值输出角色,而是一位集机动性、爆发伤害与战术价值于一体的近战专家。深入理解其技能联动,是充分发挥其战场潜力的关键。 普通攻击 - 迅刃连斩 火花的普通攻击“迅刃连斩”,是一套衔接流畅的近战连
想在《迷你世界》中解锁智能芯片的全部潜力?掌握升级方法是关键一步。通过升级,芯片不仅能获得更强大的功能,还能显著提升自动化与创造体验。本指南将为您提供一套清晰、高效的升级方案,助您快速掌握核心技巧。 准备材料:精准收集 成功的升级始于充分的准备。您需要提前备齐以下核心资源:精铁锭、蓝色电能线、硅石以
《斗罗大陆:猎魂世界》于5月11日至18日限时开启“寻宝之旅”活动。玩家通过任务或礼包获取道具,掷点前进即可领取限定觉醒券、钻石等奖励。完成整圈可得固定资源,累计积分可兑换更多奖励;第16圈起奖励品质提升,整体效率优化。活动门槛低、回报高,无需强制消费,适合各类玩家参与。
全新秘境“龙骧御六合”开放高难度挑战,玩家需在悬浮石枷上协同维持平衡,应对雷霆与坠石冲击,移动石板可削弱伤害。后续Boss“独夫”登场时,部分队员需切入其内心,其余成员按提示执行阵列动作,全程考验队伍反应与协作能力。





