谷歌Gemini 3携手陶哲轩:10分钟攻克埃尔德什难题
人工智能领域最近迎来重大突破,Gemini 3系列模型在数学与物理两大学科基准测试中连续夺魁,引发了全球科研界的高度关注。这一模型不仅于传统测评中展现碾压级优势,更在实际科研场景中协助顶尖学者攻克难题,标志着AI正开始深度参与基础科学研究。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
在数学方面,由Epoch AI联合全球五十余位职业数学家打造的FrontierMath基准测试中,Gemini 3 Pro以明显优势刷新纪录。该测试包含350道原创难题,其中50道属于数学前沿研究级别,涵盖数论、代数几何等十二个分支。测试要求模型提交Python函数进行自动化验证,确保结果客观可重复。Gemini 3 Pro在四个难度层级中分别取得38%和19%的准确率,其综合指数达到154分,超越此前GPT-5.1保持的151分纪录。
更令人瞩目的是该模型在实战中的表现。菲尔兹奖得主陶哲轩公开透露,其团队在研究埃尔德什难题时,将关键同余恒等式证明任务交给Gemini DeepThink模式。该模型仅用十分钟便完成核心论证,后续人类学者耗时数小时完成形式化验证。这一案例显示,顶尖数学家已开始将AI作为重要协作文具,将重复性推导工作交由机器处理,人类则专注核心思路构建。
物理领域同样传来捷报。在全新发布的CritPt基准测试中,Gemini 3 Pro以9.1分的成绩领跑。这项由三十余家科研机构联合开发的测试,包含凝聚态物理、量子力学等十一个分支的未公开研究级问题。每道题目均要求模型完成从建模到推导的全流程研究,答案需通过自动化严格判分。测试设计者透露,当前最高分仍与理论满分存在差距,反映出前沿科学研究对AI的更高要求。
两项测试的排行榜显示,Gemini与GPT系列形成双雄争霸格局。数学基准测试中,领先模型全部来自这两个系列;物理测试中,二者同样占据前两位。这种竞争态势推动AI技术加速向科研场景渗透,测试设计者指出,未来将增加更多跨学科综合难题,考察模型处理复杂研究问题的能力。
科研人员开始重新审视人机协作模式。陶哲轩在社交媒体发文称,AI已从"计算工具"升级为"研究伙伴",这种转变将重塑数学研究范式。物理学家则关注AI在理论推导中的可靠性,阿贡国家实验室研究员表示,CritPt测试证明AI已能处理真实研究问题,但如何解释模型决策过程仍是关键挑战。
热门专题
热门推荐
我国刀具市场发展调研报告 在当今制造业持续升级的背景下,市场调研报告的重要性日益凸显。一份结构清晰、数据翔实的报告,能为决策提供关键参考。以下这份关于我国刀具市场的调研报告,旨在梳理现状、剖析问题,并为未来发展提供借鉴。 当前,国内刀具年销售额约为145亿元,其中硬质合金刀具占比不足25%。这一比例
国内首份空净市场调研报告 在公众健康意识日益增强的今天,市场报告的重要性不言而喻。一份结构清晰、数据翔实的报告,能为行业描绘出精准的航图。那么,一份优秀的市场调研报告究竟该如何呈现?近期发布的这份国内空气净化器行业蓝皮书,或许能提供一个范本。 市场增长的势头有多强劲?数据显示,国内空气净化器市场正驶
水利工程供水管理调研报告 在各类报告日益成为工作常态的今天,撰写一份扎实的调研报告,关键在于厘清现状、找准问题、提出思路。这份关于水利工程供水管理的报告,旨在系统梳理情况,为后续决策提供参考。 一、基本情况 横跨区域的**水库及八座枢纽拦河闸,构成了**运河流域防洪与兴利供水的骨干工程体系。自投入运
财产保全申请书范本 一份规范的财产保全申请书,是启动财产保全程序的关键文书。其核心在于清晰、准确地列明各方信息、诉求与依据。通常,申请书的结构是固定的,但具体内容需要根据案件事实来填充。下面,我们通过几个典型的范本来拆解其中的要点。 篇一:通用格式范本 首先来看一个通用模板。这个模板清晰地勾勒出了申
“防台抗台”活动由学院的积极分子组成,他们踊跃报名,利用暑期时间奉献自己的青春,为社会尽一份力量。 带队的学院分团委书记吕老师点出了活动的深层价值:这不仅是一次能力锻炼,更是学生认识社会、融入社会并最终回馈社会的关键一步。经过这番历练,团队友谊愈发坚固,协作精神显著增强,感恩之心也油然而生。 青春洋





