OpenAI发布AI科研基准:破解算法竞技与一流科学的本质差异

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:艾伦
【新智元导读】OpenAI最新发布的FrontierScience基准,试图用真实的博士级难题,从物理、化学、生物三个维度上考验AI。真相是残酷的:在没有唯一标准答案的科研实战中,AI作为「顶级做题家」,距离真正的科学家,还差得远。
OpenAI在2025年12月16日发布了一套新基准FrontierScience,用来衡量AI在物理、化学、生物三门学科里,能否做到接近专家水准的科学推理,而不只是背知识点。


OpenAI在文中把科学工作描述成一套更接近「持续试错」的流程。
提出假设,设计验证,推翻再重来,还要把不同领域的线索拼成同一张图。
模型越强,问题就越尖锐,AI能不能把这种深推理用到真正的科研推进上。
OpenAI提到,过去一年他们的系统在国际数学奥林匹克和国际信息学奥林匹克上达到了金牌级表现,同时更重要的变化发生在实验室和办公室里。
研究者开始拿这些模型做跨学科文献检索,跨语言读论文,也拿它们去推复杂证明。
有些原本要耗掉几天甚至几周的工作,被压到几小时就能跑完一轮。
为什么需要FrontierScience?OpenAI给了一个对比。
2024年11月,GPQA这个由博士专家撰写、强调「谷歌搜不到」的科学题库发布时,GPT-4只拿到39%,低于专家基线74%。
两年后,GPT-5.2在同一基准上拿到92%。
当旧题库逐渐被刷穿,新的尺子就必须更长,否则你看不出模型还能往哪里发展。
FrontierScience的设计更像是给模型丢进两种不同的「科学难关」。
一类偏竞赛风格,考你在约束条件下把推理做到干净利落。

物理竞赛题示例
另一类更贴近研究现场,要求你在开放问题里把思路走通,哪怕没有标准答案那么工整。

物理科研问题示例
这套评测总量超过700道文本型题目,其中160道属于「黄金组」(Gold Set)题目。
竞赛赛道有100道题,强调短答案形式,便于核验对错。
研究赛道有60个原创研究子任务,由博士阶段或更资深的研究者设计,用10分制评分,拿到至少7分才算通过。

题目质量是有充足保障的:
竞赛赛道和42位前国际奖牌得主或国家队教练合作,总计109枚奥赛奖牌;
研究赛道由45位合格科学家与领域专家参与,覆盖从量子电动力学到合成有机化学,再到进化生物学等细分方向。
OpenAI还承认了一个不那么「中立」的细节。
两套题在制作流程里会刻意淘汰OpenAI自家内部模型已经能答对的题,因此这套评测对OpenAI自家模型可能更苛刻一些。
与此同时,他们开源了两套赛道的「黄金组」题目,其余题目保留,用来追踪数据污染。
OpenAI说,短答案适合机器判定,但研究型任务需要更细颗粒度的量表,于是他们用GPT-5充当模型判卷员,对照短答案逐项打分。
理想状态是请专家逐题批改,现实是规模不允许,于是规则被设计成尽量客观且可被模型检查,并配了验证流程来校准难度与正确性。
成绩单上,OpenAI给出了一轮初测对比。
他们评测了GPT-5.2、Claude Opus 4.5、Gemini 3 Pro、GPT-4o、OpenAI o4-mini、OpenAI o3等模型。OpenAI表示,GPT-5.2在竞赛题上得分77%,在研究题上得分25%,目前领先;Gemini 3 Pro在竞赛题上拿到76%,紧跟其后。

更值得注意的是失败原因。
OpenAI从答题记录里总结,前沿模型仍会犯推理、逻辑和计算错误,会卡在冷门概念上,也会出现事实性偏差。
另一个很朴素的观察也被写进正文:模型想得更久,准确率往往更高。

OpenAI对FrontierScience的边界也直言不讳。
它把科研切成可控的题目,这让评测更标准化,但也意味着它更像一张高清截图,而不是科研的全景纪录片。
尤其是它不评估模型能否提出真正新颖的假设,也不覆盖它与多模态数据和现实实验系统打交道的能力。
接下来,OpenAI计划迭代题库、扩展领域,并配套更多真实世界评估,看这些系统究竟让科学家多做成了什么。
奥赛金牌≠一流科学家,AI距离成为真正能独当一面的一流科学家,还有很长的路要走完。
参考资料:
https://openai.com/index/frontierscience/
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
热门专题
热门推荐
披露文件显示特朗普3月份购买了至少5100万美元的债券 根据4月26日公布的财务披露文件,一份来自美国政府道德办公室的报告揭示了前总统特朗普在3月份的资产动向。数据显示,他当月进行了多达175笔金融交易,其中债券类资产的购买总额至少达到5100万美元。 这些披露表格有一个特点:它们通常不列出每笔买卖
在当今快节奏的生活中,无论是个人工作还是日常生活,我们都需要处理大量的重复性任务。这些任务不仅占用我们的宝贵时间,而且容易导致疲劳和错误。为了解决这一问题,实在智能RPA作为一款出色的自动化工具,成为了个人用户提升工作效率的得力助手。 面对电脑前日复一日的重复操作,你是否也感到过疲惫又无奈?数据复制
RPA Agent:解放人力的数字化员工 咱们先来明确一个概念:RPA Agent,也叫机器人流程自动化智能体。这名字听起来挺技术范儿,但说直白点,它就像一位不知疲倦、绝不犯错的“数字化员工”。它的核心使命,就是替代或者协助我们人类,去处理那些日常工作中大量存在的、重复且规则明确的计算机操作任务。
智能文档抽取:理解其核心与应用价值 什么是智能文档抽取?简单来说,这是一种借助机器学习、自然语言处理等前沿技术,对海量文档进行智能解析的过程。它的本事在于,无论面对的是文本段落还是复杂的表格,都能精准地抓取其中的关键信息,并以“Key-Value”这类高度结构化的格式整理输出。 那么,这项技术在实际
AI人工智能对话的原理 要理解AI如何与你流畅对话,核心绕不开一项关键技术——自然语言处理(NLP)。这门学科可不简单,它巧妙地融合了计算机科学、数学和语言学的智慧。可以说,NLP是整个智能问答系统的大脑,专门负责分析和处理文本信息,目标是让机器真正“读懂”人类的语言。 在具体的问答场景里,NLP技





