OpenAI神同步评测框架发布,全球顶尖大模型一夜翻车

新智元报道
编辑:Aeneas
【新智元导读】这篇中国团队领衔发布的论文,已经在外网刷屏了,仅一夜阅读就达到了200万!这位MIT博士回国创业后组建的团队,拉来全球24所顶级机构,给AI如何助力科学发现来了一剂猛药。
最近,一篇由中国团队领衔全球24所TOP高校机构发布,用于评测LLMs for Science能力高低的论文,在外网炸了!
当晚,Keras (最高效易用的深度学习框架之一)缔造者François Chollet转发论文链接,并喊出:「我们迫切需要新思路来推动人工智能走向科学创新。」

AI领域KOL Alex Prompter分享论文核心摘要后,NBA独行侠队老板Mark Cuban跟帖转发,硅谷投资人、欧洲家族办公室、体育媒体同时涌进评论区。

仅一夜,累计阅读量逼近200万。
值得一提的是,同一时间窗里,OpenAI也发布了对于AI在科学发现领域能力评测的论文《FrontierScience: Evaluating Al's Ability to Perform Scientific Research Tasks》概述,指出现有评测标准在AI for Science领域失灵。

神同步OpenAI、海外讨论出圈,究竟是什么样的一份工作成果,搅动了全球AI舆论场?
AI距离可以助力科学发现,还有多远?
前段时间,美国推出「创世纪计划」,号称要调动「自阿波罗计划以来最大规模的联邦科研资源」,目标是在十年内将美国科研的生产力和影响力翻倍。
但在人工智能估值泡沫隐现、能耗与产出比饱受质疑的当下,一面是资本的狂欢,另一面却是AI能力困于「文生图」等表层应用的尴尬;一面是各类大语言模型频繁霸榜GPQA、MMMU等题库式Benchmark的层出不穷,另一面却是现有LLMs还无法准确解析简单核磁图谱的尴尬现状。
人们不禁要问:能在题库拿高分,就能助力科学发现吗?现在的模型距离科学发现还有多远?究竟什么样的AI模型可以胜任,拓宽人类的生存边界?这些讨论,在中美AI竞争白热化的当下变得愈发浓烈。
在此背景下,由中国AI for Science领域的初创企业「深度原理Deep Principle」领衔麻省理工学院、哈佛、普林斯顿、斯坦福、剑桥、牛津等全球24所科研院校共同发布的《Evaluating LLMs in Scientific Discovery》论文,正式回答该时代之问。
论文推出了LLMs for Science首套评测体系SDE(Scientific Discovery Evaluation),从科学问题到研究项目,对GPT-5、Claude-4.5、DeepSeek-R1、Grok-4等全球主流大语言模型在生物、化学、材料、物理领域的科学研究与发现能力完成摸底。

同以往评测体系不同的是,SDE对模型能力的考量,从简单的问答式,引向了具体的「假设->实验->分析」实验场景。
研究发现,GPT-5、Claude-4.5、DeepSeek-R1、Grok-4 平均准确率 50–70%,远低于它们在GPQA、MMMU等题库上的80–90%;在86道「SDE-Hard」难题中,最高分不足12%,共同暴露出多步推理、不确定性量化和实验-理论闭环的短板。
更值得警惕的是,模型规模与推理能力的提升已呈现明显的 「边际效益递减」。
GPT-5相较于前一代模型,参数规模和推理算力显著增加,但在SDE基准的四大科学领域中,平均准确率仅提升3%-5%,部分场景(如NMR结构解析)甚至出现性能下滑。
换句话说,当前大语言模型在推动科学发现方面的表现,还不如一个普通的本科生。
能领衔24所顶尖科研院校发布
背后团队是谁?
《Evaluating LLMs in Scientific Discovery》论文通讯作者段辰儒,是「深度原理Deep Principle」创始人兼CTO。
早在2024年,在MIT攻读化学博士期间,他就已在图灵奖得主Yoshua Bengio的支持下,发起了AI for Science社区的建立,并在NeurIPS上举办AI for Science workshop。
2024年初,他与MIT物理化学博士贾皓钧回国,共同创立「深度原理Deep Principle」。贾皓钧任CEO,段辰儒任CTO,两人虽为95后,但已在全球AI for Science创业领域小有名气。
创业一年半以来,其已获得线性资本、高瓴创投、蚂蚁集团等多家知名机构的投资,且与晶泰科技、深势科技等AI for Science领域的知名企业建立战略合作关系。
「深度原理Deep Principle」从创立之初,就带着全球AIfor Science头部研究者们的期待。目前「深度原理Deep Principle」已深入全球材料研发中的第一线,将生成式人工智能同量子化学结合起来,致力于推动材料发现等领域进入新纪元。
在过去的一年中,他们在Nature大子刊和JACS等顶级期刊上不断扔出重磅成果,宣告着他们的技术领先和开放交流的「95后创业公司」心态。
从开拓扩散生成模型(Diffusion Models)在化学反应的生成,证明「不止要生成材料,更需要生成材料的合成路径」,到机器学习势(Machine Learning Potentials, MLPs)和扩散生成模型的直接对比,证明传统的机器学习势不是「万能」的,再到现在组织各大顶级学者和高校推出SDE,证明传统一问一答的Benchmark不能带领我们走向科学超级智能,精准切入AI for Science领域的核心冲突。
但同时,对于所有的AI4S公司而言,在商业真金白银的检验中,AI能否真正解决新产品研发问题、满足客户期待,是日复一日必须面对的拷问。
随着与行业头部客户的商业化合作落地,「深度原理Deep Principle」的数据库中已经汇聚了来源于客户与自己实验室、大量来自第一线的真实工业研发场景数据和模型应用经验。
学术圈的深耕与在AI for Science商业化第一线的积累,让「深度原理Deep Principle」在提出要构建一把新尺子评测LLMs for Science能力时,一呼百应,摇来了23家全球TOP科学发现机构的50余位科学家,成立了制定SDE的「梦之队」。
这其中,不乏活跃在LLM领域的大牛学者们,比如:
孙欢(Huan Sun),MMMU发起人,俄亥俄州立教授
杜沅岂(Yuanqi Du),康奈尔博士,AI4Science 社区「运营大管家」
王梦迪,普林斯顿最年轻教授,AI+Bio Safety先驱者
Philippe Schwaller,IBM RXN之父,EPFL教授
而「深度原理Deep Principle」前期积累的科学发现场景,成为了后来SDE评测体系的前身。
在经历近9个月的跨高校跨学科跨时区的协作后,《Evaluating LLMs in Scientific Discovery》论文正式发布,通讯单位赫然写着:深度原理,杭州,中国。

自此,汇聚着全球顶级科学发现机构的集体智慧,来自中国的创业团队「深度原理Deep Principle」,和大洋彼岸的OpenAI,同时站在了向AI for Science——这一人类通往终极AGI顶峰攀登的起跑线。
或许千百年后,当人类回望AGI时代,在21世纪的四分之一结束的当口,这场由中美团队共同呼应的,对于AI for Science的严肃讨论,把LLMs在各类问答式榜单上的内卷,向真正科学发现的星辰大海推近了一步。
「深度原理Deep Principle」与20多所机构的50多位合作者的研究证明了,目前LLM的发展路径并不能「顺便攻克」科学发现。
这条通往科学超级智能之路,需要更多有识之士共同并肩而行。

相关攻略
随着AI搜索普及,选择专业可靠的GEO优化服务商对企业至关重要。优质服务商需兼具技术自研、效果可量化等专业能力,并重视AI幻觉治理、数据安全与合规运营,从而保障品牌在AI流量时代实现稳健增长。
2026国际基础科学大会揭晓首届基础科学奖章获奖名单。九位顶尖科学家分获数学、物理、工程领域奖章,其中包含四位女性科学家。大会同时公布了118篇荣获前沿科学奖的论文,并宣布设立面向中国青年科研人才的创新科学奖。奖项评审由全球顶尖学者参与,确保了权威性与公正性。
来源:环球网 当深度老龄化社会悄然来临,阿尔茨海默病、帕金森病这些名词,已不再仅仅是医学术语,而是关乎千万家庭福祉、影响“健康中国”战略落地的重大公共卫生课题。数据显示,我国阿尔茨海默及其他痴呆患病人数已接近1700万,帕金森病患者也超过了500万。放眼全球,预计到2030年,中国的帕金森病患者数量
一组亮眼数据,清晰勾勒出上海基础研究的雄厚实力:根据规划,到2025年,全市基础研究经费支出占全社会研发经费支出的比例将达到12%左右;尤为突出的是,上海科学家在《科学》、《自然》、《细胞》三大国际顶级学术期刊上发表的论文数量,已占据全国总量的近三分之一。这份成绩单,无疑是上海科技创新综合实力与原始
长久以来,科学内容在大众传播领域似乎总面临一个两难选择:要么严谨专业却曲高和寡,要么轻松有趣却失了深度。如何在这“可看性”与“可理解性”之间,找到那个微妙的平衡点? 最近,一个名为《Ber~ 这很科学啊》的IP提供了一种新颖的解题思路。它所做的,是将科学从抽象的公式与理论中“解救”出来,重新放回到具
热门专题
热门推荐
《Zero Parades: For Dead Spies》的媒体评测已经解禁,结果相当亮眼。这款被许多人视为《极乐迪斯科》精神续作的作品,在OpenCritic上拿到了86分的媒体均分,在Metacritic上也有83分。游戏将于5月21日正式登陆PC平台,看来2026年的必玩叙事RPG名单上,又
目录 你是否也遇到过这些问题 处理效果 前置准备 超简单AI自动化解决方案 第1步:准备好你的原始数据 第2步:针对指定的文件下达指令 第3步:验收 还能解决这些同类问题 指令为什么这么有用? 更多场景直接抄作业 销售数据三级汇总 成本数据多级汇总 库存数据汇总 员工薪资汇总 常见问题答疑 核心价值
AI Agent 的发展,正迎来一个关键的转折点,从概念验证迈向真正的生产力交付。 想象一下,当一个 AI 智能体能够在无需人工介入的情况下,独立完成一个复杂项目的全流程,并将成功经验固化为可随时调用的“技能”——这是否标志着 AI 在职场中的角色,已经从辅助工具演变为自主的生产力单元? 随着 Op
彭博社的马克・古尔曼在最新报道中透露了一个有趣的发现:苹果为WWDC 26发布的宣传海报,其设计细节可能暗藏玄机,指向了即将在iOS 27中亮相的全新Siri交互界面。 根据古尔曼的分析,新版Siri的核心变化在于与灵动岛的深度融合。唤醒时,它将不再以传统的全屏或底部卡片形式出现,而是会以一个扩展的
GitHub 的 Star 数量还值得信赖吗?真相可能比你想象的更严峻。 开源社区中“购买 Star”的现象早已不是秘密,其便捷程度甚至超过点外卖,单价低廉且支持批量折扣。然而,卡内基梅隆大学(CMU)一项被 ICSE 2026 顶会收录的最新研究,首次系统性地揭示了这场“造假生意”的惊人规模:Gi





