上交大团队研发AI物理博士SciMaster实现科研自动化

首页

热心网友

转载

2026-05-16

当大模型的能力从“回答问题”升级为“完成任务”，AI for Science 领域正经历一场深刻的范式变革。

过去，业界主要关注模型在解答标准问题、知识问答和文献综述上的表现。这些能力固然重要，但本质上仍属于信息处理的范畴——它们能提升效率，却难以从根本上改变科研工作的核心推进模式。

究其原因，真实世界中的科学研究，其核心挑战从来不是某个单一能力是否足够强大。真正的难点在于，科研本身是一个长链条、充满不确定性、且高度依赖验证的闭环系统。一个看似基础的物理问题，通常也需要经历建模选择、理论推导、数值实验设计、代码实现、参数调优、结果比对、误差分析等一系列复杂环节。其中任何一个步骤出现偏差，都可能导致整个结论失效。

正因如此，科研效率的长期瓶颈，往往不在于想法是否足够新颖，而在于能否将创新的构想高效、可靠地转化为可验证的结论。大量宝贵的研究时间，实际上消耗在了重复性的工程劳动和漫长的试错迭代过程中。

在此背景下，一项由上海交通大学 SciMaster 团队联合深势科技、中科院理论物理所共同完成的研究，提出了一个更为前沿的解决方案。与其将AI视为分散的辅助工具，不如直接构建一个能够自主规划、组织并执行完整科研闭环的智能系统。这项以《PHYSMASTER: Building an Autonomous AI Physicist for Theoretical and Computational Physics Research》为题发表的研究，旨在探索一个核心问题：AI能否成为科研流程中真正的主导者？

研究团队并未选择在标准数据集上比拼分数，而是通过五个真实的物理研究任务来验证系统的综合能力。这些任务被划分为三个能力层级：加速、自动化、自主发现。其目标非常明确：证明该系统不止于“对话交互”，而是能够像一位训练有素的物理学研究者那样，独立完成从问题定义到结论产出的全流程。

五项任务，验证端到端科研闭环能力

首先来看“加速”类任务。这类任务旨在证明系统能大幅优化成熟但繁琐的标准研究流程。

第一个案例，是从格点量子色动力学（格点QCD）数据中提取Collins–Soper kernel。这是一个粒子物理中标准但计算链条极长的过程：输入是格点QCD的原始欧式关联函数数据和Wilson圈数据，输出则是描述横动量依赖分布随能标演化规律的关键物理量。

系统得到的结果，与已有研究工作的中心趋势一致，并且给出的统计误差范围更小。当然，研究团队也指出，这可能源于系统在某些系统误差的处理上采取了更乐观的估计。

这个案例的关键价值，不在于计算出了某个具体数值，而在于其能够自动执行一整套严谨的物理数据分析全流程：包括从噪声数据中拟合、自动选择合理的拟合区间、进行重整化以消除发散、处理远距离信号的爆噪问题、完成傅里叶变换，并最终提取出目标物理量。这证明了AI不仅“理解理论”，更能“落地执行”。

第二个加速任务更具工程挑战性：从零开始编写程序计算锂原子的第一激发能，且不允许依赖任何成熟的量子化学软件包。系统从头构建了一个变分求解器，最终计算结果与实验值高度吻合，误差小到足以用于科研验证。

任务的难点在于严格的限制条件：不能调用Gaussian或PySCF等专业软件，不能依赖外部检索，只能使用Julia标准库。这意味着它必须自主推导积分形式、实现数值积分、并进行参数优化。其中，三电子体系的交换项处理、核附近发散的数值技巧、基函数的选择与正交化，都极度依赖物理直觉和计算经验。这类工作，一位研究生可能需要数天甚至数周，而系统能在较短时间内完成并得到可靠结果。

接下来是“自动化”类任务，这要求系统能独立完成一个接近完整科研项目的全流程。

第三个成果，是使用量子蒙特卡洛方法计算Union Jack格子Bose–Hubbard模型的相变临界点。系统计算出了一个误差很小的精确临界点，其结论也符合物理直觉：由于格子连接更丰富，该格子的临界点比普通方格子显著降低。

这个任务的强度在于，它不再是照搬公式编写代码。系统需要自行实现QMC核心算法，处理特殊格子拓扑结构带来的细节差异，自动调整参数使系统精确落在关键相区，并在不同尺寸下重复计算，最后通过有限尺度分析外推出无限大系统的可靠临界点。整个过程在没有调用外部知识库的情况下完成，证明了其从物理定义出发独立执行高精度数值模拟研究的能力。

第四个自动化任务形式不同，旨在验证一个具体的物理假设：在潮汐瓦解事件中，nozzle shock的耗散是否会被广义相对论效应显著增强？

背景是，传统理论认为碎片流在近地点附近的nozzle shock会耗散大量能量，但更高分辨率的模拟发现可能高估了耗散强度。系统需要测试的机制是，考虑恒星并非质点而产生的能量展宽，在Kerr黑洞时空中，不同能量碎片的轨道进动不同，可能导致再次汇合时发生非零夹角碰撞，从而增强总耗散。

这个案例体现了“自动化科研循环”的核心能力：给定一个研究方向或假设，系统能够自主完成物理建模、开展数值实验、并基于结果判断该机制是否可能成立。这比单纯执行计算更接近真实的科研探索过程。

最后，第五个成果被定义为“自主发现”类任务，研究对象是粲介子半轻衰变中的哈密顿量构造与振幅预测。研究团队认为，这标志着系统从“协作科学家”向“自主科学家”的跨越。面对开放且复杂的问题，系统不再需要人类逐步指导，而是能够自主探索解决方案路径，并提出研究人员认为具有创新性的方法。这体现了最高等级的能力：不仅高效执行任务，还能主动产出新的研究思路。

实现物理研究的流程化与知识复用

PHYSMASTER的成功，并非依赖于单一的强大模型，而是源于一套模仿科研团队协作的系统性架构。其整体工作流程被清晰地划分为三个阶段：前处理、执行、沉淀与复用。

在前处理阶段，系统首先需要应对真实科研中常见的信息过载、结构模糊和存在歧义的问题。盲目开始计算极易偏离方向。因此，系统会先进行问题澄清与任务拆解：明确物理方向、厘清输入输出、判断任务类型（如工程计算、假设检验等）、梳理必须遵守的物理约束、补足必要的背景知识，并最终将复杂问题拆解为一系列可执行的子任务。这好比研究员在动笔前，先制定一份详尽的研究计划书。

紧接着，系统会为当前任务构建一个专用的动态知识库。这个知识库的目的不是百科式存储，而是为了补齐关键概念和标准做法，引入必要的数值基准，确保后续的理论推导和代码实现不是“凭空造车”。其构建依赖两类角色的协作：一类负责广泛检索以防遗漏，另一类则通过强推理筛选高相关度内容，并从中提取定性知识（如物理图像）和定量知识（如关键参数），同时强调证据链，使每一步结论都可追溯、可验证。

进入执行阶段，系统开始进行理论推导、代码实现与试错迭代。由于物理研究属于超长周期任务，系统采用了多轨迹探索策略，并行尝试多条技术路线，每条路线产出阶段性结果，最终选择最可靠、最完整的一条作为最终解决方案。这更像一个科研小组并行推进多个备选方案，而非在一条路上死磕到底。

执行阶段也有明确分工：“Supervisor”角色如同项目负责人，负责决策下一步行动、管理任务进度、严格检查输出结果的可靠性，并提出批判性反馈，要求修正。“Theoretician”角色则像具体执行的研究员，负责理论推导、物理建模并将模型转化为可运行的程序代码。研究团队特别指出，系统可靠性的关键，恰恰在于“Supervisor”提供的这种持续的批判式反馈与校验机制，从而避免系统在错误的道路上越走越远。

最后是沉淀与复用阶段。系统配备了名为“LANDAU”的长期记忆系统，目的是让经验得以持续积累。它会沉淀任务中检索到的可靠文献、已验证有效的方法流程，以及人工整理的高置信度物理常识。每次任务结束后，本次构建的小型知识库便会并入长期记忆库，使得系统能够像一位经验日益丰富的物理学家一样，在未来遇到类似问题时，反应更快、表现更稳定、决策更可靠。

从科研助手到自主研究者的范式转变

纵观这项研究，其深远意义可以从四个层面来理解。

第一，它实证了AI有能力完成端到端的物理学科研全流程，而不仅仅是解答竞赛题、回答事实性问题或总结文献。这些传统评估方式无法构成真正的研究闭环。真实的物理研究更需要抽象建模、严谨推导、可执行的代码实现以及数值验证等综合能力，而PHYSMASTER的价值，正是将这些过去AI系统相对欠缺的关键能力整合到了一个统一、协同的框架之内。

第二，它有望显著压缩物理研究中最耗费人力的重复性工程劳动。例如编写专用求解器、调试复杂参数、反复运行大规模计算等工作，往往占据研究人员大量时间。加速类案例表明，AI有可能将资深博士生需要一至三个月完成的重量级工程环节，压缩到几个小时甚至更短，从而直接改变科研项目推进的节奏与效率。

第三，自动化类案例进一步说明，整个“提出假设-设计实验-验证-迭代”的科研循环本身也可以被大幅加速。在研究人员给出一个核心思路或方向后，系统能够自动完成后续的探索循环，将原本可能拖延数月、充满不确定性的试错过程，收敛到以“天”为单位的级别。未来的科研分工模式或许将演变为：人类研究者负责提出前沿方向和关键科学洞察，AI系统负责将方向快速转化为可计算、可验证的具体结论。

第四，自主发现类案例则暗示，AI正逐渐具备从“科研助手”转向“合作研究者”甚至“自主探索者”的潜力。自主发现意味着系统不再仅仅是执行明确的指令，而是能够在面对开放性科学问题时，自主探索解决路径并推进研究前沿。这正是从协作科学家迈向自主科学家的关键性转变，为AI驱动科学研究（AI for Science）开启了新的可能性。

PHYSMASTER 背后的研究团队

这项突破性工作的背后，是一支充满活力的年轻科研团队。论文第一作者苗庭嘉，本科就读于上海交通大学致远学院，现为上海交通大学人工智能学院2026级博士研究生，研究方向聚焦于AI智能体与AI for Science，师从陈思衡副教授。在2023至2024年期间，他曾在上海交通大学李政道研究所担任科研助理，从事凝聚态物理理论研究，此后也在字节跳动Seed部门、北京大学计算机学院进行过AI相关领域的研究。自2025年起，苗庭嘉开始与深势科技合作，深度参与SciMaster科研智能体生态的构建与完善工作。

本论文的通讯作者陈思衡，是上海交通大学人工智能学院长聘教轨副教授、博士生导师。他于2016年获得美国卡内基梅隆大学电气与计算机工程博士学位，并入选国家级人才计划青年项目。他的研究方向涵盖图机器学习、群体智能、多智能体协同感知以及大模型智能体。在图信号处理与图结构数据采样理论方面做出了开拓性贡献，曾获得IEEE信号处理协会最佳青年作者论文奖。在群体智能领域，他提出了群智交互感知的语用社会学习思想。近年来，他致力于大模型驱动的智能体技术，主导开发了科研智能体SciMaster和ML-Master，并在AI for AI（人工智能用于人工智能研究）方向上取得了显著进展。