首页 游戏 软件 资讯 排行榜 专题
首页
AI
上交大团队研发AI物理博士SciMaster实现科研自动化

上交大团队研发AI物理博士SciMaster实现科研自动化

热心网友
59
转载
2026-05-16

当大模型的能力从“回答问题”升级为“完成任务”,AI for Science 领域正经历一场深刻的范式变革。

过去,业界主要关注模型在解答标准问题、知识问答和文献综述上的表现。这些能力固然重要,但本质上仍属于信息处理的范畴——它们能提升效率,却难以从根本上改变科研工作的核心推进模式。

究其原因,真实世界中的科学研究,其核心挑战从来不是某个单一能力是否足够强大。真正的难点在于,科研本身是一个长链条、充满不确定性、且高度依赖验证的闭环系统。一个看似基础的物理问题,通常也需要经历建模选择、理论推导、数值实验设计、代码实现、参数调优、结果比对、误差分析等一系列复杂环节。其中任何一个步骤出现偏差,都可能导致整个结论失效。

正因如此,科研效率的长期瓶颈,往往不在于想法是否足够新颖,而在于能否将创新的构想高效、可靠地转化为可验证的结论。大量宝贵的研究时间,实际上消耗在了重复性的工程劳动和漫长的试错迭代过程中。

在此背景下,一项由上海交通大学 SciMaster 团队联合深势科技、中科院理论物理所共同完成的研究,提出了一个更为前沿的解决方案。与其将AI视为分散的辅助工具,不如直接构建一个能够自主规划、组织并执行完整科研闭环的智能系统。这项以《PHYSMASTER: Building an Autonomous AI Physicist for Theoretical and Computational Physics Research》为题发表的研究,旨在探索一个核心问题:AI能否成为科研流程中真正的主导者?

研究团队并未选择在标准数据集上比拼分数,而是通过五个真实的物理研究任务来验证系统的综合能力。这些任务被划分为三个能力层级:加速、自动化、自主发现。其目标非常明确:证明该系统不止于“对话交互”,而是能够像一位训练有素的物理学研究者那样,独立完成从问题定义到结论产出的全流程。

五项任务,验证端到端科研闭环能力

首先来看“加速”类任务。这类任务旨在证明系统能大幅优化成熟但繁琐的标准研究流程。

第一个案例,是从格点量子色动力学(格点QCD)数据中提取Collins–Soper kernel。这是一个粒子物理中标准但计算链条极长的过程:输入是格点QCD的原始欧式关联函数数据和Wilson圈数据,输出则是描述横动量依赖分布随能标演化规律的关键物理量。

系统得到的结果,与已有研究工作的中心趋势一致,并且给出的统计误差范围更小。当然,研究团队也指出,这可能源于系统在某些系统误差的处理上采取了更乐观的估计。

这个案例的关键价值,不在于计算出了某个具体数值,而在于其能够自动执行一整套严谨的物理数据分析全流程:包括从噪声数据中拟合、自动选择合理的拟合区间、进行重整化以消除发散、处理远距离信号的爆噪问题、完成傅里叶变换,并最终提取出目标物理量。这证明了AI不仅“理解理论”,更能“落地执行”。

第二个加速任务更具工程挑战性:从零开始编写程序计算锂原子的第一激发能,且不允许依赖任何成熟的量子化学软件包。系统从头构建了一个变分求解器,最终计算结果与实验值高度吻合,误差小到足以用于科研验证。

任务的难点在于严格的限制条件:不能调用Gaussian或PySCF等专业软件,不能依赖外部检索,只能使用Julia标准库。这意味着它必须自主推导积分形式、实现数值积分、并进行参数优化。其中,三电子体系的交换项处理、核附近发散的数值技巧、基函数的选择与正交化,都极度依赖物理直觉和计算经验。这类工作,一位研究生可能需要数天甚至数周,而系统能在较短时间内完成并得到可靠结果。

接下来是“自动化”类任务,这要求系统能独立完成一个接近完整科研项目的全流程。

第三个成果,是使用量子蒙特卡洛方法计算Union Jack格子Bose–Hubbard模型的相变临界点。系统计算出了一个误差很小的精确临界点,其结论也符合物理直觉:由于格子连接更丰富,该格子的临界点比普通方格子显著降低。

这个任务的强度在于,它不再是照搬公式编写代码。系统需要自行实现QMC核心算法,处理特殊格子拓扑结构带来的细节差异,自动调整参数使系统精确落在关键相区,并在不同尺寸下重复计算,最后通过有限尺度分析外推出无限大系统的可靠临界点。整个过程在没有调用外部知识库的情况下完成,证明了其从物理定义出发独立执行高精度数值模拟研究的能力。

第四个自动化任务形式不同,旨在验证一个具体的物理假设:在潮汐瓦解事件中,nozzle shock的耗散是否会被广义相对论效应显著增强?

背景是,传统理论认为碎片流在近地点附近的nozzle shock会耗散大量能量,但更高分辨率的模拟发现可能高估了耗散强度。系统需要测试的机制是,考虑恒星并非质点而产生的能量展宽,在Kerr黑洞时空中,不同能量碎片的轨道进动不同,可能导致再次汇合时发生非零夹角碰撞,从而增强总耗散。

这个案例体现了“自动化科研循环”的核心能力:给定一个研究方向或假设,系统能够自主完成物理建模、开展数值实验、并基于结果判断该机制是否可能成立。这比单纯执行计算更接近真实的科研探索过程。

最后,第五个成果被定义为“自主发现”类任务,研究对象是粲介子半轻衰变中的哈密顿量构造与振幅预测。研究团队认为,这标志着系统从“协作科学家”向“自主科学家”的跨越。面对开放且复杂的问题,系统不再需要人类逐步指导,而是能够自主探索解决方案路径,并提出研究人员认为具有创新性的方法。这体现了最高等级的能力:不仅高效执行任务,还能主动产出新的研究思路。

实现物理研究的流程化与知识复用

PHYSMASTER的成功,并非依赖于单一的强大模型,而是源于一套模仿科研团队协作的系统性架构。其整体工作流程被清晰地划分为三个阶段:前处理、执行、沉淀与复用。

在前处理阶段,系统首先需要应对真实科研中常见的信息过载、结构模糊和存在歧义的问题。盲目开始计算极易偏离方向。因此,系统会先进行问题澄清与任务拆解:明确物理方向、厘清输入输出、判断任务类型(如工程计算、假设检验等)、梳理必须遵守的物理约束、补足必要的背景知识,并最终将复杂问题拆解为一系列可执行的子任务。这好比研究员在动笔前,先制定一份详尽的研究计划书。

紧接着,系统会为当前任务构建一个专用的动态知识库。这个知识库的目的不是百科式存储,而是为了补齐关键概念和标准做法,引入必要的数值基准,确保后续的理论推导和代码实现不是“凭空造车”。其构建依赖两类角色的协作:一类负责广泛检索以防遗漏,另一类则通过强推理筛选高相关度内容,并从中提取定性知识(如物理图像)和定量知识(如关键参数),同时强调证据链,使每一步结论都可追溯、可验证。

进入执行阶段,系统开始进行理论推导、代码实现与试错迭代。由于物理研究属于超长周期任务,系统采用了多轨迹探索策略,并行尝试多条技术路线,每条路线产出阶段性结果,最终选择最可靠、最完整的一条作为最终解决方案。这更像一个科研小组并行推进多个备选方案,而非在一条路上死磕到底。

执行阶段也有明确分工:“Supervisor”角色如同项目负责人,负责决策下一步行动、管理任务进度、严格检查输出结果的可靠性,并提出批判性反馈,要求修正。“Theoretician”角色则像具体执行的研究员,负责理论推导、物理建模并将模型转化为可运行的程序代码。研究团队特别指出,系统可靠性的关键,恰恰在于“Supervisor”提供的这种持续的批判式反馈与校验机制,从而避免系统在错误的道路上越走越远。

最后是沉淀与复用阶段。系统配备了名为“LANDAU”的长期记忆系统,目的是让经验得以持续积累。它会沉淀任务中检索到的可靠文献、已验证有效的方法流程,以及人工整理的高置信度物理常识。每次任务结束后,本次构建的小型知识库便会并入长期记忆库,使得系统能够像一位经验日益丰富的物理学家一样,在未来遇到类似问题时,反应更快、表现更稳定、决策更可靠。

从科研助手到自主研究者的范式转变

纵观这项研究,其深远意义可以从四个层面来理解。

第一,它实证了AI有能力完成端到端的物理学科研全流程,而不仅仅是解答竞赛题、回答事实性问题或总结文献。这些传统评估方式无法构成真正的研究闭环。真实的物理研究更需要抽象建模、严谨推导、可执行的代码实现以及数值验证等综合能力,而PHYSMASTER的价值,正是将这些过去AI系统相对欠缺的关键能力整合到了一个统一、协同的框架之内。

第二,它有望显著压缩物理研究中最耗费人力的重复性工程劳动。例如编写专用求解器、调试复杂参数、反复运行大规模计算等工作,往往占据研究人员大量时间。加速类案例表明,AI有可能将资深博士生需要一至三个月完成的重量级工程环节,压缩到几个小时甚至更短,从而直接改变科研项目推进的节奏与效率。

第三,自动化类案例进一步说明,整个“提出假设-设计实验-验证-迭代”的科研循环本身也可以被大幅加速。在研究人员给出一个核心思路或方向后,系统能够自动完成后续的探索循环,将原本可能拖延数月、充满不确定性的试错过程,收敛到以“天”为单位的级别。未来的科研分工模式或许将演变为:人类研究者负责提出前沿方向和关键科学洞察,AI系统负责将方向快速转化为可计算、可验证的具体结论。

第四,自主发现类案例则暗示,AI正逐渐具备从“科研助手”转向“合作研究者”甚至“自主探索者”的潜力。自主发现意味着系统不再仅仅是执行明确的指令,而是能够在面对开放性科学问题时,自主探索解决路径并推进研究前沿。这正是从协作科学家迈向自主科学家的关键性转变,为AI驱动科学研究(AI for Science)开启了新的可能性。

PHYSMASTER 背后的研究团队

这项突破性工作的背后,是一支充满活力的年轻科研团队。论文第一作者苗庭嘉,本科就读于上海交通大学致远学院,现为上海交通大学人工智能学院2026级博士研究生,研究方向聚焦于AI智能体与AI for Science,师从陈思衡副教授。在2023至2024年期间,他曾在上海交通大学李政道研究所担任科研助理,从事凝聚态物理理论研究,此后也在字节跳动Seed部门、北京大学计算机学院进行过AI相关领域的研究。自2025年起,苗庭嘉开始与深势科技合作,深度参与SciMaster科研智能体生态的构建与完善工作。

本论文的通讯作者陈思衡,是上海交通大学人工智能学院长聘教轨副教授、博士生导师。他于2016年获得美国卡内基梅隆大学电气与计算机工程博士学位,并入选国家级人才计划青年项目。他的研究方向涵盖图机器学习、群体智能、多智能体协同感知以及大模型智能体。在图信号处理与图结构数据采样理论方面做出了开拓性贡献,曾获得IEEE信号处理协会最佳青年作者论文奖。在群体智能领域,他提出了群智交互感知的语用社会学习思想。近年来,他致力于大模型驱动的智能体技术,主导开发了科研智能体SciMaster和ML-Master,并在AI for AI(人工智能用于人工智能研究)方向上取得了显著进展。

来源:https://www.leiphone.com/category/academic/STyTNnhuPR6uMvP4.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真
AI
双阶段方案让虚拟图像骗过AI眼睛游戏画面以假乱真

你是否好奇,游戏《GTA》中飞驰的汽车与现实中监控摄像头拍下的车辆,在人工智能的“视觉系统”里究竟有多大差别?尽管现代游戏画面已极为逼真,光影、材质与场景构建都栩栩如生,但对于自动驾驶、交通监控、智慧城市管理等需要落地应用的AI算法而言,虚拟游戏图像与真实世界照片之间,依然横亘着一道肉眼难以分辨、却

热心网友
05.16
港大与京东探索院联手优化视频AI四步提升实用体验
AI
港大与京东探索院联手优化视频AI四步提升实用体验

这项由香港大学、京东探索研究院、清华大学、北京大学和浙江大学联合完成的研究,以技术报告形式发布于2026年4月,论文编号为arXiv:2604 25427,有兴趣深入了解的读者可通过该编号查询完整原文。 你是否曾尝试用AI生成视频,却对结果感到失望?画面与描述不符、人物肢体扭曲、场景光影闪烁,最终视

热心网友
05.16
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案
AI
数据表描述不一致导致AI检索失败?伦斯勒理工与亚利桑那州立大学提出修复方案

2026年4月,一项由伦斯勒理工学院与亚利桑那州立大学联合开展的研究,在arXiv预印本平台发布(编号:arXiv:2604 24040v1),系统性地揭示并量化了AI表格检索领域一个长期存在的“盲点”——表格序列化格式对检索性能的巨大影响。 一、格式不同,AI就“认不出”同一张表格了? 设想一个典

热心网友
05.16
腾讯混元AI新突破:实时自适应系统取代传统固定模型
AI
腾讯混元AI新突破:实时自适应系统取代传统固定模型

腾讯混元团队提出新方法,使模型在推理时能根据输入动态生成参数,实现实时适配。实验表明,该方法在图像编辑任务中效果显著,能有效处理冲突需求,并在多项评测中领先,推动了智能模型从静态向动态演进。

热心网友
05.16
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法
AI
北大林宙辰团队ICLR 2026研究:基于最优传输的时序预测模型训练方法

北京大学团队提出DistDF损失函数,基于最优传输理论对齐预测与真实标签的联合分布,规避传统逐点损失中的独立性假设,实现无偏训练。该方法能有效捕捉序列整体形态与结构,兼容多种模型,在实验中展现出更优性能。

热心网友
05.16

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美光发布245TB超大容量SSD G9闪存驱动AI数据中心能效革新
业界动态
美光发布245TB超大容量SSD G9闪存驱动AI数据中心能效革新

2026年5月6日,存储行业迎来一个标志性节点:美光正式向市场交付其6600 ION系列固态硬盘的245TB版本。这不仅刷新了商用SSD的容量纪录,更意味着数据中心存储的密度与能效竞赛,进入了新的阶段。 这款“巨无霸”SSD的核心,是美光自研的第九代(G9)276层3D QLC NAND闪存颗粒。为

热心网友
05.16
小米昆仑增程SUV路试曝光 预计2026年下半年正式上市
业界动态
小米昆仑增程SUV路试曝光 预计2026年下半年正式上市

2026年5月5日,小米汽车旗下备受期待的首款增程式全尺寸SUV——内部代号“昆仑”的路试谍照正式曝光。作为一款瞄准多人口家庭用户市场的战略车型,“昆仑”采用了当前市场热门的增程式混合动力技术路线,旨在为用户提供无里程焦虑的纯电出行体验。 据悉,这款全新SUV计划于2026年下半年正式上市发布,其亮

热心网友
05.16
荣耀600系列国行版发布:2亿像素三摄与8500mAh大电池
业界动态
荣耀600系列国行版发布:2亿像素三摄与8500mAh大电池

备受期待的荣耀600系列手机国行版本,即将在本月下旬正式登陆国内市场。根据最新备案信息,该系列将提供六款独具特色的配色供消费者选择,分别为:象征喜悦的“好事橙”、寓意美好的“幸运星”、清新淡雅的“茉莉白”、活力十足的“青苹果”、深邃迷人的“光羽蓝”,以及永不过时的经典“曜石黑”。 从硬件配置来看,荣

热心网友
05.16
黎明行者之血速通攻略 一小时跳过剧情通关
游戏攻略
黎明行者之血速通攻略 一小时跳过剧情通关

近日,游戏界传来一则颇具讨论价值的消息。由前《巫师3》总监Konrad Tomaszkiewicz领衔的工作室Rebel Wolves,正式公布了其正在开发的黑暗奇幻角色扮演游戏《黎明行者之血》的一项激进设计:玩家在完成序章后,几乎可以跳过所有支线任务与地图探索,直接挑战位于城堡中的最终BOSS。

热心网友
05.16
老夫子攻速铭文最佳搭配方案与实战技巧
游戏攻略
老夫子攻速铭文最佳搭配方案与实战技巧

在王者荣耀的对抗路中,老夫子凭借其独特的机制,始终是令对手头疼的强势英雄。想要真正掌握这位“单挑王”,一套精准的攻速铭文搭配与灵活的出装思路,是奠定你线上压制力与团战影响力的关键。正确的配置,能让你从对线期开始就掌握主动权。 攻速铭文搭配:构筑前期优势的核心 铭文是英雄前期作战能力的基石。对于依赖普

热心网友
05.16