上海交通大学研发AI科研机器人可自主实验与反思优化

首页

热心网友

转载

2026-05-15

这项由上海交通大学人工智能学院联合SciLand与DP Technology共同完成的研究，于2026年4月以预印本形式发布在arXiv平台，论文编号为arXiv:2604.17406。研究的核心成果是一个名为EvoMaster的智能体框架，旨在让AI像真正的科学家一样自我进化、持续学习。

上海交通大学造出

科学家是如何开展工作的？他们提出猜想、设计实验、观察结果、推翻旧假设、再提出新猜想——如此循环往复，不断逼近真相。这个过程有时需要耗费数年甚至数十年。如今，一个研究团队提出了一个大胆的构想：如果AI也能像科学家一样循环迭代、越用越聪明，会发生什么？

这正是EvoMaster试图解答的核心问题。它并非针对某个特定学科的专用工具，而是一套“基础架构”——任何领域的研究者都可以基于这套架构，用大约100行代码快速搭建属于自己学科的AI科研助手。无论是物理、化学、机器学习还是生物学，都能使用同一套底层框架进行支撑。

在四项权威基准测试中，EvoMaster的表现相当出色：在考察跨学科专业知识的“人类最后一考”（HLE）中取得了41.1%的正确率；在考察机器学习工程能力的MLE-Bench Lite中获得了75.8%的奖牌率；在考察复杂网络信息检索的BrowseComp中达到了73.3%；在考察前沿科学推理的FrontierScience中达到了53.3%。与同期增长最快的开源通用AI智能体OpenClaw相比，这四项成绩的相对提升幅度分别达到了202%、316%、159%和191%，优势显著。

一、AI进行科学研究，真的可行吗？

科学研究，历来被视为人类智慧最集中的体现。AlphaFold能够预测蛋白质结构，GNoME发现了220万种新晶体结构——这些成就令人惊叹。但研究人员指出，这些AI系统本质上仍是“工具”：它们回答人类提出的特定问题，而非自主发现问题、设计实验并反思修正。

真正意义上的“智能科研”需要一个完整的循环：从文献调研、提出假设，到设计实验、执行代码、分析结果，再到撰写报告——整个链条都由AI自主完成，并且每一次循环结束后，AI都能从经验中学习，在下一次做得更好。研究人员将这种范式称为“智能体科学”（Agentic Science），进一步扩展到多个学科并行运转，便是“规模化智能体科学”（Agentic Science at Scale）。

问题在于，目前大多数AI科研系统存在两个根本性缺陷。第一，它们高度专业化且相互割裂。例如ChemCrow专为化学合成定制，MLAgentBench仅适用于机器学习流水线。每创建一个新领域的AI，都需要从零开始重写工具调用、任务管理、错误处理等大量基础代码，成本极高。第二，它们是“一次性”的——执行一次任务便结束，下次重启时如同一张白纸，不具备从失败中学习和积累经验的能力。这就好比雇佣了一位实验室助手，而他每天早晨都会将前一天所学全部遗忘，一切从头开始。

EvoMaster正是为了同时解决这两个问题而诞生的。

二、构建基础：为所有学科提供统一框架

要理解EvoMaster为何能够实现“用100行代码部署一个新领域的AI科学家”，可以用建筑来类比。建造一栋摩天大楼，大部分成本都投入在地基、钢结构、电梯、消防系统等基础设施上，每个租户无需自建电梯，只需装修自己的楼层即可。EvoMaster扮演的正是“大楼基础设施”的角色，而各个学科的AI智能体只需“装修自己的那一层”。

具体而言，EvoMaster将整个系统划分为三个相互独立又紧密协作的层次。最上层称为Playground（游乐场），负责协调多个AI智能体之间的合作以及特定学科的工作流程。中间层称为Exp（实验），负责管理一次实验的完整生命周期，包括任务启动和过程记录。最下层称为Agent（智能体），是驱动AI进行推理和工具调用的核心循环。

这种分层设计带来了一个非常实际的优势：如果研究人员改进了底层的推理引擎或记忆管理机制，所有基于此框架构建的学科智能体都能同步受益，无需每个学科单独升级。这就像大楼更换了更节能的中央空调系统，所有楼层的租户都能享受更低的能耗，而无需每家每户自行更换空调。

为了实现不同工具和能力之间的无缝对接，EvoMaster还遵循了业内的通行标准，例如模型上下文协议（MCP）和技能规范（Skill）。任何符合这些标准的外部工具，都可以直接接入EvoMaster，无需额外的适配工作。这意味着为化学实验开发的某个专用工具，理论上也能被生物学或物理学的AI智能体直接调用，实现真正的跨学科工具共享。

三、让AI学会“越用越聪明”：迭代进化的核心引擎

EvoMaster最与众不同的地方，在于它将“持续进化”这一理念深度融入了系统的核心架构中。

在Agent引擎层面，AI的工作模式是一个不断循环的闭环：推理→调用工具→观察结果→自我批判→再次推理。每完成一个环节，AI都会主动反思“这一步做得如何？是否有更好的方案？”，然后带着这份反思进入下一轮。这个循环可以持续数百轮，就像一位研究生在导师指导下反复修改实验方案，每一次迭代都比上一次更接近正确答案。

但这里存在一个技术挑战：AI处理信息的“工作区”（即上下文窗口）容量有限，如果数百轮对话的内容全部堆积其中，很快就会超出负载。EvoMaster为此设计了一个智能的“上下文管理器”，能够动态地对历史对话进行压缩和总结，保留最关键的信息，精简冗余内容。这好比一位研究人员不会将五年前的每一张实验记录都带到今天的组会上，而是会整理出一份精炼的研究摘要，随身携带最重要的发现和教训。

在更高层面上，多个AI智能体还可以组成团队协同工作。EvoMaster的Playground协调器支持多种合作模式：有的智能体负责提出解决方案，有的负责挑错，有的负责改写和优化，最终由选择机制决定最优方案。这种“求解者-批评者-改写者”的分工结构，模拟了真实学术圈中同行评审的动态过程：优秀的想法经过同行质疑和打磨后会变得更加强健，存在缺陷的方案则会在批评中被淘汰。

为了保证整个过程的严谨性与可复现性——毕竟科学研究的基石就是可重复性——EvoMaster将每一次实验的所有参数都以YAML格式的配置文件记录下来，并将每一轮对话、每一次工具调用、每一个token的消耗都写入结构化的JSON日志中。研究人员可以像查阅实验室笔记本一样，随时回溯任何一次实验的完整过程，也可以将配置文件直接分享给同行，让对方在完全相同的条件下复现实验。

四、基于此框架构建的科研生态：SciMaster家族

EvoMaster不仅仅是一个框架概念，它已经催生出一个实际运行的AI科研生态系统，统称为SciMaster系列。

其中，ML-Master 2.0专门针对自主机器学习任务，拥有多阶段迭代优化流水线，包含知识预取、方案起草、最多20轮的并行改进，以及一套层次化的“认知缓存”机制——将每轮学到的经验按不同粒度分别存储，供后续轮次调用。这套机制使其在模拟真实Kaggle竞赛的MLE-Bench测试中表现出色，在22场竞赛中斩获约17枚奖牌，而对照组OpenClaw提交了18场却仅获得4枚。

X-Master面向通用科学研究，采用四阶段并行流水线处理复杂问题：先由多个求解者生成候选答案，再由批评智能体找出错误，接着由改写智能体迭代优化，最后由选择机制确定最优方案。这个流程对于那些初次尝试就容易出错的难题尤其有效，因为通过批评和重写的循环，即使初稿不理想，最终答案仍有被精心打磨出来的机会。

Browse-Master专门处理复杂的网络信息检索任务，采用“规划者-执行者”的双角色迭代模式，最多可进行10轮搜索循环。规划者根据已有的搜索结果制定下一步的检索策略，执行者通过网页搜索、URL抓取、PDF提取等方式获取信息。这种持续深挖、交叉验证的方式，使其在需要遍历数十甚至数百个网页才能找到答案的任务上远超竞争对手。

PhysMaster专注于物理领域的研究与推理，X-Master 2.0则强化了前沿科学推理能力，配备了谷歌学术、Semantic Scholar等学术检索工具，能够在回答问题时先行查阅相关文献，基于真实的文献来源给出有据可查的答案。EmboMaster则面向具身智能训练这一更偏向机器人技术的领域。目前该生态已有4个开源版本，另有3个即将发布。

五、四场“大考”，成绩单表现如何？

为了全面验证EvoMaster的能力，研究团队选择了四个受学界广泛认可的权威基准测试，并与OpenClaw进行了直接对比。两者使用完全相同的底层语言模型（GPT-5.4）和相同的工具集，唯一的变量就是框架本身。

第一场考试是HLE（人类最后一考）。这是迄今为止最难的闭卷知识测试之一，汇集了来自全球500多所机构的近千名专家设计的2500道题目，涵盖数学、生物医学、计算机科学、物理、人文社科、化学等多个领域，其中约14%的题目还需要理解图像。EvoMaster取得了41.1%的正确率，而OpenClaw仅为13.6%。分学科来看，提升幅度最大的是数学（EvoMaster 48.16% vs OpenClaw 15.06%，提升33个百分点），其次是人文学科和社会科学，在每个学科上EvoMaster都展现出显著优势。

第二场考试是MLE-Bench Lite，它模拟真实的Kaggle机器学习竞赛，评估AI完成端到端机器学习工程任务的能力，包括数据处理、特征工程、模型训练和结果提交。EvoMaster的奖牌率达到75.76%，而OpenClaw仅为18.18%，相对提升高达316%，是四项测试中差距最为悬殊的一项。与MLE-STAR-Pro-1.5和R&D-Agent这两个专为机器学习任务设计的系统相比，EvoMaster在“任意奖牌率”这一综合指标上也排名第一（75.76% vs 68.18%），并且在“有效提交率”上与MLE-STAR-Pro-1.5并列满分100%。

第三场考试是BrowseComp，专门考察深度网络信息检索能力，1266道题目中的每一道都需要AI在互联网上遍历大量网页才能找到答案。EvoMaster取得了73.33%的正确率，OpenClaw为28.33%。按任务类别拆分，在“地图+搜索”类任务上EvoMaster达到75%而OpenClaw只有25%；在“小众知识”类任务上EvoMaster达到88.23%而OpenClaw为47.05%；在“多步推理”类任务上EvoMaster达到65.63%而OpenClaw仅为18.75%。

第四场考试是FrontierScience，分为奥林匹克竞赛题（由物理、化学、生物国际竞赛金牌得主设计）和科研任务（由博士级科学家设计）两个方向。EvoMaster在科研任务方向取得了53.33%的正确率，OpenClaw为18.33%，而单纯使用GPT-5.4模型直接回答的正确率只有33%，专门为此优化的Muse Spark系统也仅为38.3%。这表明框架层面的迭代推理和工具增强，能带来远超基础模型本身的能力提升。

另有一张图表特别值得关注：在为期24小时的MLE-Bench测试过程中，EvoMaster的奖牌率随时间推移呈现单调递增趋势——从初始接近零的水平，稳步爬升至最终的约0.55。这条曲线直观地证明了“持续进化”并非只是一个概念，而是真实发生在系统运行过程中的现象。

六、坦诚面对局限：哪些方面仍需突破？

研究团队在论文中主动指出了EvoMaster当前的核心局限：它本质上是一个在计算机虚拟环境中运行的框架，尚不能直接控制真实的物理实验设备。例如，自动化合成实验室的机械臂、云端实验平台的硬件操控接口等，目前都还不在EvoMaster的能力范围之内。

换言之，EvoMaster当前最擅长的是“动脑”——编写代码、检索文献、进行数学推理、优化模型——而非“动手”。要让AI真正操控试管进行化学实验，还需要将框架的“会话”接口进一步扩展到对物理实验装置的控制协议上，这正是研究团队明确列为下一步工作的方向。

归根结底，EvoMaster所实现的目标可以用一句话概括：将“科学家的工作方式”编码进了AI的运行逻辑中。科学家不会只做一次实验就放弃，他们会反复试错；科学家不会每天遗忘前一天所学，他们会积累经验；科学家不会单打独斗，他们会与同行讨论、接受批评、修改方案。EvoMaster将这些工作习惯都转化为了代码。

这对普通人意味着什么？短期内，它可能加速药物研发、新材料发现、气候建模等领域的科研进程。长期来看，如果一个框架真能让AI在数十个学科并行开展科学研究，那么科学进步的速度可能会发生根本性的改变——不再受限于人类研究人员的数量和精力，而是取决于AI智能体架构设计得是否足够精妙。

一个值得深思的问题是：当AI能够自主进行科学研究时，人类科学家的角色将如何演变？提出问题、判断价值、阐释意义——这些可能仍然是人类最不可替代的贡献。有兴趣深入了解的读者可以通过arXiv编号2604.17406查阅完整论文。

Q&A

Q1：EvoMaster与普通的AI聊天工具有何本质区别？

A：普通AI聊天工具每次对话都是独立的，回答完毕即结束，不会从本次对话中学习任何内容用于下次。EvoMaster的核心区别在于其具备持续进化的能力：在一次长达数小时甚至24小时的科研任务中，它会不断执行实验、观察结果、自我反思、调整策略，并且将学到的经验积累起来用于后续轮次，从而越做越好，这更接近真正科学家的工作模式。

Q2：EvoMaster为何仅用100行代码就能支持一个新学科？

A：因为EvoMaster已将所有学科通用的“基础设施”——如工具调用、记忆管理、实验记录、多智能体协调——都在框架层面预先构建完成。开发新学科的AI只需要编写“该学科特有的逻辑”，就像在一栋已建好的大楼里只需装修自己的楼层，无需重新打地基。此外，框架支持行业标准接口，现有工具可以直接接入，极大地减少了重复开发工作。

Q3：在FrontierScience测试中，EvoMaster取得的53.3%属于什么水平？

A：FrontierScience的科研任务方向由博士级科学家设计，涵盖物理、化学、生物三个领域，采用10分制评分。EvoMaster取得的53.3%正确率，意味着它在这类博士级难题上平均能获得超过一半的分数。相比之下，直接使用GPT-5.4模型仅能获得33%的正确率，专门优化的Muse Spark系统为38.3%，而通用智能体OpenClaw只有18.3%。这表明，框架层面的迭代推理和学术工具增强，能将基础模型的表现提升至原来的1.6倍以上。

来源:https://www.techwalker.com/2026/0428/3185408.shtml

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：香港中文大学推出AI游戏开发框架轻松将创意转化为可玩作品下一篇：中科院软件所解析AI多模态大模型为何更擅长图像处理