游乐游手机版
首页/AI热点日报/热点详情

从答题到做实验 SciAgentGym让大模型进入科学工作流

类型:热点整理2026-07-02
说一个核心判断:科学智能体的未来,可能不在于它“知道”多少,而在于它“做到”什么。 这个判断,来自 DeepMind 联合创始人、诺贝尔化学奖得主 Demis Hassabis 一直以来的观点。他把 AI 看作推动知识前沿的关键工具——能处理复杂数据、挖掘隐藏模式,甚至参与更深层的科学探索。但问题是

说一个核心判断:科学智能体的未来,可能不在于它“知道”多少,而在于它“做到”什么。

这个判断,来自 DeepMind 联合创始人、诺贝尔化学奖得主 Demis Hassabis 一直以来的观点。他把 AI 看作推动知识前沿的关键工具——能处理复杂数据、挖掘隐藏模式,甚至参与更深层的科学探索。但问题是,当前的大模型真的能胜任这活儿吗?

从答题到做实验:SciAgentGym让大模型进入科学工作流

要走向 Hassabis 设想的目标,光会答题可不够。科学智能体在真实场景里,得干这些事:检索数据库、调用专业软件、执行计算、分析结果,还得根据环境反馈不断修正方向。科学推理,远不止发生在语言空间里。它更发生在工具调用、环境反馈和错误恢复的循环中。

这就给评测提了新要求。评估一个科学智能体,不能只看它答得对不对,要看它在复杂工具环境里,能不能稳定、高效地完成多步任务。

正是出于这个背景,复旦大学 NLP 实验室推出了 SciAgentGym——一个专为多步科学工具使用设计的智能体环境,用来评估模型在复杂科学工作流中的执行力、反馈处理能力和任务完成能力。

  • 论文标题:SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents
  • 论文地址:https://arxiv.org/pdf/2602.12984
  • 项目网站:https://sciagentgym.github.io/

SciAgentGym:为科学智能体搭建工作流环境

SciAgentGym 的核心价值,是给 Agent 提供了一个可交互、可执行、可反馈的科学环境。这个环境由四类基础设施组成:专业工具库、文件系统、科学数据库和 Python 解释器。模型在任务过程中,可以调用科学工具、执行代码、查询数据库,也能读取环境返回的结果、报错信息和中间文件。每个任务都拥有独立的工具注册、文件系统和执行历史,这意味模型确实进入了一个科学工作空间。

为了让环境承载复杂科学任务,设计上强调了三个原则。

第一个是 Type Safety,即类型安全。科学工具之间不是随便连接的。一个工具可能输出分子式,另一个工具需要蛋白结构;一个工具返回矩阵,另一个只能接收三维向量。SciAgentGym 给工具定义了明确的输入输出类型,环境能检查调用是否合法,也能判断工具之间能否自然衔接。

第二个是 Reproducibility,即可复现性。模型的每一次工具调用、每一个中间结果、每一次环境反馈,都会被记录成结构化轨迹。最终评测得到的,不只是一个答案,而是模型完成任务的完整过程。

第三个是 Extensibility,即可扩展性。工具按学科和标准协议组织,方便接入新领域。论文中,团队把 RDKit、ASE、SciPy、BioPython、PyMatGen 这些成熟计算包封装成工具,再按计算、分析、可视化和查询等功能分类,并用自动化单元测试筛选质量。

简单说,SciAgentGym 的设计目标很明确:为科学智能体搭建一个能承载真实工作流的执行环境。在这个环境里,模型要理解工具依赖、管理中间状态、利用环境反馈,把多个步骤组织成一条连续的流程。

(图:SciAgentGym 总体框架。左侧为科学环境与工具系统,右侧展示 SciAgentBench 评测、Agent Interface 交互和 SciForge 训练流程。)

SciAgentBench:评测模型能否完成长程科学任务

环境搭好了,下一个关键问题就是:当前的大模型,在复杂科学工作流里到底行不行?

SciAgentBench 就是为这个目的设计的评测集。它包含 259 个任务、1,134 个子问题,覆盖物理、化学、材料科学和生命科学四个领域。这些任务都经过严格筛选:不能只靠模型记忆或常识回答,必须让模型在 SciAgentGym 环境里持续调用工具、读取反馈、逐步推进。

为了区分复杂度,任务被划分为三个层级。

L1 是基础任务,不超过 3 步,主要看模型能不能完成短工具调用流程。

L2 是中等复杂度,需要 4 到 7 步,这时模型得开始组合多个工具、管理中间状态。

L3 是长程任务,需要 8 步以上,更接近真实工作流。模型不但要规划步骤,还得处理反馈、修正错误、不偏离目标。

在整个 SciAgentBench 里,L2 和 L3 总共占了 79%。重点很明显:看模型在长链条里能不能保持稳定。另外,约 65% 的任务包含多模态输入,比如分子结构图、光谱数据、相图和实验图像。这一点很贴近真实研究:科学家解决问题时,往往不是只看文字,而是同时理解图像、表格、数据和工具返回的中间结果。

评测指标用了两个:Success Rate 和 Success Weighted by Path Length。前者看模型是否成功完成整个任务;后者还考虑效率。如果模型反复试错、调用不必要工具,即使最后答对,效率得分也会低。科学智能体不光要出结果,还要以更直接、更快速的方式出结果。

(图:在 SciAgentBench 下的测试结果。)

实验结果显示,工具确实能帮上忙。总体看,模型接入工具后,平均成功率从 23.3% 提升到 28.3%。这说明在真实科学任务里,外部工具依然是刚需。单靠模型内部知识,很难替代科学计算、数据库查询和专业软件的精确能力。

但更值得关注的是,一旦进入长流程任务,性能明显下降。以 GPT-5 为例,带工具时整体成功率为 41.3%。但按难度细分:L1 达到 58.8%,到 L3 就掉到 34.6%。这可不是特例,几乎所有模型都这样。所有模型平均下来,L1 是 47.4%,L3 只有 16.4%

这意味着,当前模型已经具备一定的工具使用能力,但稳定完成长程工作流,依然非常困难。短流程只需要几次正确决策,长流程则要连续完成多个环节:理解问题、选工具、设参数、读反馈、换格式、继续执行。任何一个环节出错,都可能影响全局。

(图:SciAgentBench 下的模型行为分析。进一步从工具调用效率、反馈利用能力和长程错误恢复三个角度分析。结果显示,瓶颈不在于“会不会调用工具”,而在于能否在多步执行中理解反馈、调整路线、持续推进。)

论文还发现了一个有意思的现象:工具调用次数多,不代表模型更会使用工具。有些模型频繁调用,成功率却不理想。原因很简单:它们没真正理解反馈,而是在报错后反复做相似操作,或机械地调参数。相比之下,一些更强的模型调用次数更少,但能更有效地利用中间结果,快速判断下一步。

这也揭示了一个关键能力:有效利用环境反馈。在真实科学工作流里,反馈承载着重要信息。报错可能显示输入格式不对、参数缺失,或工具选择不合适;中间结果也可能揭示当前路线是否有效。模型要是读不懂这些,就容易在长流程里反复试错,甚至陷入死循环。

结论很清晰:虽然大模型已具备一定能力,但距离稳定、可靠地完成真实科学工作流,还有明显差距。

SciForge:让模型从可执行轨迹中学习

既然评测出了差距,下一步就是怎么补上。论文提出的 SciForge,就是构建面向科学工具使用的训练数据。

基本思路很直接:科学智能体要学习的,不只是最终答案,还包括完成任务的过程。一条真实工作流,往往包含多个环节:选工具、调用、读中间结果、理解反馈、出错时调整。围绕这一点,SciForge 从工具之间的输入输出关系出发,构造可能的工作流,并在 SciAgentGym 环境里实际运行。能执行并产生有效结果的轨迹,就保留下来作为训练数据。

这些轨迹不光包含顺利完成的流程,还有一部分错误与修正过程。工具调用失败、参数设置不当、输入格式不匹配……这些都会以环境反馈的形式出现在轨迹里。模型从这些数据里学到的,不仅是一条理想化的执行路径,更是如何根据反馈调整后续操作。

实验效果怎么样?基于 SciForge 数据训练后,SciAgent-8B 在 SciAgentBench 上达到 30.1% 成功率,超过了更大规模的 Qwen3-VL-235B-InstructSciAgent-4B 也达到 25.2%,相比基座模型有明显提升。

(图:SciForge 训练效果。随着轨迹数量增加,模型在工具增强任务中的表现持续提升;缺少错误恢复过程或使用非科学工具数据时,效果会受影响。)

这个结果说明,科学工具调用的过程数据,价值巨大。可执行轨迹给模型提供了关于工具依赖、数据精度、反馈利用等一系列经验,让它在训练中更接近真实科学任务的结构。

展望:下一步,AI 科学家

斯坦福研究者 Surya Ganguli 在谈到 AI 与科学发现时说过,AI 会推动新发现,而科学应用对严谨性的要求,也会反过来推动更好的 AI。放到科学智能体的语境里,这点尤其值得关注。真正进入科研场景,模型面对的是海量数据和无限开放的过程。面向开放式科学发现,让模型先在具体工作流里学会可靠执行,再逐步提升参与复杂研究的能力,可能是一条很有潜力的路。可以期待,未来的 AI 科学家会在这类交互中逐渐成形。

来源:https://www.jiqizhixin.com/api/article_library/articles/2026-07-01-11

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。