上海AI实验室突破：AI自主创造科学工具实现边学边创新_AI热点日报

这项由上海人工智能实验室联合复旦大学等顶尖科研机构共同完成的前沿研究，已于2025年在国际知名预印本平台arXiv上正式发布，论文编号为arXiv:2601 07641v1。科学探索的本质，是在未知的疆域中开辟道路。传统的人工智能辅助科研，如同一位携带固定装备的探险家，其工具箱的内容是预先设定的。

这项由上海人工智能实验室联合复旦大学等顶尖科研机构共同完成的前沿研究，已于2025年在国际知名预印本平台arXiv上正式发布，论文编号为arXiv:2601.07641v1。

上海AI实验室最新突破：让AI从无到有创造科学工具，像科学家一样边学边创新

科学探索的本质，是在未知的疆域中开辟道路。传统的人工智能辅助科研，如同一位携带固定装备的探险家，其工具箱的内容是预先设定的。当面对一个前所未有的、复杂的新问题时，它只能从现有工具中勉强适配，常常力不从心。这正是科学研究的核心挑战——你无法为所有未知的“锁”提前准备好“万能钥匙”。

科学计算的复杂性与专业性远超日常应用。无论是求解一个复杂的分子动力学方程、推导一个前沿的物理模型，还是分析一种新型材料的电子结构，往往都需要高度定制化的计算工具。这些工具如同实验室里的精密仪器，各有所长。然而，当研究触及真正的知识边界，遇到教科书之外的全新问题时，现有的工具库便立刻暴露出其局限性。

上海人工智能实验室的研究团队精准地洞察到了这一根本瓶颈，并提出了一个颠覆性的构想：为什么不让人工智能学会在必要时，自主创造所需的工具呢？这就像一位大师级的工匠，不仅精通使用各种工具，更能根据任务的具体需求，现场锻造出最得心应手的专属器械。

这一创新系统被命名为“测试时工具进化”（Test-Time Tool Evolution，简称TTE）。其革命性在于，它摒弃了静态的工具箱依赖，转而成为一个具备“即时创造”能力的智能科研伙伴，能够在遭遇全新科学挑战时，动态设计并生成专门的计算工具。

整个过程，可以类比为一位面对失传古方的大厨。传统AI厨师只能在现有的锅碗瓢盆中寻找替代品，若古方要求一种特殊形状的模具而厨房没有，则烹饪无法继续。而TTE系统则像一位融会贯通的烹饪大师兼器械设计师，发现需求后，能立即构思、制作出那个特定模具，从而完美复现古法菜肴。

为了严谨验证这一理念，研究团队构建了一个名为SciEvo的综合性基准测试平台。该平台不仅包含一个覆盖物理学、化学、数学和材料科学四大基础学科的1590个科学问题数据库，更关键的是，它还收录了925个由AI在解题过程中自主创造并经过严格验证的计算工具，形成了一个动态增长的工具知识库。

一、从被动调用到主动创造：AI科研范式的根本性跃迁

传统AI在应对复杂科学计算时的核心困境，好比让一位只熟悉标准套筒的技师去维修一台结构独特的精密钟表。无论工具箱多么庞大，在面对无限可能的未知问题时，总会有工具缺失的时刻。

科学问题的多样性与高度专业化，决定了所需计算工具的种类繁多且定制化程度极高。模拟天体物理现象与计算化学反应路径，所需的工具内核截然不同。更重要的是，真正的原始创新往往意味着踏入“无人区”，此时需要的恰恰是前所未有的新方法和新工具。

现有的解决方案主要遵循两种思路：一是试图构建一个包罗万象的巨型工具库，但这在无限的科学前沿面前注定难以完备；二是让AI学习通用的编程和计算原理，但这常常以牺牲计算的专业精度和效率为代价，如同试图用一把多功能刀去完成显微外科手术。

TTE系统开创了第三条路径：赋予AI“临场设计与创造”的能力。这一过程深度模拟了人类科学家的思维模式，可分解为几个关键阶段。

首先，面对一个复杂的科学问题，TTE系统会像一位经验丰富的首席科学家，将其逻辑清晰地分解为一系列具体、可操作的计算子任务。这好比工程师将一座大桥的建设，分解为地质勘测、结构设计、材料制备、施工组装等明确的环节。

接着，系统会启动智能检索，在现有工具库中通过语义理解寻找功能匹配的可用工具。如果找到，则直接调用；如果找不到或现有工具不适用，系统的核心“工具创造”引擎便会即刻启动。

工具创造是TTE系统的灵魂。它能够根据具体的计算需求，自动编写出功能完整、接口清晰、包含错误处理机制的可执行程序代码。每一个新创造的工具都会经过严格的数值验证与逻辑测试，确保其计算结果的准确性。

最后，系统还具备强大的工具优化与管理能力。新创造的工具不会简单地堆积入库，而是要经过“原子化精炼”：被分解为最基本的功能组件，消除冗余代码，并持续追踪其使用频率和场景。这确保了整个工具库始终保持高效、精炼和活力。

这种模式的优越性显而易见。传统系统是“工具的使用者”，而TTE系统正在成为“工具的创造者”。实验数据表明，这种方法不仅显著提升了解决复杂科学问题的准确率，更极大地增强了系统应对未知和跨学科问题的适应性与泛化能力。

二、SciEvo测试平台：衡量AI科学创造力的高标准考场

要全面评估TTE系统的能力，需要一个超越简单答题判分的综合性“考场”。SciEvo平台正是为此而生，它不仅考核AI能否得出正确答案，更关键的是评估其解题过程中产生的“方法论”是否具备可复用、可推广的价值。

该平台包含了1590个横跨四大基础学科的科学问题。其中物理学问题占比最高，构成了一套经典与前沿交织的难题集；化学、数学和材料科学部分则涵盖了从基础理论计算到前沿应用模拟的多样化场景。

其核心创新在于引入了“工具重用率”这一关键评估维度。这衡量的是AI自主创造的工具被后续不同问题重复使用的频率。一个工具如果能被多次用于解决不同问题，说明它成功捕捉到了某种普适的科学计算模式或原理，价值极高；反之，如果工具仅为一次性使用，则可能只是针对特定问题的临时性“打补丁”。

重用率的评估是多层次的：基础层考察有多少工具至少被成功复用一次（重用率@1）；中层关注那些被频繁使用的工具（如@5， @10）；高层则旨在识别出那些成为“核心工具”的、具有广泛适用性的佼佼者。

此外，平台还专门设计了跨领域适应性测试，模拟真实的交叉学科研究场景。例如，让主要在材料科学领域进行训练的AI系统，去尝试解决化学领域的问题，以此检验其知识迁移和工具泛化的能力。

测试结果明确显示，TTE系统在问题解决准确率和工具重用率等多项核心指标上均显著优于传统方法。这强有力地证明，它不仅在“解决问题”，更是在“发现和沉淀”可复用的科学计算“智慧”。

三、性能数据：实证驱动的突破性成果

将TTE系统投入实际基准测试，其表现令人瞩目。在权威的SciBench科学计算数据集上，TTE的准确率达到45%，明显优于当时最强的基线方法（37%）。在自建的、更具挑战性的SciEvo数据集上，TTE以62%的准确率领先于对比方法的56%。在专业科学计算领域，几个百分点的提升往往代表着对一大批难题从“无法解决”到“可以攻克”的质变。

然而，更令人印象深刻的数据体现在工具重用率上。传统方法创造的工具，绝大多数是“一次性”的，其重用率@10（被使用超过10次）通常低于5%。而TTE系统创造的工具，在SciEvo数据集上展现出了强大的生命力和普适性：高达89%的工具至少被重用一次，40%的工具被重用了5次以上，更有21%的工具成为了被重用了10次以上的“核心工具”。

分析工具使用频率的分布图可以直观看到差异：传统方法的工具分布严重偏向低频区（使用次数少），而TTE系统创造的工具分布明显向右移动，有大量工具进入了中高频使用区间。这直接证明了TTE更善于创造具有广泛价值的工具，而非临时性解决方案。

在跨领域迁移测试中，TTE同样表现优异。当从材料科学领域转向化学领域的问题时，TTE的准确率达到了59.5%，比完全不使用任何工具的基础方法提升了6个百分点。其行为模式高度拟人化：它会明智地减少对原领域专用工具的依赖，同时积极为新的化学问题创造适配的工具。

另一项关键的对照实验发现，将复杂问题先分解为逻辑子步骤，再针对每个子步骤寻找或创造工具，其效果远远优于直接针对整个复杂问题去寻找一个“万能”工具。这就像修理一台精密仪器，整体思考可能无从下手，但将其分解为拆卸、诊断、更换部件、调试等步骤后，每一步都能找到或制作出最合适的专用工具。

四、案例深度解析：透视AI的科学思维与创新过程

让我们通过两个具体的科学计算案例，深入观察TTE系统是如何像科学家一样“思考”和“创新”的。

案例一：计算特定条件下气体的摩尔质量。 题目给出了气体的密度、温度与压强，要求计算其摩尔质量。传统AI方法可能直接给出错误答案（如76.9 g/mol），或提供一个近似值（如173 g/mol）。

TTE系统首先将问题智能分解为四个逻辑步骤：密度单位换算、压强单位换算、应用理想气体状态方程计算摩尔体积、最终计算摩尔质量。在执行过程中，系统发现前两步有现成的单位转换工具可用，但第三步的核心计算工具——根据理想气体定律（PV=nRT）求解摩尔体积——在工具库中缺失。

于是，TTE立即启动创造程序，生成了一个名为“calculate_molar_volume”的全新工具。该工具精准实现了理想气体定律的变形计算（Vm = RT/P），并妥善处理了各项物理量的单位一致性。调用这个新创造的工具后，系统一步步推导，最终得到了完全精确的答案：169.0 g/mol。

案例二：电镀工艺中的计算问题。 该问题涉及计算电镀过程中沉积的银的质量以及镀层的表面积，需要综合运用法拉第电解定律、化学计量比和几何体积公式。

TTE系统将问题分解为六个有序步骤：计算通过电路的总电荷量、根据法拉第常数计算电子的摩尔数、考虑银离子的氧化态（Ag+）以确定银的沉积摩尔数、将银的摩尔数转换为质量、根据密度计算沉积银的体积、最后根据体积和镀层厚度计算表面积。在此过程中，它针对“计算电子摩尔数”和“根据体积与厚度计算面积”这两个关键但无现成工具的步骤，创造了专门的工具。

值得注意的是为计算表面积而创造的工具，它实现了一个简单却通用的几何关系：面积 = 体积 / 厚度。这个工具巧妙地将前序步骤的化学计算结果与最终的几何需求联系起来，极具复用价值，未来可用于任何类似的涂层、薄膜面积计算场景。最终，系统得出了31.6 g银和1283 cm²表面积的准确答案。

这两个案例清晰地展示了TTE系统的核心优势：它不是机械地套用记忆中的公式，而是像真正的科研人员一样，先理解问题本质，然后进行逻辑分解，针对性地创造或调用工具，最后综合求解。其创造的工具，也成为了可被沉淀、共享和复用的数字化知识资产。

五、技术架构揭秘：驱动工具进化的核心引擎

TTE系统如同一个高度协同的智能生态系统，由五个核心模块有机组成：

1. 结构化任务分解器： 扮演“首席架构师”的角色，将复杂的科学问题逻辑性地分解为一系列具体、可执行的子任务，并理清任务之间的依赖关系。

2. 动态语义检索器： 如同一位“智能知识管家”，基于对问题语义的深度理解，从动态工具库中精准、高效地匹配最合适的现有工具。

3. 生成式工具合成器： 这是系统的“创新核心”与“代码工厂”。当检索无果时，它能根据任务需求描述、算法逻辑设计，自动生成包含完整功能说明、输入输出接口和测试用例的可执行代码工具。

4. 原子化工具精炼器： 担任“质量检测与优化工程师”的角色。对新创造的工具进行语法检查、逻辑验证和数值精度测试，并将其进一步分解为不可再分的基础“原子”组件，去除冗余代码，极大提升其未来的可复用性和组合灵活性。

5. 运行时流程执行引擎： 负责整个计算工作流的协调调度，管理各工具之间的数据传递、顺序执行以及异常错误处理，确保复杂计算过程的稳定与可靠。

在工具库的管理上，TTE采用了类似“自然选择”的进化策略：频繁被使用、证明其价值的工具会被强化和保留；极少被使用的工具则可能被归档或淘汰，从而保持整个工具库的活力与高效。

其关键的技术突破在于“原子化分解”策略。研究发现，将大型、复杂的复合工具分解为细粒度的原子组件，能指数级地提高工具的重用潜力。道理很简单：一个高度特化的“多功能实验仪器”（复杂工具）可能只在极少数场景用到，但其包含的“加热”、“搅拌”、“测量pH值”（原子组件）等基础功能，却能单独应用于无数其他实验。数学上的概率分析证实，这种原子化策略能将工具的预期总重用次数提升数倍。

系统还巧妙地缓解了“工具过载”效应——即当工具库过于庞大时，功能相似的工具会相互干扰，导致检索准确率下降。TTE通过前置的问题分解步骤，将每次检索限定在更小的、与子任务高度相关的工具子集中，有效规避了这一难题。

六、对比实验：新旧方法的全面性能比拼

研究团队设计了严格的对比实验，让TTE系统与五种当前具有代表性的方法进行全方位较量。

在基础问题解决能力上，完全不使用任何外部工具的基本方法（如思维链推理、程序生成式思考）准确率仅在33%-36%之间，这凸显了复杂科学计算对专业化工具的深度依赖。

能够使用传统预设工具的方法（如Creator， KTCE， CheMatAgent等）表现更好，准确率大约在55%-56%区间。它们如同装备了标准工具箱的熟练技师，能够有效处理常规问题。

TTE系统以62%的准确率显著胜出。在科学计算领域，几个百分点的领先往往意味着能够攻克一大批此前难以处理的边缘案例和新型问题。

真正的差距体现在工具创造的“质量”和“效率”上。在SciEvo数据集上，传统方法创造的工具绝大多数是“一次性”的（例如Creator方法创造的工具，其重用率@1仅为17%）。而TTE系统创造的工具，99%至少被成功重用一次，更有高达41%的工具被重用了10次以上。这强有力地证明，TTE创造的是封装了通用科学原理的“真知识”工具，而非针对单一问题的临时性“代码补丁”。

消融实验进一步证实，将问题先分解再寻找工具的策略，其效果远优于基于整体问题描述的模糊检索。跨领域迁移实验则显示，TTE能智能地进行策略调整，减少对旧领域特化工具的依赖，积极为新领域创造适配工具，其59.5%的准确率显著优于直接沿用旧领域工具的56.1%。

七、理论基石：原子化工具为何更具优势的数学解释

TTE系统的优越性不仅得到实验数据的支撑，更有坚实的数学理论作为基础。其核心理论在于：原子化的、细粒度的工具比整体式的、粗粒度的工具具有高得多的复用潜力和组合灵活性。

设想一个复杂工具T由10个基础原子操作（A1， A2， …， A10）顺序组合而成。只有当遇到一个恰好需要完全相同的这10个操作且顺序一致的问题时，工具T才能被整体复用。然而，如果将T分解为10个独立的原子工具{A1}， {A2}， …， {A10}，那么任何需要其中部分操作（无论何种组合）的新问题，都可以复用对应的原子工具。简单的概率计算表明，后一种策略下，这些原子工具的总预期重用次数必然远超前者。

研究还通过建立数学模型，揭示了“工具过载效应”的必然性：随着工具库中功能语义相似的“干扰项”工具数量线性增长，系统准确检索到最优工具的概率会下降。这从理论上解释了为何盲目扩充工具库规模有时会适得其反。TTE通过问题分解，在检索前就缩小了候选工具集的范围，从而有效缓解了这一问题。

此外，关于工具库动态增长的模型显示，在TTE的智能管理机制下，工具库的规模不会无限膨胀，而是会自然收敛到一个稳定、高效的平衡状态，实现了“知识”的有机增长而非无序堆积。

八、应用前景与深远影响：重塑未来的科研工作流

TTE系统的意义，远不止于一项人工智能技术的突破，它更预示着科学研究范式的潜在变革。

在传统科研实践中，研究人员常常需要为不同的具体问题重复编写功能类似的计算脚本或程序，造成大量的智力与时间资源浪费。TTE提供了一种全新的范式：AI作为智能科研伙伴，能够按需自动生成可靠的计算工具，并逐渐形成一个可共享、可复用、可进化的工具生态系统。这对于推动前沿交叉学科研究尤为关键，它能自动弥合不同学科领域之间的“工具鸿沟”。

在科学教育领域，TTE可作为强大的智能学伴，帮助学生绕过繁琐的编程实现门槛，让他们能将精力更集中于对科学原理本身的理解、探索与思辨。在工业研发与工程领域，它能让那些缺乏庞大专业编程团队的中小企业或研究小组，快速获得定制化的、高水平的计算模拟与分析能力，加速研发进程。

当然，走向广泛应用也伴随着需要审慎应对的挑战：自动生成代码的安全性与可靠性需要严格的审查机制；在关键的科学发现或工程决策场景，AI的计算结果仍需人类专家进行最终的理论审核与判断；需警惕过度依赖自动化工具而可能削弱科研人员对基础原理的深层理解。

尽管如此，TTE清晰地指明了一个方向：未来的科研辅助工具，将从静态的、被动的“资源库”，演变为动态的、可进化的、具备创造力的“智能伙伴”。它标志着人工智能在科学领域正从一个被动的“工具使用者”，向一个主动的“工具创造者”和“方法发现者”演进。未来的科学发现之旅，很可能将是人类深邃的科学直觉与AI强大的计算创造力深度融合、共同拓展认知边疆的全新篇章。

Q&A

Q1：TTE系统与传统AI科研工具有何本质区别？

传统AI工具依赖于一个预先构建的、固定不变的工具库，其角色类似于一个只能从现有工具箱中挑选工具的“技师”。TTE系统的核心能力在于“创造”，它能在遇到前所未有的新问题时，动态地设计、编程并生成全新的计算工具，其角色更接近于一位既能熟练使用工具又能发明创造新工具的“全能工程师”。

Q2：SciEvo测试平台主要包含哪些内容？其创新点是什么？

SciEvo平台包含两大核心部分：一是涵盖物理、化学、数学、材料科学四大基础学科的1590个科学问题数据集；二是由AI在测试过程中自主创造并经过严格验证的925个计算工具集合。其核心创新在于评估标准：它不仅关注最终答案的准确性，更重点评估AI所创造工具的质量、可重用性及其所体现的科学方法价值，从而衡量AI是否真正掌握了可迁移的科研能力。

Q3：为什么说在评估AI科研能力时，工具重用率比单纯的问题准确率更重要？

高准确率有时可能源于针对特定问题的“过度拟合”或临时性策略。而高的工具重用率则意味着AI成功地从具体问题中抽象并形式化了一种具有普适性的科学计算模式或方法，其创造的工具能够解决一类相似问题。这标志着AI从“解决单一问题”进阶到了“掌握一类方法”，是衡量其是否真正理解科学原理、是否具备可持续学习和知识沉淀能力的关键性指标，代表了更高层次的智能。