Nature：AI系统如何辅助科学家编写专业实证软件

首页

AI资讯

热心网友

转载

2026-05-27

在科学研究的工具箱里，有一类软件至关重要，它们被称为“实证软件”。这类软件的目标不是去证明某个理论，而是通过不断优化那些可以量化的指标——比如预测准确率、模型误差——来提升我们的分析能力。从分子动力学模拟到流行病预测，现代科学的许多前沿都离不开它们。

但问题在于，开发这类软件太费劲了。研究人员往往要凭经验和直觉，在反复试错中摸索数月甚至数年，很难系统性地探索所有可能的算法方案。大量潜在的高性能方法，可能永远没有机会被设计出来。

与此同时，大语言模型在代码生成领域风生水起。从AlphaCode到Codex，AI已经能根据自然语言描述写出复杂的程序。不过，现有的系统大多还停留在“一次性生成”的模式：你给个提示，它吐出一段代码，然后就结束了。它们缺乏持续迭代和自主优化的能力，而这恰恰是科研软件开发的核心。

那么，有没有可能让AI自己来主导这个优化过程呢？最近，一项发表在《自然》杂志上的研究给出了一个令人兴奋的答案。研究人员开发了一个名为ERA的AI科研编程系统。它不再是一个被动的代码补全工具，而是一个能主动探索、修改并持续优化科研软件的“算法设计师”。

方法：当大语言模型遇上树搜索

ERA的核心思想很巧妙：把软件开发变成一个可以自动搜索的优化问题。只要一个任务能用某个指标（比如预测精度、排行榜分数）来打分，ERA就能接管后续的一切。

它的架构结合了大语言模型和树搜索算法。系统启动时，会接收一个“可评分任务”的描述、评价指标和相关数据。接着，大语言模型会生成初始的Python代码，并在沙盒环境中执行。

关键的不同从这里开始。ERA不会只生成一次代码就停下。它会利用树搜索算法，持续探索不同的代码变体。每个版本的代码运行后都会得到一个质量评分，树搜索则根据历史表现，智能地决定下一步该探索哪个方向的代码修改，在“利用现有高分方案”和“探索全新可能”之间取得平衡。

与传统的遗传编程依赖随机代码突变不同，ERA的“变异”是由大语言模型驱动的语义级代码重写。这意味着它能生成更复杂、更具科研意义的新算法结构。更厉害的是，ERA还能主动“学习”外部知识。它可以读取论文摘要、教科书内容，甚至搜索引擎的结果，将这些外部方法描述融入提示词，从而指导生成更先进的代码。它甚至能将两种已有算法的核心思想进行“重组”，创造出性能更强的混合策略。

结果：超越人类专家的性能表现

理论听起来很美好，实际效果如何？研究人员在多个截然不同的科学领域对ERA进行了严苛的测试，结果相当惊人。

基准测试：展现强大的搜索能力

首先，在Kaggle竞赛的基准测试中，ERA的表现就远超传统的单次LLM代码生成，甚至优于从1000个候选代码中挑选最优的“Best-of-1000”策略。其优势源于树搜索结构：它能同时保留多条优化路径，当一条路走不通时，可以回溯并尝试其他方向。在搜索中，ERA经常能突然发现带来性能跃迁的新策略，最终累积出远超普通方法的方案。

图1：ERA系统架构、树搜索流程及Kaggle基准测试表现。

单细胞测序：发现40种超越榜单的算法

随后，在一个硬核的生物信息学任务——单细胞RNA测序批次校正中，ERA展现了其碘伏性潜力。这个任务需要精准消除实验批次带来的技术误差，同时保留真实的生物学差异，是领域内的核心挑战。

在OpenProblems v2.0基准上，ERA自动生成的方法，在不接受任何额外指导的情况下，其性能就已经超过了公开排行榜上的最佳方法。当研究人员将已有论文的方法摘要输入ERA后，情况更令人惊讶：在9种代表性算法中，ERA重新实现并优化后的版本，有8种都超越了原始论文报告的结果。

其中，表现最好的是ERA改进版的BBKNN算法，其总体性能比当前最佳的公开方法ComBat提升了约14%。深入分析发现，ERA并不是简单复现，而是在主动融合思想。例如，它将ComBat的全局校正思想和BBKNN的局部邻域图方法相结合，从而获得了更优解。通过系统性的“思想重组”，ERA最终生成了40个超越当前公开排行榜最佳方案的新算法。

图2：ERA在scRNA-seq批次整合任务中的性能比较。

疫情预测：构建优于CDC官方模型的策略

研究人员还将ERA应用于一个更具现实意义的挑战：预测美国COVID-19住院人数。这是美国CDC预测中心的核心基准任务，长期由众多顶尖团队参与。

ERA构建的“Google回顾性模型”在整体加权区间评分上，优于CDC官方的集成模型。其优势在美国大多数州都得以体现，并非局部偶然。更重要的是，ERA自动生成的模型擅长融合不同预测范式的思想，比如将经典流行病学模型与时间序列模型结合，或将机器学习模型与气候基线模型结合，从而形成更稳定、兼顾长短期波动的预测系统。最终，ERA共产生了14个超越CDC官方集成模型的预测策略。

图3：ERA在COVID-19住院预测任务中的表现。

广泛验证：从时间序列到神经科学

ERA的能力并不局限于上述几个领域。在覆盖金融、交通、天气的通用时间序列预测基准测试中，ERA的表现超过了包括基础模型在内的所有公开模型。更有趣的是，当要求它从零开始、仅使用基础Python库构建一个“统一预测系统”时，ERA自动生成了一套能自适应分解趋势、季节性并引入复杂特征（如节假日编码）的通用框架。

此外，在遥感图像分割、斑马鱼全脑神经活动预测以及复杂数值积分求解等看似毫不相关的任务中，ERA均达到了专家级性能。这强有力地证明，ERA是一种通用的“科学软件自动优化系统”，而非某个特定领域的工具。

讨论：一种新的科研编程范式

ERA的成功，标志着一个新范式的开启：将“科学软件开发”系统性地转化为一个可搜索、可评分的问题。

与依赖随机突变的传统遗传编程相比，ERA利用LLM进行语义级重写，能产生更复杂、更有意义的算法。与主要调参的AutoML相比，ERA的优化范围更广，涵盖预处理流程、数学启发式规则乃至整个算法结构。

其中，“思想重组”的能力尤为关键。许多最优方案并非凭空创造，而是对现有优秀思想的巧妙组合，这与真实世界中的科研创新逻辑高度吻合。这也使得ERA与AlphaEvolve、FunSearch等系统区别开来，它更侧重于“科研思想探索”，而非仅仅是代码层面的局部优化。

当然，必须清醒认识到，ERA目前主要解决的是那些“可自动评分”的经验性问题。真正的科学发现，仍然离不开对人类理论、因果关系和数学机制的深度推理。此外，能够自动生成专家级软件的AI系统也伴随着潜在风险，例如可能降低复杂建模技术的使用门槛，在敏感领域带来新的安全与伦理挑战。

尽管如此，ERA无疑展示了AI自动科研编程的巨大潜力。随着基础模型和推理能力的持续进步，未来几年，许多“可评分科学问题”的研究进程，很可能会因此进入一个前所未有的加速通道。

参考资料

Aygün, E., Belyaeva, A., Comanici, G. et al. An AI system to help scientists write expert-level empirical software. Nature (2026).

https://doi.org/10.1038/s41586-026-10658-6

来源:https://cloud.tencent.com/developer/article/2674368

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Bankless创始人亲述抛售ETH原因以太坊投资策略深度解析下一篇：如何用豆包AI制定用户增长实验详细方案