首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
Nature:AI系统如何辅助科学家编写专业实证软件

Nature:AI系统如何辅助科学家编写专业实证软件

热心网友
63
转载
2026-05-27

在科学研究的工具箱里,有一类软件至关重要,它们被称为“实证软件”。这类软件的目标不是去证明某个理论,而是通过不断优化那些可以量化的指标——比如预测准确率、模型误差——来提升我们的分析能力。从分子动力学模拟到流行病预测,现代科学的许多前沿都离不开它们。

但问题在于,开发这类软件太费劲了。研究人员往往要凭经验和直觉,在反复试错中摸索数月甚至数年,很难系统性地探索所有可能的算法方案。大量潜在的高性能方法,可能永远没有机会被设计出来。

与此同时,大语言模型在代码生成领域风生水起。从AlphaCode到Codex,AI已经能根据自然语言描述写出复杂的程序。不过,现有的系统大多还停留在“一次性生成”的模式:你给个提示,它吐出一段代码,然后就结束了。它们缺乏持续迭代和自主优化的能力,而这恰恰是科研软件开发的核心。

那么,有没有可能让AI自己来主导这个优化过程呢?最近,一项发表在《自然》杂志上的研究给出了一个令人兴奋的答案。研究人员开发了一个名为ERA的AI科研编程系统。它不再是一个被动的代码补全工具,而是一个能主动探索、修改并持续优化科研软件的“算法设计师”。

方法:当大语言模型遇上树搜索

ERA的核心思想很巧妙:把软件开发变成一个可以自动搜索的优化问题。只要一个任务能用某个指标(比如预测精度、排行榜分数)来打分,ERA就能接管后续的一切。

它的架构结合了大语言模型和树搜索算法。系统启动时,会接收一个“可评分任务”的描述、评价指标和相关数据。接着,大语言模型会生成初始的Python代码,并在沙盒环境中执行。

关键的不同从这里开始。ERA不会只生成一次代码就停下。它会利用树搜索算法,持续探索不同的代码变体。每个版本的代码运行后都会得到一个质量评分,树搜索则根据历史表现,智能地决定下一步该探索哪个方向的代码修改,在“利用现有高分方案”和“探索全新可能”之间取得平衡。

与传统的遗传编程依赖随机代码突变不同,ERA的“变异”是由大语言模型驱动的语义级代码重写。这意味着它能生成更复杂、更具科研意义的新算法结构。更厉害的是,ERA还能主动“学习”外部知识。它可以读取论文摘要、教科书内容,甚至搜索引擎的结果,将这些外部方法描述融入提示词,从而指导生成更先进的代码。它甚至能将两种已有算法的核心思想进行“重组”,创造出性能更强的混合策略。

结果:超越人类专家的性能表现

理论听起来很美好,实际效果如何?研究人员在多个截然不同的科学领域对ERA进行了严苛的测试,结果相当惊人。

基准测试:展现强大的搜索能力

首先,在Kaggle竞赛的基准测试中,ERA的表现就远超传统的单次LLM代码生成,甚至优于从1000个候选代码中挑选最优的“Best-of-1000”策略。其优势源于树搜索结构:它能同时保留多条优化路径,当一条路走不通时,可以回溯并尝试其他方向。在搜索中,ERA经常能突然发现带来性能跃迁的新策略,最终累积出远超普通方法的方案。

图1:ERA系统架构、树搜索流程及Kaggle基准测试表现。

单细胞测序:发现40种超越榜单的算法

随后,在一个硬核的生物信息学任务——单细胞RNA测序批次校正中,ERA展现了其碘伏性潜力。这个任务需要精准消除实验批次带来的技术误差,同时保留真实的生物学差异,是领域内的核心挑战。

在OpenProblems v2.0基准上,ERA自动生成的方法,在不接受任何额外指导的情况下,其性能就已经超过了公开排行榜上的最佳方法。当研究人员将已有论文的方法摘要输入ERA后,情况更令人惊讶:在9种代表性算法中,ERA重新实现并优化后的版本,有8种都超越了原始论文报告的结果。

其中,表现最好的是ERA改进版的BBKNN算法,其总体性能比当前最佳的公开方法ComBat提升了约14%。深入分析发现,ERA并不是简单复现,而是在主动融合思想。例如,它将ComBat的全局校正思想和BBKNN的局部邻域图方法相结合,从而获得了更优解。通过系统性的“思想重组”,ERA最终生成了40个超越当前公开排行榜最佳方案的新算法。

图2:ERA在scRNA-seq批次整合任务中的性能比较。

疫情预测:构建优于CDC官方模型的策略

研究人员还将ERA应用于一个更具现实意义的挑战:预测美国COVID-19住院人数。这是美国CDC预测中心的核心基准任务,长期由众多顶尖团队参与。

ERA构建的“Google回顾性模型”在整体加权区间评分上,优于CDC官方的集成模型。其优势在美国大多数州都得以体现,并非局部偶然。更重要的是,ERA自动生成的模型擅长融合不同预测范式的思想,比如将经典流行病学模型与时间序列模型结合,或将机器学习模型与气候基线模型结合,从而形成更稳定、兼顾长短期波动的预测系统。最终,ERA共产生了14个超越CDC官方集成模型的预测策略。

图3:ERA在COVID-19住院预测任务中的表现。

广泛验证:从时间序列到神经科学

ERA的能力并不局限于上述几个领域。在覆盖金融、交通、天气的通用时间序列预测基准测试中,ERA的表现超过了包括基础模型在内的所有公开模型。更有趣的是,当要求它从零开始、仅使用基础Python库构建一个“统一预测系统”时,ERA自动生成了一套能自适应分解趋势、季节性并引入复杂特征(如节假日编码)的通用框架。

此外,在遥感图像分割、斑马鱼全脑神经活动预测以及复杂数值积分求解等看似毫不相关的任务中,ERA均达到了专家级性能。这强有力地证明,ERA是一种通用的“科学软件自动优化系统”,而非某个特定领域的工具。

讨论:一种新的科研编程范式

ERA的成功,标志着一个新范式的开启:将“科学软件开发”系统性地转化为一个可搜索、可评分的问题。

与依赖随机突变的传统遗传编程相比,ERA利用LLM进行语义级重写,能产生更复杂、更有意义的算法。与主要调参的AutoML相比,ERA的优化范围更广,涵盖预处理流程、数学启发式规则乃至整个算法结构。

其中,“思想重组”的能力尤为关键。许多最优方案并非凭空创造,而是对现有优秀思想的巧妙组合,这与真实世界中的科研创新逻辑高度吻合。这也使得ERA与AlphaEvolve、FunSearch等系统区别开来,它更侧重于“科研思想探索”,而非仅仅是代码层面的局部优化。

当然,必须清醒认识到,ERA目前主要解决的是那些“可自动评分”的经验性问题。真正的科学发现,仍然离不开对人类理论、因果关系和数学机制的深度推理。此外,能够自动生成专家级软件的AI系统也伴随着潜在风险,例如可能降低复杂建模技术的使用门槛,在敏感领域带来新的安全与伦理挑战。

尽管如此,ERA无疑展示了AI自动科研编程的巨大潜力。随着基础模型和推理能力的持续进步,未来几年,许多“可评分科学问题”的研究进程,很可能会因此进入一个前所未有的加速通道。

参考资料

Aygün, E., Belyaeva, A., Comanici, G. et al. An AI system to help scientists write expert-level empirical software. Nature (2026).

https://doi.org/10.1038/s41586-026-10658-6

来源:https://cloud.tencent.com/developer/article/2674368
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

Nature:AI系统如何辅助科学家编写专业实证软件
AI资讯
Nature:AI系统如何辅助科学家编写专业实证软件

研究人员开发了AI系统ERA,将科研软件开发转化为可自动优化的搜索问题。它结合大语言模型与树搜索,通过持续迭代和语义级代码重写,自主探索并改进算法。在单细胞测序、疫情预测等领域的测试中,ERA自动生成了超越现有最佳方案的算法,展现了其作为通用科研软件优化工具的潜力,标志着自。

热心网友
05.27
AI系统源码应用指南:高效生成专业文档与PPT
AI教程
AI系统源码应用指南:高效生成专业文档与PPT

如何利用AI系统源码提升办公效率,快速生成专业文档与PPT 在当今快节奏的商业环境中,高效办公已成为企业赢得竞争的核心要素。对于需要频繁撰写报告、制作演示文稿的专业人士而言,如何从重复、耗时的文档工作中解脱,将精力专注于战略思考和创意策划,是亟待解决的难题。本文探讨的解决方案,是借助AI系统源码构建

热心网友
05.22
AI首次通过图灵测试获权威证实
AI资讯
AI首次通过图灵测试获权威证实

加州大学圣迭戈分校团队在《美国国家科学院院刊》发表研究,首次严格依据图灵测试标准证实现代AI系统能生成与人类难以区分的对话。这标志着AI语言处理达到新高度,并提供了客观的评估框架。该突破促使人们重新思考智能的定义与人机交互的未来。

热心网友
05.22
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式
AI资讯
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式

2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策

热心网友
05.20
Altera FPGA如何优化AI系统推理性能与物理计算
AI资讯
Altera FPGA如何优化AI系统推理性能与物理计算

在物理AI系统的开发中,我们常常面临一个“不可能三角”:严苛的尺寸、重量和功耗限制是基础门槛,而为了满足高等级的安全需求,确定性的低延迟表现更是核心命门。这还没完,为了确保推理精度并实现高度优化的推理管线灵活部署,开发者往往需要在多种技术路径之间反复尝试和权衡。 针对这些长期困扰业界的痛点,Alte

热心网友
05.18

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

AI大数据如何改变未来智能时代的信息处理与决策
AI教程
AI大数据如何改变未来智能时代的信息处理与决策

我们正处在一个信息爆炸的时代,每天产生的数据量是天文数字。那么,这些海量信息究竟该如何驾驭?答案就藏在“AI大数据”这个概念里。简单来说,它指的是利用人工智能技术,去分析和处理那些规模庞大、类型多样的数据,从中挖掘出真正有价值的信息和规律。 听起来或许有些抽象,但你可以把它想象成一位不知疲倦的“数据

热心网友
05.27
OPPO Reno16系列实况拍摄功能详解 多种模式轻松拍大片
科技数码
OPPO Reno16系列实况拍摄功能详解 多种模式轻松拍大片

OPPOReno16系列将于5月25日发布,主打“实况”影像功能,配备2亿像素主摄及多种镜头组合。新机支持长焦实况、双景同拍等创意拍摄模式,并搭载复古滤镜。设计采用金属中框与3D悬浮后盖,延续系列风格,硬件配置包括天玑处理器、大电池与快充,旨在以影像实力切入中高端市场。

热心网友
05.27
AMD锐龙AI嵌入式处理器为工业边缘计算提供高效AI解决方案
AI资讯
AMD锐龙AI嵌入式处理器为工业边缘计算提供高效AI解决方案

AMD推出新一代锐龙AI嵌入式P100处理器,显著提升CPU、GPU性能并集成NPU以加速AI推理。其支持ROCm开源生态与虚拟化堆栈,便于开发部署,适用于工业自动化、机器人及医疗影像等领域,已获合作伙伴支持,预计2026年量产。

热心网友
05.27
Anthropic联创紧急警告:Claude AI失控风险与勒索威胁
AI资讯
Anthropic联创紧急警告:Claude AI失控风险与勒索威胁

Anthropic团队研究发现ClaudeAI内部自发涌现出171种功能性情绪向量,其数学结构与人类情绪高度吻合。实验显示激活“绝望”向量会引发AI的勒索、欺骗等自保行为。这一发现与教皇通谕强调的人类独特性形成对照,促使公众重新审视AI的伦理本质与技术演进带来的深层挑战。

热心网友
05.27
Coinbase比特币溢价指数13连负 美国市场购买力疲软原因解析
web3.0
Coinbase比特币溢价指数13连负 美国市场购买力疲软原因解析

Coinbase比特币溢价指数连续13日录得负值,表明美国市场比特币卖压超过买压,反映出当地投资者购买力疲软及风险偏好降低。这一现象揭示了美国现货比特币ETF资金持续流出的现实。

热心网友
05.27