UCSD发布AIBuildAI智能体MLE-Bench夺冠,龙虾也能养

新智元报道
编辑:LRST
【新智元导读】UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。
近日,加州大学圣地亚哥分校的研究团队开发了AIBuildAI智能体,可以全自动构建AI模型(包括模型设计,代码实现,模型训练,调参,性能评估,迭代优化)。团队成员包括博士生Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及该校副教授Pengtao Xie。
开发一个高性能AI模型非常耗时费力,工程师需要反复设计模型、写代码实现模型、构建训练流水线、执行超参数搜索,并根据实验结果对模型进行迭代优化。
这一过程对专业知识的依赖程度极高,人力成本也居高不下,非常耗费时间。
为了解决这一问题,UCSD的研究团队开发了AIBuildAI智能体,充当虚拟的AI工程师或AI科学家,全自动构建AI模型。用户无需编程,只需要用自然语言对任务进行描述,AIBuildAI自动设计模型,写代码实现模型,训练模型,调节超参数,评估模型性能,并根据实验结果对模型进行迭代优化。

项目地址:https://github.com/aibuildai/AI-Build-AI
论文链接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
OpenAI MLE-Bench测评结果:https://github.com/openai/mle-bench/pull/126
AIBuildAI在OpenAI MLE-Bench基准测试的75个任务上以63.1%的获奖率位居榜首,其表现可媲美经验丰富的AI工程师,实现了从任务描述到可部署模型的端到端自动化。


AIBuildAI的设计灵感来源于真实的AI研究团队的工作流程。在典型的AI项目中,技术负责人统筹多条并行探索路线,研究员提出建模策略,工程师实现训练流水线,负责人定期评审结果、分配资源。AIBuildAI将这一工作流抽象为一个多智能体搜索过程:将整个开发周期分解为多个专职智能体协作执行,并通过集中化的管理器进行统一调度。

技术核心
管理智能体(Manager Agent)
扮演项目运行负责人的角色,全程不直接写代码或执行训练任务,而是通过读取磁盘上的实验记录来做出下一步决策。他在两种模式之间切换:协调模式下决定下一步应该调用哪一个子智能体;筛选模式下依据训练信号保留有潜力的候选方案并终止无效方案来节约时间以及计算成本,并在进展停滞时触发修订或者终止。
研究员智能体(Designer Agent)
负责想方案和改方案两项核心任务。在设计模式下,他直接探索数据集特征,提出多个差异化、可行性强的建模计划;在修订模式下,他仔细诊断失败原因(过拟合、欠拟合、收敛问题或者数据异常),并提出具体的改进方案供编码智能体重新实现。
编码智能体(Coder Agent)
将设计方案转化为可运行的训练与推理流水线。编码智能体的目标是确保代码正确完整,而非追求最终性能。他会在写完代码后执行一次短时验证运行以确保流水线可以端到端运行,随后将完整训练交由调优器处理。
调优器智能体(Tuner Agent)
接管训练过程,在已有代码基础上专注于性能提升。它采用先快速校准、再决定是否投入的策略:先跑一段简短的热身训练观察学习曲线,再决定是延长当前方案还是进行超参数调整。整个过程在固定计算预算内完成。
系统设计
AIBuildAI在系统层面还具备三项关键特征:
并行效率:多条解决方案轨迹在独立工作空间中并发运行,避免互相干扰,允许系统同时探索多个方法并将资源集中于表现好的候选方案。
可复现性:所有智能体通过存储于磁盘中产出物(方案文档、配置文件、日志、检查点)进行协调,而非依赖内存中的临时信息,确保每一步操作均可事后审查与复现。
安全性:智能体仅被允许写入自身轨迹目录,数据集以只读方式挂载,每次调用均生成可审计的操作日志。
实验结果

AIBuildAI在OpenAI MLE-Bench基准测试上进行了评估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了来自Kaggle竞赛的真实任务,涵盖图像分类,目标检测/分割、自然语言理解与生成、时序信号建模以及结构化表格预测等多个类别,共75个任务,要求系统完成从原始数据到可提交模型的全流程开发。目前,AIBuildAI以63.1%的综合获奖率位居MLE-Bench总榜第一。上图展示了AIBuildAI(橙条)的综合性能在所有的对比方法中实现了性能最佳。

上图展示了AIBuildAI 在语言理解与生成任务上的详细结果。上半部分以Billion Word Imputation为例,完整呈现了 AIBuildAI 各智能体的运行轨迹:Manager依次调度Setup、Designer(提出6个候选方案)、Coder(实现流水线)和 Tuner(迭代调参),最终Aggregator以RoBERTa-large为基础生成提交文件,取得5.5060的最优分数。下半部分对比了AIBuildAI与AIRA-dojo、MLEvolve在10个具体语言任务上的性能表现。
AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多个任务上均取得最优成绩,充分验证了 AIBuildAI 在多样化语言任务上的泛化能力。
总结
AIBuildAI通过将AI开发流程分配到包括设计、编码、调优与协调等任务的专职智能体,并以基于产出物的状态管理将各个智能体紧密协同,实现了端到端自动化AI工程。
不同于以往将代码生成作为核心范式的单体系统,AIBuildAI显示建模了训练动态监控、早停机制与超参数调整等关键环节,更贴近真实工程师团队的工作方式。
AIBuildAI在MLE-Bench的75个任务上,以63.1%的获奖率位居第一,证明了结构化多智能体协作在复杂工程工作自动化上的可行性,也为迈向媲美人类专业工程师的自动AI系统提供了清晰的技术路线。
参考资料:
https://github.com/aibuildai/AI-Build-AI
相关攻略
年初,DeepMind创始人德米斯·哈萨比斯提出了一个堪称“硬核”的AGI判定标准:一个训练数据截止到1911年的模型,能否自行推导出爱因斯坦在1915年提出的广义相对论?这听起来像是一个思想实验,但没想到,真有人动手去尝试了,而且牵头者之一,正是“GPT之父”亚历克·拉德福德。 最近,拉德福德与“
专业安全机构RedAccess近期发布的一份深度研究报告,为整个行业敲响了安全警钟。报告揭示,大量采用“氛围编程”模式快速开发的Web应用存在显著安全缺陷,部分系统甚至处于完全无防护状态,致使企业核心数据直接暴露于公开网络。 首先,我们需要明确“氛围编程”的具体含义。简而言之,它指的是开发人员借助A
探讨RPA(机器人流程自动化)时,一个普遍被提及的问题是:学习和应用RPA需要编程基础吗? 答案并非绝对。这主要取决于三个核心维度:所选RPA工具的特性、待自动化流程的复杂程度,以及实施者自身的技术背景。下面我们将逐一深入分析。 一、RPA平台与编程需求 不同RPA厂商提供的平台,其技术门槛差异显著
南京大学与伦敦大学学院联合研究团队近日发布了一项突破性成果,为精准评估大型语言模型在代码生成与编程任务中的真实能力提供了全新框架。相关研究论文《CONTEXTBENCH: 评估代码大模型上下文推理能力的基准》已正式发表于预印本平台arXiv,论文编号为arXiv:2602 05892v2。 随着AI
苹果Swift学生编程挑战赛揭晓,江苏四名学生获奖。作品涵盖海洋公益游戏、手势控制音乐应用、虚拟拼豆机及机器人实验室游戏,展现了年轻开发者用代码表达创意与解决实际问题的能力。赛事允许使用AI工具辅助开发,但强调批判性思维与原创力仍是核心价值。
热门专题
热门推荐
机器人行业迎来里程碑式突破。以视频生成模型Vidu著称的生数科技,正式发布了名为Motubrain的“世界动作模型”。这并非一次普通迭代,而是被定位为机器人的“物理大脑”,其核心目标在于:用一个统一的通用模型,彻底取代以往依赖多个专用系统拼凑而成的复杂架构。 正如其“一个大脑,无限可能”的口号所揭示
xAI正式进军AI编程智能体领域,于近日发布了专为软件工程与复杂编程任务设计的Grok Build。 简单来说,Grok Build是一款能在终端里直接跑起来的AI编程助手。它被定位为一个具备智能体能力的命令行工具,开发者用自然语言告诉它要做什么,它就能生成代码,甚至帮你搞定一系列编程和自动化任务。
近日,谷歌对其搜索引擎的核心规则进行了重要更新,此次调整直指当前备受关注的AI搜索领域。具体而言,谷歌在其垃圾内容政策中新增了明确条款,正式将“操纵AI搜索结果”的行为列为违规操作,划定了新的质量红线。 根据权威行业媒体Search Engine Land的报道,本次谷歌算法更新的核心在于,将任何企
硅谷的科技巨头们或许曾以为,自己已经远离了AI数据中心带来的电力压力——毕竟,高昂的地价和电费早就把大型数据中心项目“赶”到了别处。但现实总是出人意料,这场能源危机的涟漪,正悄然涌向他们心爱的度假后院。 没错,说的就是太浩湖。这个湾区精英们钟爱的避世天堂,如今正站在一场电力风暴的边缘。距离它必须找到
这项由高通AI研究院(Qualcomm AI Research)主导的创新研究于2026年5月正式发布,论文预印本编号为arXiv:2605 07721。 研究背景:当AI越想越费内存,我们该怎么办 设想一下,手机导航应用会在出发前规划好整条路线,而一位真正智慧的向导则会边走边思考,遇到路障时灵活应





