UCSD发布AIBuildAI智能体MLE-Bench夺冠,龙虾也能养

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
新智元报道
编辑:LRST
【新智元导读】UCSD团队推出AIBuildAI智能体,无需编程,仅用自然语言描述任务,即可自动设计、编码、训练、调参并优化AI模型,分工协作,端到端完成AI开发。在OpenAI MLE-Bench测试中,AIBuildAI以63.1%的获奖率位居第一,性能媲美人类专家,推动AI开发迈向全自动化新时代。
近日,加州大学圣地亚哥分校的研究团队开发了AIBuildAI智能体,可以全自动构建AI模型(包括模型设计,代码实现,模型训练,调参,性能评估,迭代优化)。团队成员包括博士生Ruiyi Zhang,Peijia Qin,Qi Cao,Li Zhang,以及该校副教授Pengtao Xie。
开发一个高性能AI模型非常耗时费力,工程师需要反复设计模型、写代码实现模型、构建训练流水线、执行超参数搜索,并根据实验结果对模型进行迭代优化。
这一过程对专业知识的依赖程度极高,人力成本也居高不下,非常耗费时间。
为了解决这一问题,UCSD的研究团队开发了AIBuildAI智能体,充当虚拟的AI工程师或AI科学家,全自动构建AI模型。用户无需编程,只需要用自然语言对任务进行描述,AIBuildAI自动设计模型,写代码实现模型,训练模型,调节超参数,评估模型性能,并根据实验结果对模型进行迭代优化。

项目地址:https://github.com/aibuildai/AI-Build-AI
论文链接:https://github.com/aibuildai/AIBuildAI/blob/main/AIBuildAI_Tech_Report.pdf
OpenAI MLE-Bench测评结果:https://github.com/openai/mle-bench/pull/126
AIBuildAI在OpenAI MLE-Bench基准测试的75个任务上以63.1%的获奖率位居榜首,其表现可媲美经验丰富的AI工程师,实现了从任务描述到可部署模型的端到端自动化。


AIBuildAI的设计灵感来源于真实的AI研究团队的工作流程。在典型的AI项目中,技术负责人统筹多条并行探索路线,研究员提出建模策略,工程师实现训练流水线,负责人定期评审结果、分配资源。AIBuildAI将这一工作流抽象为一个多智能体搜索过程:将整个开发周期分解为多个专职智能体协作执行,并通过集中化的管理器进行统一调度。

技术核心
管理智能体(Manager Agent)
扮演项目运行负责人的角色,全程不直接写代码或执行训练任务,而是通过读取磁盘上的实验记录来做出下一步决策。他在两种模式之间切换:协调模式下决定下一步应该调用哪一个子智能体;筛选模式下依据训练信号保留有潜力的候选方案并终止无效方案来节约时间以及计算成本,并在进展停滞时触发修订或者终止。
研究员智能体(Designer Agent)
负责想方案和改方案两项核心任务。在设计模式下,他直接探索数据集特征,提出多个差异化、可行性强的建模计划;在修订模式下,他仔细诊断失败原因(过拟合、欠拟合、收敛问题或者数据异常),并提出具体的改进方案供编码智能体重新实现。
编码智能体(Coder Agent)
将设计方案转化为可运行的训练与推理流水线。编码智能体的目标是确保代码正确完整,而非追求最终性能。他会在写完代码后执行一次短时验证运行以确保流水线可以端到端运行,随后将完整训练交由调优器处理。
调优器智能体(Tuner Agent)
接管训练过程,在已有代码基础上专注于性能提升。它采用先快速校准、再决定是否投入的策略:先跑一段简短的热身训练观察学习曲线,再决定是延长当前方案还是进行超参数调整。整个过程在固定计算预算内完成。
系统设计
AIBuildAI在系统层面还具备三项关键特征:
并行效率:多条解决方案轨迹在独立工作空间中并发运行,避免互相干扰,允许系统同时探索多个方法并将资源集中于表现好的候选方案。
可复现性:所有智能体通过存储于磁盘中产出物(方案文档、配置文件、日志、检查点)进行协调,而非依赖内存中的临时信息,确保每一步操作均可事后审查与复现。
安全性:智能体仅被允许写入自身轨迹目录,数据集以只读方式挂载,每次调用均生成可审计的操作日志。
实验结果

AIBuildAI在OpenAI MLE-Bench基准测试上进行了评估 (https://github.com/openai/mle-bench/pull/126)。MLE-Bench包含了来自Kaggle竞赛的真实任务,涵盖图像分类,目标检测/分割、自然语言理解与生成、时序信号建模以及结构化表格预测等多个类别,共75个任务,要求系统完成从原始数据到可提交模型的全流程开发。目前,AIBuildAI以63.1%的综合获奖率位居MLE-Bench总榜第一。上图展示了AIBuildAI(橙条)的综合性能在所有的对比方法中实现了性能最佳。

上图展示了AIBuildAI 在语言理解与生成任务上的详细结果。上半部分以Billion Word Imputation为例,完整呈现了 AIBuildAI 各智能体的运行轨迹:Manager依次调度Setup、Designer(提出6个候选方案)、Coder(实现流水线)和 Tuner(迭代调参),最终Aggregator以RoBERTa-large为基础生成提交文件,取得5.5060的最优分数。下半部分对比了AIBuildAI与AIRA-dojo、MLEvolve在10个具体语言任务上的性能表现。
AIBuildAI(紫色)在 chaii-hindi-and-tamil-question-answering、patent-matching、tweet-sentiment-extraction、text-normalization-challenge-english-language、random-acts-of-pizza 等多个任务上均取得最优成绩,充分验证了 AIBuildAI 在多样化语言任务上的泛化能力。
总结
AIBuildAI通过将AI开发流程分配到包括设计、编码、调优与协调等任务的专职智能体,并以基于产出物的状态管理将各个智能体紧密协同,实现了端到端自动化AI工程。
不同于以往将代码生成作为核心范式的单体系统,AIBuildAI显示建模了训练动态监控、早停机制与超参数调整等关键环节,更贴近真实工程师团队的工作方式。
AIBuildAI在MLE-Bench的75个任务上,以63.1%的获奖率位居第一,证明了结构化多智能体协作在复杂工程工作自动化上的可行性,也为迈向媲美人类专业工程师的自动AI系统提供了清晰的技术路线。
参考资料:
https://github.com/aibuildai/AI-Build-AI
相关攻略
Token是AI时代的“新货币”。2024年,AI价格战打响,Token以“厘”计价;2026年,算力需求引爆,模型厂商和云厂商的Token集体涨价。在过去两年里,大模型行业经历了从价格战到价值战的
新智元报道编辑:peter东【新智元导读】一位开发者用四天时间,让AI「盲移植」了拥有37年历史的SimCity代码库。整个过程无人阅读一行原始C代码,仅靠AI生成与自动化测试验证。当AI开始重写软
雷递网 雷建平 3月31日智谱(HK:02513)今日正式发布2025年全年业绩,这是其上市后首份财报。智谱2025年营收7 24亿,较上年同期的3 12亿增131 9%。MaaS商业飞轮全面运转,
3月31日,字节跳动旗下AI编程产品TRAE推出“SOLO独立端”。TRAE 原有的 SOLO 模式(SOLO Agent)深度集成于传统 IDE 架构,此次 SOLO 独立端的推出,旨在优化新用户
henry 发自 凹非寺量子位 | 公众号 QbitAI能无限进步的「超级智能体」来了!最近,Meta研究团队的一篇题为HYPERAGENTS(超级智能体)的论文迅速刷屏。这篇论文将LSTM之父Jü
热门专题
热门推荐
三星电子计划在2030年前开发基于 forksheet 结构的 1nm SF1 0 工艺 近日,半导体制造领域传出重要技术进展。据《韩国经济日报》3月31日援引行业内部人士消息,三星电子晶圆代工厂已经制定了一项直至2030年的详细技术路线图。该计划的核心目标是,在2030年之前完成1纳米(1nm)级
4月1日消息,OPPO于今日在线上正式发布了新一代机型K15 Pro。该系列手机最受瞩目的核心卖点在于全系搭载了性能强劲的疾风散热引擎,通过主动散热技术大幅提升了手机在高负载状态下的性能表现。为了从
4月1日消息,为了有效应对全球存储市场的短缺危机,韩国两大芯片巨头三星电子与SK海力士不约而同地选择了加大对中国工厂的投入。据韩国媒体最新披露,这两大巨头已确定在2025年继续扩大在华投资规模。这一
4月1日消息,4月1日,界面新闻独家获悉,原特斯拉中国区总经理孔艳双已入职小米,将接替原小米汽车总监李晓锐负责汽车销售方面工作。孔艳双于3月初入职,处于工作交接期,目前小米内部并未正式发文通告其正式
笔记本电脑电池不耐用?酷睿 Ultra 三代轻薄本彻底解决续航难题 移动办公时,笔记本电脑续航时间短是许多用户的核心痛点。如今,搭载新一代处理器的轻薄本带来了突破性解决方案:华硕无畏 Pro16 2026 酷睿版。这款产品内置英特尔酷睿 Ultra7 356H 处理器,并配备高达 80Wh 的大容量





