UCL博士生创业一年打造最强AI ML工程师获OpenAI认证

时间：2026-07-01 16:11

OpenAI推出MLE-bench基准测试，评估AI自主完成机器学习工程任务。GPT-4o结合AIDE框架表现优于其他框架，o1-preview配合AIDE后性能翻倍，约16 9%比赛达到铜牌以上。AIDE由UCL博士生创立的WecoAI开发，专注于机器学习的代码优化Agent框架，展示了Agent框架在释放模型能力中的关键作用。

谁说只要大模型就够了？重要的事说三遍：Agent 框架很重要。先说几个关键判断。OpenAI 最近又搞了个大动作，野心明显更大了——他们推出了一项全新的基准测试，名叫 MLE-bench。这背后的逻辑其实很简单：既然大语言模型（LLM）已经具备了强大的先验知识和行动能力，那让AI自己训练AI，是不是真的可行？几个顶级大模型在机器学习自动化工程上，到底表现如何？人类距离OpenAI规划的AGI路线图上的Level 3（即Agent级别），又还有多远？为了回答这些问题，OpenAI精选了75个与机器学习工程（MLE）相关的Kaggle竞赛题目作为测试题。理由也很直接：目前市面上“很少有基准测试能够全面衡量自主的端到端机器学习工程”的能力。结果很有意思。当GPT-4o搭配上一个名为AIDE的开源Agent框架时，平均获得的奖牌数量明显优于另外两个开源框架。更令人惊讶的是，当模型切换到据说突破了LLM推理极限的o1-preview后，表现直接翻了一倍——在大约16.9%的比赛中达到了相当于Kaggle铜牌以上的水平，奖牌数量更是一骑绝尘。而且，8次尝试之后，o1-preview的得分从单次尝试的16.9%提高到了34.1%。

有趣的是，这篇论文的本意是展示自家模型的卓越能力，却“意外”地让AIDE这个开源Agent框架脱颖而出，引发了不少行业关注。Meta FAIR的研究科学家主任田渊栋随即发去贺电。

“这是一个绝佳例证，”伦敦大学学院教授、谷歌DeepMind高级研究员Tim Rocktäschel评论道，“展示了开放式自我完善的外部循环（AIDE）如何引导强大的内部循环（o1）实现惊人的能力飞跃。”

UCL名誉教授、谷歌DeepMind研究主任Edward Grefenstette认为，AIDE团队“构建的东西很大程度上支撑和影响了OpenAI的智能体路线图。”

DeepMind研究员、伦敦大学学院教授Sebastian Riedel则欣喜地表示：“我们亲眼目睹了‘Agent框架’在基础模型之上带来的巨大影响。”

这种不谋而合，恰恰说明了Agent框架在AI能力释放中的关键作用。

一、被忽略的“Agent框架”

在评估大模型性能之前，选择合适的Agent框架至关重要。OpenAI发现，尽管几个框架的“有效提交”数量差不多，但GPT-4o结合AIDE框架，在8.7%的竞赛中至少获得了铜牌，明显多于另一个开源框架MLAB（0.8%）和通用框架OpenHands（4.4%）。对这个结果，AIDE的作者之一、WecoAI联合创始人兼CEO蒋铮尧并不感到意外——因为这些框架的设计方向本来就不同。 MLAB是基于ReAct框架，针对机器学习任务设计过的Agent，核心思路是做接口设计，通过调用工具来执行操作。相当于给ChatGPT配备了更多工具（如数据预处理、特征工程等），他们相信大模型自己就知道该怎么做。但问题在于，对当前世代的模型来说，这实在太难了——如果真能做到，基本就等于实现AGI了。 OpenHands（前身是OpenDevin)更为通用，是一个由AI驱动的软件开发Agent，能基于用户自然语言命令“自动驾驶”软件开发任务，包括克隆项目、修改代码、运行命令、调用API和提交代码等，数据科学任务也包含在内。相比之下，AIDE并没有那么“通用”。它是一个专注于代码优化的框架，后来在机器学习方面进行了特化，变成了一个机器学习代码生成Agent（Machine Learning CodeGen Agent）。说白了，它就是针对性地解决特定类型的问题，自然比通用框架表现更好。你只需要用自然语言描述问题（比如预测房价），它就开始在你的本地计算机上进行试错，尝试提供解决方案。真正出乎蒋铮尧意料的是，o1-preview和AIDE的适配性非常好。当模型切换到o1-preview后，表现直接翻了一倍，在大约16.9%的比赛中达到了相当于Kaggle铜牌以上的水平。

我们自己参加Kaggle，成绩恐怕都没它好。蒋铮尧推测，这可能与AIDE的设计范式——AI Function（AI函数）有关。简单来说，AI Function范式就是将大问题拆分成一个个具体指令（类似“函数”），再用算法将它们串联起来。在这种范式下，每次喂给大模型（如o1-preview）的问题，会跟大模型在强化学习训练时做过的数理化题目比较像。换句话说，这种范式创造了一个与大模型训练过程高度一致的问题解决环境，模型能更好地利用训练中获得的知识和技能，从而提高解决问题的效率。负责将这些具体指令串联起来的核心算法，叫做“解空间树搜索”（Solution Space Tree Search），包含三个主要组件： **解决方案生成器（Solution Generator）**：负责提出新的解决方案，主要是创建起点。大模型接收一系列自然语言指令和背景资料后，会生成几个初始解决方案，也可以对现有方案进行修改，比如修复bug或引入改进。每个解决方案都包含了机器学习模型的实现和评估方法。

MLE-bench中，三种不同Agent框架的真实轨迹摘录举个例子，在执行某个MLE-bench任务时，AIDE一开始设计了一个基于预训练EfficientNet-B0模型的二元分类器用于病理图像分类，这可以看作搜索的起点或初始解决方案。 **评估器（Evaluator）**：负责测试每个解决方案，将其性能与目标进行比较来完成评估，并将结果输出到命令行。对于单步任务，大模型有能力写出比较合格的评估代码。 **基础解决方案选择器（Base Solution Selector）**：负责从已探索的选项中选择最有前途的解决方案，作为下一轮优化的起点。这是一个写死的逻辑（一个数学运算），大模型只需客观判断哪一个方案的数值最好即可。这个组件对于引导搜索过程至关重要，因为它会将实验资源集中到最有希望的解决方案上。回到刚才的例子，针对初始方案，AIDE在步骤2提出了改进——在测试集上使用测试时增强（TTA）来提高模型性能。到了步骤17，它又提出了另一个改进：用Focal Loss替换标准的二元交叉熵损失函数。从步骤2到17，暗示了中间还有许多其他优化步骤。虽然图片中没有直接显示评估结果，但我们可以推断，从使用EfficientNet-B0到引入TTA，再到更换损失函数，每一步都建立在前一步的结果评估基础上。 AIDE会要求大模型基于最佳方案继续改进，后者可能又生成几种不同的改进方向，周而复始。通过不断生成新的解决方案，AIDE逐步探索和优化解决方案空间，提高任务模型的性能，最终收敛到一个高度优化的解决方案。纵观MLE-bench任务全程，一个明显的感觉是：通用框架就像急着提前交卷的学生，过早结束运行，有时在最初几分钟内就结束了。比如OpenHands只跑了2分钟（19步）就结束，不再继续提升。而AIDE会反复提示模型去提高得分，一直战斗到交卷铃声响（24小时），共生成和评估了30个不同解决方案或变体。虽然在OpenAI的MLE-bench中，AIDE在16.9%的Kaggle任务上获得奖牌，但在今年4月的WecoAI技术报告中，AIDE的表现更优：在Kaggle数据科学比赛中的平均表现，击败了一半的人类参赛者！

来自4月的WecoAI技术报告，AIDE平均表现超过50%的Kaggle数据科学比赛的人类参与者，也优于传统的AutoML（H2O）、Langchain Agent和ChatGPT（在人工协助下）。蒋铮尧解释了性能差异的原因：OpenAI更关注深度学习任务，但WecoAI选择的Kaggle比赛多为表格数据任务（如预测房价、信用卡欺诈、乘客是否在泰坦尼克号事故中生存），需要深度学习的任务很少，GPU太贵是重要原因。在这些常见机器学习任务，特别是表格数据任务上，花费两美元就可以得到一个非常不错的解决方案。使用gpt-4-turbo作为LLM时，推理成本甚至不到1美元——因为AIDE每次只提供最相关的信息给LLM，而不是将包含大量冗余的历史信息全都扔进去，极大节约了成本。不过，OpenAI的MLE-bench也揭示出明显的局限性。比如，三个Agent都没能很好地考虑到机器的性能限制和时间限制。它们会发出一些超出机器承受能力的命令，导致电脑硬盘或内存吃不消，程序被系统强制关闭，任务被迫提前结束。另外，它们也很少表明所生成的代码会运行多长时间。蒋铮尧认为，这些大模型并没有真的达到“Agent”的程度，在处理需要长期规划和多步骤交互的复杂任务时仍存在明显不足。AIDE代表了一种新的尝试，结合代码逻辑和神经网络，专门针对特定任务进行优化，更适合处理边界明确的问题。相比传统纯逻辑软件，AIDE能处理更广泛的问题，但“如果面对的问题越开放，逻辑部分就会越复杂，直到（程度复杂到）无法处理”。

二、从UCL出发的WecoAI

作为AIDE的主要作者之一，蒋铮尧、吴宇翔和Dominik Schmidt也是英国初创公司Weco AI的核心团队成员，三人均来自享誉盛名的伦敦大学学院（UCL）。

蒋铮尧是Weco AI的联合创始人兼CEO，目前仍在UCL DARK实验室攻读博士学位。DARK实验室（全称UCL Deciding, Acting, and Reasoning with Knowledge Lab）隶属于伦敦大学学院人工智能中心，是一个专注于复杂开放环境中强化学习研究的前沿团队。在2024年国际机器学习会议（ICML）上，DARK摘得了两项最佳论文奖。公司联合创始人兼CTO吴宇翔在UCL人工智能中心NLP组攻读博士学位，之前聚焦于问答领域。创始工程师团队同样实力雄厚。 WecoAI成立于2023年5月。在此之前，吴宇翔和蒋铮尧开发了多智能体LLM框架ChatArena，引起了广泛关注。不过，开始创业后，团队意识到多智能体框架的商业化还为时尚早，且面临诸多挑战。他们重新思考方向，寻找既具商业前景又能激发团队兴趣的领域。经过深思熟虑，他们确定了“用AI智能体来制造AI”这个方向。机器学习的进步主要源于有效的实验：针对特定任务开发方法，运行实验，评估结果，然后根据反馈改进方法。这个迭代过程很有挑战性，研究人员不仅需要具备广泛的先验知识，写出实用的代码，还要能准确解读实验结果并持续改进。作为工程师，他们天生就有自动化工作流程的冲动。那么，强大语言模型驱动的Agent能否有效执行这些复杂的机器学习实验呢？考虑到成本，团队选择聚焦算力消耗较低的机器学习任务，特别是在表格模型和小规模神经网络方面。2024年4月，他们推出了AIDE，在Kaggle数据科学比赛中的平均表现战胜了50%的人类参赛者。 AIDE主要是团队研究方向的工作。蒋铮尧解释说，尽管o1-preview带来了一些进展，但目前技术还没有完全成熟，商业化仍面临诸多挑战。未来，AIDE将持续改进。“我们计划加强与社区的合作，包括提升性能和关注AI安全，”他表示，“我们也准备与对AI安全有担忧的各类机构和学界专家展开合作。” 必须警惕的是，这种能够递归自我提升的AI同时又非常危险。前不久，微软AI CEO Mustafa Suleyman公开表示，尽管目前还没有看到AI系统能够自我提升到导致“智能爆炸”的程度，但在未来5到10年，这种情况将会改变。各大AI公司和政府AI安全部门都在密切关注这一领域，构建公共benchmark可以帮助大家理解人类距离递归自我提升还有多远，并及时协调和应对。除了科研线的AIDE，WecoAI还有一个产品线。他们很快会发布第一个公开测试的产品——AI Function Builder，它能根据自然语言的任务描述生成AI功能并提供API接口。用户只需通过一行代码或电子表格中的一个公式就能调用这些功能。就在OpenAI公布MLE-bench的前几天，2024年诺贝尔化学奖被一分为二：一半共同授予谷歌DeepMind CEO Demis Hassabis和高级研究科学家John M. Jumper，以表彰他们“在蛋白质结构预测方面的贡献”。这一殊荣源自享誉全球的AlphaFold，也标志着诺贝尔奖对AI驱动科学发现这一新范式的高度肯定。据悉，学术界许多人将不得不重新编写研究经费申请，重新思考研究方向。蒋铮尧认为，未来将会涌现更多这样的“低垂果实”，因为AI在推动科学研究方面的作用可能是根本性的。从工程师的角度来看，未来人们可能会将更多时间投入到创造性思维、跨领域思想的整合以及深度的逻辑推理上，而将那些重复性的试错过程交由AI来完成。WecoAI最想做的，就是培养“AI科学家”，让这些AI智能体能够自主地形成或融入人类的科学共同体。