首页 游戏 软件 资讯 排行榜 专题
首页
AI
上交AI科学家王者归来,全球第一超越谷歌登顶OpenAI MLE-bench

上交AI科学家王者归来,全球第一超越谷歌登顶OpenAI MLE-bench

热心网友
18
转载
2025-12-25


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

新智元报道

编辑:好困

【新智元导读】刚刚,由SciMaster团队推出的AI机器学习专家ML-Master 2.0,基于国产开源大模型DeepSeek,在OpenAI权威基准测试MLE-bench中一举击败Google、Meta、微软等国际顶流,刷新全球SOTA,再次登顶!目前该功能已在SciMaster线上平台开放waiting list,欢迎申请体验。

从《三体》中时刻干扰基础物理实验的「智子」,到《2001太空漫游》里具备自主决策能力的HAL,再到阿西莫夫笔下具有推理与科学探索能力的机器人,人类对一个问题的想象由来已久:

如果智能体不再只是工具,而是能够像科学家一样,在复杂环境中长期探索、不断修正假设,科学会发生什么变化?


很长一段时间里,这样的设想更多停留在科学想象中;而随着大模型能力的快速跃迁,它正逐渐演变为一个正在被认真对待的现实技术命题。

越来越多研究者开始意识到,真正的分水岭并不在于AI能否把题「答对」,而在于它能否像科研人员一样,在长期不确定的探索过程中不断修正方向、积累经验,并在反复试错中推动知识本身向前演化。

Google DeepMind推出的AlphaEvolve,试图让AI在长时间的演化过程中不断修正自身策略;

OpenAI提出的Frontier Science,明确将衡量重点放在AI是否能够在真实科研任务中持续工作、反复迭代;

美国甚至启动了号称「AI曼哈顿计划」的Genesis Mission,尝试将AI系统性地嵌入国家级科学研究体系之中。


这些探索路径虽不相同,却共同指向一个核心共识:

真正推动科学进步的AI,不是只会在竞赛中给出标准答案,而是能够在真实科研环境中,面对超长程科研任务时,经受长时间试错、不断自我演化,并在持续迭代中逐步演化出可靠能力。

正是在这样的背景下,AI4AI(AIfor AI)逐渐成为一个至关重要的方向:

它既是AI参与科学研究的重要形态之一,更直接关系到AI能否通过自身实践推动能力增长,从而支撑更长期、更复杂的科研任务。

因而,OpenAI所提出的MLE-bench中所聚焦的机器学习工程(Machine LearningEngineering, MLE)任务,恰恰成为AI4AI场景下极为贴切的研究对象。

相比理想化的答题类型任务,真实的MLE科研往往需要在十几个甚至数十小时内,持续经历实验设计、代码实现、调试修正与结果分析等完整闭环,其过程高度依赖长期试错与经验积累。

这也使得MLE-bench成为少数能够真实反映AI是否具备长期科研演化能力的评测基准之一。


由上海交通大学人工智能学院、上海算法创新研究院、深势科技组成的SciMaster团队推出的面向真实机器学习科研任务的自主智能体ML-Master 2.0,就是这样一个专门为「机器学习工程」而生的AI4AI(AI for AI)系统。

结合EigenAI提供的稳定高性能AI基础设施,该智能体基于国产大模型DeepSeek-V3.2-Speciale,在MLE-bench上击败Google,Meta,Microsoft等团队构建的一系列智能体,取得全球第一的成绩。

更重要的是,它已经在多家科技公司与实验室中落地,用于具身智能机器人训练、理论物理模拟与发现等前沿场景。


这一结果不仅是一项榜单排名,更清晰地表明:

在面向真实科研任务、强调长期演化与工程闭环的自主智能体方向上,中国研究者已经具备与国际顶尖团队同台竞争、并实现领先突破的能力。

ML-Master 2.0

为真实机器学习科研而生的自主智能体

在真实的机器学习工程(Machine Learning Engineering, MLE)中,科研并不是一次性「把题做对」。

相反,它往往是一个漫长而反复的过程:

设定实验假设、编写与修改代码、定位bug、分析结果、推翻假设、再重新开始。这样的循环,可能持续几个,甚至数十个小时。

ML-Master 2.0正是围绕这一真实科研场景被系统性设计出来的。

与许多只关注短程推理或单次任务成功的智能体不同,它从设计之初就假定:

没有人类在旁实时纠错;

实验失败是常态而非例外;

真正有价值的能力,来自长期反复试错中的积累。

在保留原有ML-Master探索—利用闭环的基础上,ML-Master 2.0进一步着重在长时间的探索中保持研究方向不跑偏,并且将失败转化为可复用的经验的能力。

这也直接引出了其关键设计理念之一:

科研型智能体必须具备长期认知积累的能力,而不是将上下文视为一次性消耗的推理材料。

超长程自主:能跑代码,更能长期思考

在ML-Master 2.0的设计中,这种能力被明确概括为一个核心概念:

超长程自主(Ultra-Long-Horizon Autonomy)

在MLE场景下,真正的自主性并不等价于更强的代码生成能力,而体现在系统是否能够:

在长达数十小时的探索中持续围绕同一科研目标展开;

从大量失败实验中总结规律,而不是简单重复尝试;

主动避开已经验证无效的技术路径;

将一次任务中获得的经验迁移到后续的新任务中。

换句话说,问题的关键并不在于「上下文够不够长」,而在于:

这些上下文是否能够被持续整理、筛选,并真正沉淀为可复用的认知资产。

以「认知积累」为核心的ML-Master 2.0架构

基于上述思考,ML-Master 2.0构建了一套围绕长期科研探索的整体技术框架。

在这一架构中,上下文不再被视为「用完即丢」的推理输入,而是被建模为一种具有生命周期的认知资产。

随着科研过程不断推进,系统内部的认知逐步发生分化:

Experience(经验):直接服务于当前决策的即时执行轨迹;

Knowledge(知识):在同一任务中多次验证后形成的稳定结论;

Wisdom(智慧):能够跨任务复用的高层策略与认知原型。

为了系统性地管理这一演化过程,ML-Master 2.0引入了层次化认知缓存(Hierarchical Cognitive Caching, HCC)机制。


层次化认知缓存:为长程科研提供记忆支点

从直观层面看,层次化认知缓存并不是简单地「把上下文存得更多」,而是让不同时间尺度的认知各司其职:

即时演化的经验,用于保证当前探索过程的连续性;

阶段性稳定的知识,在同一科研任务中被反复调用;

跨任务沉淀的先验智慧,为新问题提供高质量起点。

在这一机制下,有价值的认知会在探索过程中被不断筛选并逐步提升层级,而噪声信息则会自然被淘汰。

这使得ML-Master 2.0即使在长时间运行中,也能够保持稳定、可控的科研节奏,而不会陷入「上下文爆炸」或「遗忘历史经验」的困境。

ML-Master 2.0重登MLE-bench榜首

在OpenAI MLE-bench的系统评测中,ML-Master 2.0在完全无人工干预的条件下,基于国产Deepseek-V3.2-Speciale开源大模型,取得了56.44%的奖牌率,位列榜单第一,相较于Google等团队的基于闭源模型的智能体提升28.3%。

并且ML-Master 2.0已经开始在真实科研中发挥作用,参与协助理论计算物理以及具身智能等领域的前沿研究。


走向真正的自主AI科学家

ML-Master 2.0的优异成果表明,通过将认知过程视为可积累、可迁移、可演化的资源,并以层次化方式对其进行管理,我们正在接近这样一种智能体:

它不仅能完成一次任务,而是能够在长期探索中,真正成长为一名自主的AI科学家。

在全球AI4Science竞逐加速的今天,我们很高兴看到:

中国团队,正在用中国的开源大模型,参与并引领这一关键范式的转变。

此前,ML-Master的核心代码已经开源,研究者和工程师可以通过GitHub访问并了解其整体设计与实现细节。

与此同时,ML-Master 2.0所代表的这一整套「面向真实科研的自主智能体能力」,也将以产品形态逐步开放。

该能力即将通过SciMaster平台上线,面向机器学习与AI4Science场景提供更完整、更稳定的使用体验。

目前该功能开放了Waiting List阶段,感兴趣的研究者与工程团队可以在SciMaster主页通过「SciMaster的朋友圈」提前申请体验资格。


项目地址:

https://github.com/sjtu-sai-agents/ML-Master

SciMaster主页:

https://scimaster.bohrium.com/c h a t/

EigenAI主页:

https://www.eigenai.com/

秒追ASI

⭐点赞、转发、在看一键三连⭐

点亮星标,锁定新智元极速推送!


来源:https://www.163.com/dy/article/KHKH26170511ABV6.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

谷歌 TurboQuant 算法遭质疑,中国博士后指其论文存在严重问题
业界动态
谷歌 TurboQuant 算法遭质疑,中国博士后指其论文存在严重问题

谷歌TurboQuant算法遭中国博士后质疑,论文争议点深度剖析 近日,AI模型压缩领域发生了一场引人关注的学术风波。事件的起因是谷歌研究院在3月25日重磅发布的全新极端压缩算法TurboQuant。该技术旨在破解大语言模型推理过程中的核心瓶颈——键值缓存(KV Cache)所导致的庞大内存占用问题

热心网友
04.01
OpenAI再上演资产大逃亡:别等ASI,模型已成流量诱饵
AI
OpenAI再上演资产大逃亡:别等ASI,模型已成流量诱饵

新智元报道编辑:倾倾【新智元导读】全世界都在等ASI降临,OpenAI却在年初悄悄上线广告位。9亿用户撑不起数百亿美元的算力账单,智力正在贬值,神仙也得下凡赚钱!2025年底,一份名为ChatGPT

热心网友
04.01
谷歌 Willow 量子处理器开放限量早期试用,加速商业化进程
业界动态
谷歌 Willow 量子处理器开放限量早期试用,加速商业化进程

谷歌Willow量子处理器启动限时早期访问,加速商业应用落地 近期,谷歌在量子计算领域的连续动作引发了业界广泛关注,其商业化节奏明显提速。从中性原子计算路径的探索,到后量子加密技术部署时间表的提前,一系列进展均显示出强烈的推进意图。而最新发布的 Willow 量子处理器限量早期访问计划,更被视为其从

热心网友
04.01
谷歌为 Pixel 10 等手机酝酿通勤模式:过滤通知、切换音频等
科技数码
谷歌为 Pixel 10 等手机酝酿通勤模式:过滤通知、切换音频等

谷歌 Pixel 手机将推“通勤模式”:智能优化公共交通出行体验 科技领域的最新动向显示,谷歌即将为其 Pixel 智能手机引入一项备受期待的新功能——“通勤模式”(Transit Mode)。该功能旨在深度优化用户在乘坐地铁、公交等公共交通工具时的手机使用体验,帮助乘客在嘈杂或拥挤的环境中更好地管

热心网友
04.01
谷歌翻译AI外语外教实测:每日学习督导机制详解
手机教程
谷歌翻译AI外语外教实测:每日学习督导机制详解

12 月 9 日消息,科技媒体 Android Authority 今天(12 月 9 日)发布博文,通过拆解谷歌翻译(Google Translate)安卓版 v9 29 安装包代码,发现了多项

热心网友
04.01

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《洛克王国》世界圣羽翼王打法攻略-圣羽翼王技能与实战详解
游戏攻略
《洛克王国》世界圣羽翼王打法攻略-圣羽翼王技能与实战详解

速览攻略:世界圣羽翼王核心打法与全面解析 本攻略将为你完整呈现《洛克王国》世界圣羽翼王的通关秘籍,深度剖析两种高效实战打法:追求极致速度的“燃薪虫四回合速通”与稳定输出的“酷拉无限连击流”。文章将进一步解析这位翼系精灵王的技能机制、属性克制关系及其在PVE与PVP中的实战定位,帮助你彻底掌握应对其隐

热心网友
04.06
《异种航员2》工程系统详解-工作坊与资源管理指南
游戏攻略
《异种航员2》工程系统详解-工作坊与资源管理指南

速览:工程系统核心机制解析 在《异种航员2》中,工程系统是整个抵抗力量赖以运转的“战略后勤中枢”。无论是研发新武器、生产重型装甲还是制造先进飞行器,所有实体装备的产出都依赖于此。简言之,该系统的核心运作围绕着两大关键:工程师人力的高效配置与全球稀缺资源的精细化调度。工程师的数量直接决定了每个项目的建

热心网友
04.06
《洛克王国世界》治愈兔位置详解-任务与战斗关键精灵
游戏攻略
《洛克王国世界》治愈兔位置详解-任务与战斗关键精灵

核心速览 在《洛克王国世界》中,治愈兔是一位兼具功能性任务角色与实战辅助能力的精灵。它的价值不仅在剧情推进中体现,更在于对战里出色的治疗与防护表现。本文将为你全面解析治愈兔的精准获取位置、种族属性特点以及实战技能搭配,助你顺利捕捉并最大化其在队伍中的作用。所有关键信息将通过清晰的图文内容详细展示,确

热心网友
04.06
《红色沙漠》传说之狼打法-传说之狼击杀流程详解
游戏攻略
《红色沙漠》传说之狼打法-传说之狼击杀流程详解

速览 在《红色沙漠》中,挑战传说之狼这一强大的任务BOSS,需要玩家进行充分的准备并遵循完整的任务流程。整个过程环环相扣,你必须首先参与塞莱斯特家族的势力任务,通过完成任务将家族声望提升至指定等级,才能解锁【传说之狼】的专属讨伐任务,最终直面这个传说中的强大生物。 红色沙漠传说之狼怎么打 归根结底,

热心网友
04.06
《宝可梦Pokopia》舒适度提升攻略-环境等级与栖息地优化指南
游戏攻略
《宝可梦Pokopia》舒适度提升攻略-环境等级与栖息地优化指南

【宝可梦Pokopia】舒适度全解析:快速提升环境等级的核心秘诀 你是否正在探索《宝可梦Pokopia》世界,并希望有效提升宝可梦栖息地的舒适度?舒适度不仅是衡量宝可梦快乐程度的晴雨表,更是解锁游戏核心内容、加速发展的关键驱动指标。本攻略将系统性地为你揭示提升舒适度的核心途径,涵盖从装饰栖息地、建造

热心网友
04.06