5小时发现MoE新算法:比人类快5倍,成本骤降26%
人工智能如今已经不仅限于应用算法,更在从事算法的自主创造。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
它设计的新型算法运行速度甚至比人类开发的快上整整五倍。
加州大学伯克利分校的一个研究团队提出了名为ADRS(AI驱动的系统研究)的AI驱动研究方法,该系统能够通过“生成—评估—改进”的循环迭代,持续推动算法的自我优化。

基于开源的ADRS框架OpenEvolve,该团队在多个领域的案例研究中证明,其发现的算法显著优于人类设计的方案,实现了高达5倍的运行效率提升,或降低了26%的运行成本。

接下来我们通过具体案例深入了解。
使用OpenEvolve探索新算法
如今,大型语言模型的庞大规模已经能够通过混合专家架构等方式实现高效管理。
在该架构中,路由器将输入文本的每个token动态分配给特定的专家网络,这使得推理过程只需激活模型总参数的一小部分,从而大幅提升了推理效率。
然而,这种架构也带来了一个关键的性能挑战——如何在各个专家之间实现负载均衡。
不可避免地,某些专家会因更受欢迎而出现“热点化”,从而产生计算瓶颈。

解决方案是一种称为专家并行负载均衡器的算法,该算法通过动态调整专家在GPU间的分布,以最小化负载不均衡、最大化系统吞吐量。
基础版EPLB算法分三个阶段运行:
1、将专家组分布到各个节点以平衡负载;2、为热点专家创建副本;3、将这些副本分配到GPU上,进一步优化负载均衡。
给定工作负载、MoE配置及GPU资源后,EPLB算法会确定各专家所需的副本数量,并将这些副本映射到具体GPU上。
可以说,EPLB算法追求两个核心目标:
最小化负载不均衡:尽可能均匀地分配负载;
最小化运行时间:重新分配过程本身必须迅速,避免成为新的性能瓶颈。
该算法直接影响生产环境中LLM服务的成本与性能表现。

在寻找更优的EPLB算法时,团队参考了两个基线方法。
首先,他们对DeepSeek开源的EPLB实现方案进行了评估。该方案采用贪心的“箱子装载”策略:先按负载从高到低对专家排序,然后将每个专家放置到具有容量且负载最轻的GPU上。
此方案虽然简单,但由于用Python编写,并通过for循环进行线性搜索以找到最适合的GPU,运行速度较慢。
平均而言,重新平衡这些专家大约需要540毫秒,实现的负载平衡因子为0.66。
之后,团队还将一个来自前沿实验室的非公开实现纳入考量。该实现方案避免了显式迭代,在达到与开源算法相同负载系数的同时,将重新平衡算法的运行时间缩短至19.6毫秒。

为进一步优化运行时间,研究团队选择用OpenEvolve来搜索EPLB算法。
实验采用基于PyTorch实现的MoE模型分布式GPU推理引擎,工作负载为基于ShareGPT和GSM8K数据集的负载变化。
其优化目标包含双重维度:既要最大化负载平衡因子,又要降低负载变化时专家重平衡算法的运行时间。
因此,他们根据负载平衡因子与运行时间倒数的加权平均值对算法进行评分。
实验使用80% Gemini 2.5 Flash与20% Gemini 2.5 Flash Lite混合配置运行OpenEvolve。进化过程以开源贪心算法作为初始程序,设置300次迭代上限。完整进化流程耗时约五小时,成本低于10美元。
OpenEvolve生成的新算法发现了一种巧妙的启发式方法,用以替代线性for循环。

它没有采用传统的箱子装载方式,而是通过对表示专家索引的张量进行重塑与转置,利用PyTorch的高速张量操作,以“之字形”在高负载与低负载GPU之间交错分配专家。
此外,OpenEvolve还引入了一些细微优化,包括更完善的排序逻辑和适应性的张量重塑策略。
最终,该算法在保持与其他基线相当的负载平衡因子的同时,将运行时间缩短至仅3.7毫秒,相比内部参考实现的性能提升达5倍。
三位核心成员皆为华人

Audrey Cheng,本科毕业于普林斯顿大学运筹学与金融工程系,目前在加州大学伯克利分校计算机系攻读博士,师从Ion Stoica和Natacha Crooks。
她的研究方向主要集中在数据库系统的事务处理,尤其是利用调度算法提升系统性能。
此外,她还与Meta的Themis团队紧密合作,研究大规模系统中的一致性与隔离性,并获得过Meta博士研究奖学金。

Shu Liu,加州大学伯克利分校博士生,本科毕业于美国威斯康星大学麦迪逊分校应用数学专业。

Melissa Pan,加州大学伯克利分校计算机科学专业的博士二年级学生,师从Matei Zaharia教授,并隶属于Sky Computing Lab。
她的研究主要关注在大规模机器学习与数据中心系统中,将可持续性作为与效率同等重要的优化目标。
在去伯克利之前,Melissa Pan在多伦多大学获得本科学位,在卡内基梅隆大学获得了硕士学位。
学术之余,Melissa Pan曾在IBM担任约三年的软件工程师,参与Db2数据库核心引擎的开发,主要负责高可用性功能,例如备份、恢复和数据修复。
One More Thing
无独有偶,Nature杂志在几天前也报道了一则关于AI创造新算法的新闻。

Ohi及其同事开发了一种能发现新型强化学习算法的元学习算法。
该架构的元学习层与基础层均采用神经网络。在元学习层,研究人员设计了一个充当强化学习算法的神经网络,并将其命名为元网络。
通过元网络,该算法在多项陌生任务中的表现超越了人类设计的强化学习算法。
看来,AI不仅能帮我们工作、帮我们学习,连创新也能亲自上手了。
下一个突破,可能就是它自己发明出来的。
论文链接:https://arxiv.org/abs/2510.06189Github
链接:https://github.com/UCB-ADRS/ADRS
参考链接:
[1]https://adrs-ucb.notion.site/moe-load-balancing
[2]https://www.nature.com/articles/d41586-025-03398-6
热门专题
热门推荐
英伟达显卡怎么设置发挥最大性能? 想让你的英伟达显卡火力全开,榨干每一分性能吗?无论是为了追求极致的游戏帧率,还是确保专业图形应用的流畅运行,正确的设置都至关重要。很多朋友手握着高性能显卡,却因为设置不当,没能享受到它应有的表现。别担心,下面这份详尽的设置指南,将带你一步步解锁显卡的全部潜力。 电脑
显卡温度过高怎么办?Win11系统下快速检测与降温指南 显卡温度异常升高是电脑用户常遇到的问题,不仅可能引发画面卡顿、显示花屏等故障,长期高温运行更会加速硬件老化,甚至导致显卡核心损坏。因此,定期监控显卡温度是维护电脑健康、保障稳定运行的关键环节。本文将详细介绍在Windows 11系统中,无需复杂
从Win7升级到Win10,这些关键点你把握住了吗? 近期,许多用户都在咨询如何将电脑操作系统从Windows 7平稳升级至Windows 10,并希望了解升级过程中有哪些常见陷阱需要规避。这确实是一个值得深入探讨的话题。今天,我们将系统性地梳理从Win7升级到Win10的全流程,重点解析那些至关重
360浏览器选中网页文字自动弹出复制选项怎么设置? 许多用户在使用360安全浏览器时,都非常依赖一个便捷功能:当您选中网页上的文字时,浏览器会自动弹出一个快捷工具条,提供“复制”、“翻译”、“搜索”等一键操作。这个划词工具条能极大提升浏览和资料处理的效率。如果您发现自己的浏览器突然失去了这个功能,无
系统之家U盘启动盘安装Win10系统图文教程 Windows 10凭借其出色的兼容性和流畅体验,至今仍是用户基数最大的操作系统。当需要重装系统时,使用U盘启动盘进行安装,无疑是高效且可靠的选择。接下来,就为大家详细拆解如何使用系统之家U盘启动盘来完成Win10系统的安装。 准备工作 在开始操作前,你





