首页 游戏 软件 资讯 排行榜 专题
首页
AI
阿里云顶会发布秘密武器:213块GPU效率超1192块,成本骤降82%

阿里云顶会发布秘密武器:213块GPU效率超1192块,成本骤降82%

热心网友
72
转载
2025-10-22

Aegaeon的核心创新在于采用了token级别的自动扩缩容技术,这与现有系统在请求级别进行调度的方式截然不同。具体来说,系统会在生成每个token时动态判断是否需要切换模型,而不是等到整个请求处理完毕后才考虑切换。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

阿里云秘密武器亮相顶会SOSP:利用新技术砍掉了82%的英伟达GPU需求。

这一突破很快引起了业界的广泛关注与热议。

图片

这项研究由阿里巴巴与北京大学合作完成,由阿里云CTO周靖人亲自带队。

研究提出的最新GPU池化系统Aegaeon,通过token级别的自动扩缩容技术,硬是将GPU使用量从1192个缩减到了213个。

图片

这项研究的出发点源于对阿里云自身业务的一次深入观察。

在Model Studio(百炼平台)上,研究人员发现了一个令人头疼的现象:17.7%的GPU被分配去服务那些几乎无人使用的冷门模型,而这些模型仅处理了总请求量的1.35%。

之前要同时运行这些模型时,要么给每个模型单独分配GPU,导致许多冷门模型的GPU经常闲置浪费;要么采用旧方法让一个GPU运行2-3个模型(因为GPU内存不足,无法承载更多),总之资源利用率特别低。

Aegaeon瞄准了这一痛点,通过精细化的资源调度,彻底改变了GPU资源分配的运行规则。

冷门模型占用长尾资源

具体来看,在他们统计的779个模型中,有94.1%属于长尾模型,平均每秒请求量不到0.2个。

图片

与此同时,那些热门模型比如DeepSeek和通义千问虽然请求量大,但也经常出现突发流量,导致预留的GPU资源时而过载、时而闲置。

如果按照理想情况计算,单个GPU每秒应该能处理好几个请求,这意味着当前的资源利用率还有超过10倍的优化空间。

图片

传统的做法是给每个模型分配专用GPU,但这种"一对一"的服务模式在面对大量偶发性请求时,简直就是在烧钱。

Token级别调度,让GPU“见缝插针”

Aegaeon的核心创新在于采用了token级别的自动扩缩容技术,而不是像现有系统那样在请求级别进行调度。

具体来说,系统会在生成每个token时动态决定是否需要切换模型,而不是等到整个请求处理完毕才考虑切换。

如此一来,GPU能够灵活处理多个模型的请求,大大减少了模型之间的等待时间。论文显示,通过这种方式,单个GPU可以同时服务多达7个不同的模型。

图片

为了实现这个目标,研究团队还进行了一系列底层优化:

通过组件复用减少了80%的初始化开销;采用显式内存管理避免了内存碎片;实现了细粒度的KV缓存同步机制,让模型切换时间从几十秒缩短到1秒以内。

整体来看,这些优化将自动扩缩容的开销降低了97%。

图片

实战效果:吞吐量提升9倍

Aegaeon展现出最高可达9倍的性能提升,最低也有1.5倍,计算资源得到了极大的优化。

根据论文数据,与现有的ServerlessLLM和MuxServe等系统相比,Aegaeon能够支持2-2.5倍的请求到达率,有效吞吐量(goodput)提升了1.5到9倍。在测试环境中,使用16块H800 GPU的集群,系统成功服务了从6B到72B参数规模的多个模型。

图片

更重要的是,这套系统已经在阿里云百炼平台进行了超过3个月的生产环境测试。

在实际部署中,它服务了47个不同规模的模型,包括28个1.8B-7B的小模型和19个32B-72B的大模型。GPU利用率从之前的13.3%-33.9%提升到了48.1%,期间没有出现任何SLO违规或服务中断。

图片

论文地址:https://dl.acm.org/doi/10.1145/3731569.3764815

来源:https://server.51cto.com/article/827730.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw是什么?OpenClaw怎么样?OpenClaw 2026年最新部署方法整理
AI
OpenClaw是什么?OpenClaw怎么样?OpenClaw 2026年最新部署方法整理

OpenClaw是什么?2026年最新一键部署方法与实战指南 如果您正在寻找一款功能强大、完全开源的AI智能体框架,那么OpenClaw(曾用名Clawdbot或Moltbot)无疑是当前的优选。它凭借卓越的任务自动化能力与丰富的工具集成生态,已成为个人开发者与企业构建智能助理的首选平台。然而,对于

热心网友
04.02
OpenClaw 赋能 UI自动化
AI
OpenClaw 赋能 UI自动化

目录 一、OpenClaw到底是什么? 二、搭建OpenClaw需要准备什么环境? 三、如何开通阿里云百炼Coding Plan套餐? 1、访问Coding Plan购买页面 2、选择Lite基础套餐(7 9元 月) 3、获取并保管好API Key 四、购买一台阿里云服务器 五、快速部署OpenCl

热心网友
04.01
白嫖阿里云百炼大模型后OpenClaw如何添加更多模型
AI
白嫖阿里云百炼大模型后OpenClaw如何添加更多模型

角色与核心任务 我们共同面对一个极具价值的议题:如何将一段由人工智能生成的文字,打磨成一篇风格鲜明、具有人性温度的专业文稿?这绝不是机械的同义词替换,而是一场关于表达质感与思想深度的全面升级。 任务的目标清晰而坚定:文章的全部事实论据、核心观点、逻辑框架,乃至每一个章节标题和插图嵌入点,都必须保持原

热心网友
04.01
周红伟:随着OpenClaw的爆火,阿里云上线了OpenClaw云端极简部署及全套
AI
周红伟:随着OpenClaw的爆火,阿里云上线了OpenClaw云端极简部署及全套

近日,备受瞩目的开源个人AI助手正式完成第三次品牌升级,最终定名为OpenClaw。在此之前,项目曾历经Clawdbot与Moltbot两个发展阶段。伴随着OpenClaw的迅速走红,阿里云已同步上线云端极简部署方案及全套配套服务,用户无需进行繁琐的本地环境配置,即可快速拥有一个功能强大的专属AI智

热心网友
04.01
阿里集团战略投资高瓴,详解合作动向与深层考量
科技数码
阿里集团战略投资高瓴,详解合作动向与深层考量

【导读】易普集相继完成两轮亿级美元融资,阿里云、高瓴创投押注中国基金报记者 邱德坤3月31日,全球预制化模块数据中心基础设施服务商易普集宣布,已完成逾1亿美元B+轮融资,由Decarbonizat

热心网友
04.01

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查
web3.0
美国SEC主席Paul Atkins证实:加密货币安全港提案已送交白宫审查

加密货币行业翘首以盼的监管里程碑,终于有了实质性进展。美国证券交易委员会(SEC)主席保罗·阿特金斯(Paul Atkins)近日证实,那份允许加密项目在早期获得注册豁免权的“安全港”框架提案,已经正式送抵白宫,进入了最终审查阶段。 在范德堡大学与区块链协会联合举办的数字资产峰会上,阿特金斯透露了这

热心网友
04.08
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币
web3.0
微策略Strategy报告:第一季录得144.6亿美元浮亏 再斥资约3.3亿美元买进4871枚比特币

微策略Strategy报告:第一季录得144 6亿美元浮亏 再斥资约3 3亿美元买进4871枚比特币 市场震荡的威力有多大?看看Strategy的最新季报就明白了。根据其最新向美国证管会(SEC)提交的8-K报告,受市场剧烈波动影响,这家公司所持的比特币在第一季度录得了一笔惊人的数字——144 6亿

热心网友
04.08
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch
web3.0
稳定币发行商Tether再扩Web3版图!Paolo Ardoino:正开发去中心化搜索引擎Hypersearch

稳定币巨头Tether的动向,向来是加密世界的风向标。这不,它向Web3基础设施的版图扩张,又迈出了关键一步。公司执行长Paolo Ardoino在社交平台X上透露,其工程团队正在全力“烹制”一个新项目——去中心化搜索引擎 “Hypersearch”。这个消息一出,立刻引发了行业的广泛猜想。 采用D

热心网友
04.08
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线
web3.0
Base链首个原生DeFi借贷协议Seamless Protocol倒闭 将于2026年6月30日下线

基地位于Coinbase旗下以太坊Layer2网络Base的Seamless Protocol,日前正式宣告了服务的终结。这个曾经吸引了超过20万用户的原生DeFi借贷协议,在运营不到三年后,终究没能跑赢时间。它主打的核心产品是Integrated Leverage Markets(ILMs)——一

热心网友
04.08
PAAL代币如何参与治理?社区投票能决定哪些事项?
web3.0
PAAL代币如何参与治理?社区投票能决定哪些事项?

PAAL代币揭秘:深度解析Web3社区治理的核心钥匙 在去中心化自治组织的浪潮中,谁真正掌握了项目的话语权?PAAL代币提供了一套系统化的答案。它不仅是生态内流转的价值媒介,更是开启链上治理大门的核心凭证。通过持有并质押PAAL代币,用户能够对协议升级、资金分配乃至战略方向等关键事务投出决定性的一票

热心网友
04.08