阿里云AI性能压测:英伟达GPU用量锐减82%,213卡实现1192卡效能
10月18日,《南华早报》今日(10月18日)发布报道,称在韩国首尔举办的第31届操作系统原理研讨会(SOSP)上,阿里云发布的“Aegaeon”计算池化解方案研究成果成功入选,这一方案能够解决当前AI模型服务中普遍存在的GPU资源浪费问题。
查阅公开资料可知,SOSP是计算机操作系统领域的顶尖会议,堪称该领域的“奥斯卡”,其论文录用率控制在极低水平,每年收录的论文数量仅数十篇。入选论文通常代表了操作系统与软件领域最具价值的研究成果。
研究指出,云服务商当前在提供AI模型服务时,普遍面临严重的资源利用效率问题。一个平台往往需要同时托管数千个AI模型以应对海量并发的API调用,但用户请求却高度集中在少数几个热门模型上,例如阿里巴巴推出的Qwen系列模型。
研究人员发现,这种“长尾效应”导致了严重的资源闲置:在阿里云模型市场中,居然有17.7%的GPU算力仅用于处理1.35%的用户请求,造成了巨大的成本浪费。
为应对这一痛点,Aegaeon系统应运而生。该系统通过创新的GPU资源池化技术,使单个GPU能够动态服务于多个不同的AI模型,打破了以往GPU需与特定模型绑定的低效模式。
在阿里云模型市场持续三个多月的Beta测试中,Aegaeon系统展现了卓越的效能。测试数据显示,在服务参数量高达720亿的大模型时,所需的英伟达H20 GPU数量从1192个成功减少至213个,削减幅度高达82%。
这项由北京大学与阿里云合作完成的研究,被认为是首个公开揭示并解决市场上并发大语言模型服务存在过高成本问题的重要工作,为行业提供了全新的优化思路。
值得一提的是,阿里云首席技术官周靖人也是该论文的作者之一。周靖人同时是国际电气与电子工程师协会会士(IEEE Fellow)、国际计算机协会会士(ACM Fellow),并担任阿里巴巴集团副总裁、阿里云智能CTO及达摩院副院长。
相关攻略

黄仁勋的这次演讲,质量有点高。10月6日,他出现在纽约,美国城堡证券举办的一场闭门对话,对话在10天后,也就是昨天,被公布。台下坐着华尔街最敏锐的一群人,掌控着全球数万亿美金的资金流;台上,黄仁勋穿

10 月 18 日消息,南华早报今天(10 月 18 日)发布博文,报道称在韩国首尔举办的第 31 届操作系统原理研讨会(SOSP)上,阿里云发布的“Aegaeon”的计算池化解决方案研究成果成功

10月18日消息,中国移动近日宣布,计划到2028年,在其全国最大的人工智能(AI)计算网络中全面使用国产芯片。此举旨在加速人工智能自主化,并在日益紧张的地缘政治局势下减少对外国技术的依赖。按照中国

10 月 17 日消息,根据英伟达正式首页内容,2025 年度的 NVIDIA 中国开发者日活动将于 11 月 14 日在苏州举行,同期还将举办 2025 NVIDIA 创业企业展示 —— 半程展

10 月 17 日消息,英伟达最新美国加州当地时间 13 日宣布,Meta 和 Oracle 甲骨文将为 AI 数据中心网络导入英伟达 Spectrum-X 以太网交换机。两家科技巨头将把这一 A
热门专题


热门推荐

水母在海洋中优雅地游动,其独特的外形和灵动的姿态吸引着水母鱼。许多水母以浮游生物为食,它们在水中滤食时,会将周围的小型生物一同捕获。水母鱼敏锐地察觉到这一点,追随水母游动,就能在水

10月18日,Meta近期为社交平台推出一项基于人工智能的图片编辑新功能。启用该功能后,系统将自动扫描用户设备中的照片与视频内容,并上传至云端服务器,利用AI技术生成风格多样的拼贴作品与创意影像编辑

在人类对宇宙的认知中,木星常被误解为一颗由氢气和氦气构成的“气球行星”,似乎只要有小行星撞击,就会像针刺气球般轻易穿透。然而,现实中的木星远非如此脆弱。大多数小行星在撞击木星时,甚至连其浓厚的大气层

10月17日,有消息显示,Osmo Mobile 8手机稳定器的实物图与包装信息已对外曝光。从分享的图片可见,新品在外观设计上未延续前代OM7及OM SE所采用的米色或灰色配色方案,而是改为全黑风格

在使用驱动精灵时,有时我们可能需要设置代理来访问网络,以满足特定的网络环境需求。下面就详细介绍一下驱动精灵设置代理的方法。首先,打开驱动精灵软件。进入主界面后,找到软件的设置选项。