阿里云AI计算方案降本82%:大模型GPU成本锐减!
10月21日,在首尔举行的顶级学术会议SOSP+2025(操作系统原理研讨会)上,阿里云发布了名为“Aegaeon”的计算池化解决方案。
Aegaeon方案的核心在于解决AI模型服务中普遍存在的GPU资源浪费问题,尤其针对需求突发或难以预测的大型语言模型。
它突破了传统“一个模型绑定一个GPU”的低效模式,创新性地实现了Token级别的GPU虚拟化访问技术,这意味着单个GPU能够被多个不同模型共享服务,实现精细化的资源调度。
作为推理时间调度器,阿里云Aegaeon系统在每次生成下一个token后,动态决定是否进行模型切换,从而将微小的工作片段灵活调度至共享资源池中。
通过组件复用、显存精细管理和KV缓存同步优化等全栈技术,Aegaeon将模型切换开销降低了惊人的97%,确保了token级调度的实时性,能够支持亚秒级的模型切换响应。
在阿里云模型市场为期三个多月的Beta测试中,Aegaeon系统在服务数十个参数量高达720亿的大型模型时,所需的NVIDIA H20 GPU数量从1192个大幅减少至213个,削减比例高达82%。
GPU用量的大幅削减,对硬件采购成本高昂的大型模型服务商而言,意味着运营成本将显著降低。
目前,这项核心技术已成功应用于阿里云百炼平台。

相关攻略
思必驰与阿里云达成全面AI合作,共同打造智能座舱行业标杆。双方将围绕行业模型共建、算力赋能及千问大模型融合等方面深度协同,强化思必驰“超级天琴2 0”的端云协同与场景推理能力,借助阿里云技术提升车载AI交互体验与落地效率,助力中国汽车智能化发展。
阿里云发布“AgenticCloud”战略,全面重构云服务以适配智能体时代。平头哥推出真武M890芯片提升算力,通义千问模型强化Agent能力,并推出“千问云”服务平台,将云资源转化为智能体可直连的标准化接口。阿里云从芯片、模型到平台进行端到端升级,旨在为大规模智能体应用提供全栈解决方案。
阿里云百炼平台宣布引入智谱GLM-5 1、MiniMaxM2 7等多家第三方模型,已正式上架开售。此举旨在打造开放的AI云平台,提供一站式多模型服务。此前平台已接入DeepSeek等模型,其API定价具备市场竞争力。
2025年3月31日,阿里通义实验室正式推出CoPaw智能体框架的1 0版本。此次重大更新,标志着这一基于AgentScope生态构建的智能体开发平台,实现了从架构到能力的全面进化。其核心依然由框架层、记忆层与模型层三层构成,但各项具体功能已得到显著增强,旨在解决开发者在实际部署与应用中的核心挑战。
游戏云市场格局已定,阿里云持续领跑 2025年,全球游戏产业总收入达到1960亿美元的历史新高,规模堪比中等国家GDP。然而,在亮眼数字背后,行业正面临严峻挑战:剔除通胀影响后,实际购买力仅与2024年持平。更令开发者压力倍增的是,3A大作的开发成本已攀升至平均2亿美元,团队规模动辄上千人,但游戏首
热门专题
热门推荐
水产市场是什么 在AI Agent的生态中,能力共享与协同进化是核心驱动力。水产市场(Seafood Market)正是为OpenClaw框架量身打造的AI Agent能力共享平台。你可以将其理解为AI领域的“应用商店”或“技能交易中心”,旨在实现AI能力的快速流通与组合创新。 目前,平台已集成超过
在信息爆炸的时代,高效地将音视频内容转化为可编辑、可检索的文字,已经成为内容创作者、研究者和职场人士的刚需。今天要聊的这款工具——MeowTXT,正是瞄准了这一痛点,它不仅仅是一个简单的转录工具,更是一个集成了智能识别、摘要和翻译的AI生产力平台。 MeowTXT是什么 简单来说,MeowTXT是一
OpenFang是什么 在AI Agent领域,我们常常面临一个困境:大多数系统仍然停留在“你说一句,它动一下”的被动模式,离真正的自动化还有距离。今天要聊的OpenFang,正是在尝试打破这个局面。它是一个用Rust语言构建的开源Agent操作系统,其核心创新在于引入了“Hands”的概念——你可
AngelSlim是什么 随着大模型参数规模不断增长,如何实现高效推理与低成本部署已成为开发者面临的核心挑战。腾讯混元团队推出的开源工具包AngelSlim,正是为解决这一难题而生。它是一个面向全模态大模型的综合压缩与加速解决方案,集成了量化、投机采样、稀疏化及知识蒸馏等前沿技术,旨在为各类大语言模
在信息过载的数字化时代,音频与视频内容已成为知识传递、创意表达与商业沟通的核心载体。然而,如何将这些宝贵的非结构化媒体资产,高效、精准地转化为可搜索、可分析、可编辑的文本格式,始终是内容创作者、市场研究人员、学者及商务人士的核心痛点。一款强大的AI转录工具,正是打通音视频内容价值闭环、释放生产力潜能





