首页 游戏 软件 资讯 排行榜 专题
首页
AI
华为联袂三大高校开源Flex AI:攻克算力调度三大核心难题

华为联袂三大高校开源Flex AI:攻克算力调度三大核心难题

热心网友
50
转载
2025-11-28

在刚刚结束的“2025AI容器应用落地与发展论坛”上,华为携手上海交通大学、西安交通大学及厦门大学,共同推出并开源了AI容器技术Flex:ai。该技术借助虚拟化与资源池化手段,专注于实现算力资源的精细管理与智能调度,推动人工智能从专业领域走向更广阔的应用场景。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

华为公司副总裁、数据存储产品线负责人周跃峰在论坛上表示,尽管人工智能常被视为高端技术,但如何让更多企业和家庭享受到其带来的便利依然障碍重重。他以医疗行业为例解释道,医院单个科室通常仅配备少量计算卡,且年度ICT投入有限,导致GPU或NPU资源难以高效调度。他提出深刻思考:“能否将单张算力卡虚拟化为多张,从而充分释放其潜力?”

华为数据存储产品线DCS+AI首席架构师刘潺进一步剖析了当前存在的三大痛点:轻量级任务单卡算力浪费、复杂任务单机算力不足以及多任务并发时的资源抢占现象。他指出,许多企业在模型开发阶段仅拥有有限算力,却需要同时支持开发、训练和推理任务,如何实现算力资源的灵活调配正成为Flex:ai的核心目标。

针对这些挑战,华为与三所高校分别从资源切分、跨节点聚合与智能调度三个方向展开研究。上海交通大学软件学院戚正伟教授详细阐述了XPU资源池化框架原理:通过API拦截与转发技术,将单张GPU或NPU划分为更细粒度的虚拟单元,实现资源共享与隔离。测试数据表明,虚拟化后资源利用率从20%提升至80%,支持多任务并行处理,整体效率显著提升。在NPU实验中,资源利用率甚至达到99%,且不同任务互不干扰。

厦门大学信息学院与上海交通大学计算机学院张一鸣教授关注到企业中普遍存在的“算力孤岛”问题。他介绍,团队研发的跨节点拉远虚拟化技术通过API拦截和RDMA高速网络,将分散的算力资源整合为“共享算力池”。通用服务器可透明地将AI任务转发至远端算力卡执行,实现通用计算与智能计算的深度融合。实验表明,该方案使高优先级作业吞吐量提升67%,并有效利用了17%的内部碎片资源。

西安交通大学计算机科学与技术学院院长张兴军教授将调度系统比作“算力网络的交通枢纽”。他强调,AI模型训练与推理需要计算与数据的协同,因此需从底层资源入手实现细粒度调度。团队与华为共同研发的Hi Scheduler调度器支持对国产GPU、NPU等异构算力进行时空分片,通过分层调度机制应对负载波动。实际应用中,该调度器使集群资源利用率提升30%,并保障了多租户环境下的公平性与隔离性。

为推动技术普及与生态共建,华为决定将Flex:ai全栈技术开源,并与三所高校持续迭代。刘潺透露,开源模块包括智能调度器与算力虚拟化组件,支持与Kubernetes等主流框架集成,未来将推动南北向异构算力兼容,构建标准化接口。戚正伟认为,开源能加速技术落地,相比受限于商业合作与硬件绑定的方案,Flex:ai更具通用性。张一鸣表示,厦门大学已布局拓感知调度、推理负载优化等后续研究,以推动技术在复杂场景中的应用。

华为2012实验室理论研究部首席研究员张弓从底层技术挑战出发,指出企业部署AI推理时面临“高服务质量与低资源利用率”的矛盾。他以医院为例说明,推理服务器白天负载高、夜间闲置,资源利用率极低。要实现动态扩缩、任务迁移与细粒度资源分配,需突破保序流图、细粒度资源隔离与安全通信协议等技术。初步实验结果显示,单卡场景下故障迁移与性能隔离的开销控制在5%以内,但跨节点迁移与大规模集群调度仍是待解难题。

来源:https://www.itbear.com.cn/html/2025-11/1031467.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Mac如何使用BetterTouchTool增强触控_Mac BetterTouchTool增强触控步骤
系统平台
Mac如何使用BetterTouchTool增强触控_Mac BetterTouchTool增强触控步骤

一、授予系统权限并启动基础服务 想让BetterTouchTool真正“活”起来,第一步就得打通系统权限。它需要“辅助功能”权限来监听你的触控板事件,也需要“屏幕录制”权限来执行一些窗口操作。这两项权限缺一不可,否则你会发现手势做了,但电脑毫无反应。 具体操作其实不复杂:先进入系统「设置」-「隐私与

热心网友
04.30
如何开启Windows 11“高性能模式” 解决笔记本玩游戏掉帧降频方法
系统平台
如何开启Windows 11“高性能模式” 解决笔记本玩游戏掉帧降频方法

如何开启Windows 11“高性能模式” 解决笔记本玩游戏掉帧降频方法 笔记本玩游戏,最扫兴的莫过于画面突然卡顿、帧率断崖式下跌。很多时候,问题并非出在硬件本身,而是Windows 11默认的电源策略在“拖后腿”。为了省电,系统会动态调节处理器频率、让核心休眠,甚至给显卡设置功耗墙,这直接限制了硬

热心网友
04.30
Mac系统更新失败提示错误的解决方法
系统平台
Mac系统更新失败提示错误的解决方法

macOS更新失败?别慌,这五步能帮你搞定 升级macOS时,进度条卡住不动、弹窗提示“无法验证更新”或者干脆报错退出,这事儿确实让人头疼。其实,这些看似随机的故障,背后通常逃不出几个核心原因:存储空间不连续、网络连接不干净、缓存文件有冲突,或者磁盘底层出了点小状况。别担心,按照下面这套经过验证的步

热心网友
04.30
Linux下使用Jattach工具诊断Java进程 零停机获取Dump信息
系统平台
Linux下使用Jattach工具诊断Java进程 零停机获取Dump信息

Linux下使用Jattach工具诊断Ja va进程 零停机获取Dump信息 开门见山,先说一个核心判断:jattach 并非 JDK 自带工具,也不能直接替代 jstack。但它的价值在于,能在某些棘手场景下,绕过 JVM 的安全限制成功获取 dump。当然,这有个前提——目标 JVM 的 Att

热心网友
04.30
Linux怎么安装和配置Tyk API网关 Linux开源网关管理详解
系统平台
Linux怎么安装和配置Tyk API网关 Linux开源网关管理详解

Tyk Dashboard 启动失败?从配置到排查的完整指南 在Linux上部署Tyk,可不是简单的apt install或yum install就能搞定。它背后依赖着MongoDB和Redis,并且对配置顺序有严格的要求。跳过其中任何一环,tyk-dashboard服务很可能就会卡在502错误,或

热心网友
04.30