国产万卡智算集群破局背后:99.99%超高可用性如何实现?
走进上海智能算力科技有限公司(下称“智算科技”)位于上海松江区的国产万卡集群智算中心,刚踏入机房大门,浑厚而持续的风扇轰鸣声便扑面而来。目光所及,数万张GPU在机柜里整齐排列、鳞次栉比;高速网络线缆密密麻麻却井然有序,与闪烁着微光的设备指示灯交相辉映,每一处细节都彰显着智算中心的高效运转。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
需要特别指出的是,智算科技公司目前已经完成多款国产GPU卡以及多台套国产并行计算系统的软硬件适配。在自主可控的大背景下,该公司对于国产卡算力集群的成功破局对中国发展人工智能产业是一大推动。
能支持大模型训练的万卡算力集群的搭建以及稳定运行的难度众所周知,而采用多家国产芯片异构计算集群搭建和运维则是难上加难。
智算科技智算中心的稳健运转,离不开该公司系统工程中心的硬核支撑——这里汇聚着一群平均年龄不足33岁的青年从业者,怀揣精湛技艺与创新热忱,深耕科技前沿、攻坚技术壁垒,在算力创新的赛道上步履不停。
国产万卡异构算力破局
当前,中国虽有多家GPU算力芯片厂商,但受起步较晚、芯片制程受限等因素影响,各厂商规模普遍较小,亟需稳定的应用场景开展产品验证与技术迭代。
而智算科技的国产智算中心,主动扛起了这一使命,为国产算力芯片搭建起关键的实践应用场景。
智算科技是由上海仪电(集团)有限公司(含云赛智联股份有限公司)牵头,与上海数据集团有限公司、上海市信息投资股份有限公司、上海阶跃星辰智能科技有限公司以及松江区政府(上海松江国有资产投资经营管理集团有限公司)共同发起组建的算力基础设施公司。
目前,智算科技已建成万卡级智算集群,并逐步形成规模化、专业化、集约化运营格局,集群算力规模、性能密度和综合能效均领先全国。
据介绍,该公司算力设备种类齐全,已完成多款GPU卡以及多台套国产并行计算系统的软硬件适配测试。同时,聚焦提升资源管理、任务调度和网络运维水平,该公司建立了专业软件团队,与清华大学等联合开展国产并行计算软件、编程框架、通信库、算子库、等智算关键软件和训推工具链研发,不断提高MFU模型算力利用率。目前已建成上线具备自主知识产权的智算云平台,基于微服务框架实现训推优化、数据集成、模型研发、云平台管理和跨域算力调度等功能服务。
智算科技董事长、总经理孙跃接受澎湃新闻采访时表示,一方面,做多元异构算力一定程度上会带动国产厂商的发展,给国产算力提供一个场景,有助于充分利用国产算力。另一方面,不同的业务和行业对不同芯片有不同的需求。许多国产算力芯片在细分领域具有一定优势,可以通过异构在同一底座和云平台的基础上更好地适配不同垂类和算力基础设施的要求,更好地发挥国产软硬件基础设施的作用。
技术攻坚,集群实现了99.99%的超高可用性
搭建万卡算力集群难,而万卡算力集群要想稳定运行则是难上加难。在大规模训练中,任何关键节点的故障都可能导致整个训练任务中断。无论是GPU本身的高价值、训练任务还是科研时间,损失都不可估量。
智算科技系统工程中心总监、团队负责人胡宝群接受采访时表示,万卡算力稳定运营,意味着故障必然会发生,甚至每天都会发生。当故障发生时,如何快速定位故障,故障后如何快速修复,这个是行业非常重要的挑战。
“我们当前已经实现分钟级甚至秒级的预定位故障,并且能够在5分钟内恢复业务。”胡宝群表示。
据介绍,智算科技的智算中心已经成功实现了集群99.99%的超高可用性(相当于全年总故障时间缩短至1小时内),这一成果有力支撑了某大模型公司等多模态大模型领先全球的训练(成功避免了算力中断可能造成的巨大损失)。
在技术突围方面,智算科技的团队首创“动态感知调度方案”,使训练效率飙升91%,每年为国家节省的算力成本相当于新建3个数据中心,实现了混合架构万卡集群调度技术的自主可控。
这支平均年龄不超过33岁的青年突击队
智算科技的技术团队非常年轻,平均年龄不超过33岁,他们来自互联网、运营商和上海仪电系统,是一群有一定工作经验,技术和业务能力非常强的技术人员组成的攻坚团队。
尽管成员之前有一定技术积累,但三年前开始构建的万卡大模型几乎都是前沿且探索性的,团队也是在整个攻坚过程中形成自己的技术方案,并完成了突破。
胡宝群是智算科技计算部门的第二号员工,整个技术工程团队也是他逐步带领起来的。
“前期团队搭建相对困难,因为真正有万卡集训经验的人主要来自互联网云厂商,所以上海有经验的人较少。所以团队有人来自互联网大厂。后期公司也开始培养第二波和第三波的技术人才。”胡宝群表示。
据悉,这支青年突击队曾连续79天吃住在机房驻守,为了0.1%的效率提升每天熬红双眼反复打磨代码,开展算法攻坚。面对紧急任务,他们打破常规,将线性流程优化为“并行施工+边测边调”,抢占每一秒进度。
“我们每台设备后面会接20多根网线,整套万卡集群,即有近十万根线,实际上建设时会复杂一些。实际运营过程中,我们还需要将1万张调度、协同、故障修复,这相对比较困难。”胡宝群表示,一万张的智算中心故障几乎每刻都在发生,大家精神高度紧张,也需要依赖平台和工具链的建设。此外,团队也需要对接行业前沿技术,比如通过算法预判出现问题的情况,提前介入,确保算力中心的稳定运营。
智算科技系统平台部负责人翟雨佳补充道,“AI人才密度相对稀缺,壁垒也是比较高的。其实,国外的头部AI企业最稀缺的也不是资金,而是人才,我们现在已经具备了一支能够胜任任务或者专业结构合理、技术过硬的AI技术人才,这才是我们最宝贵的资产。”
孙跃也强调,当初万卡集群搭建之时,国内具备万卡建设经验的团队寥寥无几。智算科技一方面积极引进专业人才,另一方面注重在实践中锤炼队伍,在攻坚克难的过程中,将分散的个体人才凝聚成紧密协作的团队,不断提升团队的组织协调能力与整体战斗力。
孙跃表示:“团队需要充分给年轻同志施展才华的空间和舞台,让每位同事充分发挥潜能和潜力。只有每位同事都像小老虎一样,我们才能在整个集群建设、公司发展过程中敢打敢拼敢冲锋。”
相关攻略
算力租赁市场持续升温,行业格局悄然生变 4月15日,资本市场上的算力租赁板块表现相当活跃,反复走强。午后,协创数据(300857 SZ)、宏景科技(301396 SZ)的股价涨幅超过了10%,利通电子(603629 SH)更是逼近涨停板,股价续创历史新高。与此同时,恒润股份(603985 SH)、亿
OpenAI内部备忘录曝光:直指竞争对手Anthropic算力规模“不在一个量级” AI领域的竞争,火药味越来越浓了。就在本周,OpenAI向投资者发送的一份内部备忘录被曝光,内容直指其主要竞争对手Anthropic。OpenAI在文件中毫不客气地指出,双方的“规模体量完全不在一个量级”,并称Ant
高端GPU缺货、存储价格上涨、AI项目交付延迟。过去几个月,算力供给的收紧,正在从上游快速传导至整个IT产业链。多位渠道商近日对第一财经记者表示,AI算力需求的爆发已明显拉长关键设备的交付周期。“高
走进上海智能算力科技有限公司(下称“智算科技”)位于上海松江区的国产万卡集群智算中心,刚踏入机房大门,浑厚而持续的风扇轰鸣声便扑面而来。目光所及,数万张GPU在机柜里整齐排列、鳞次栉比;高速网络线缆
算力是人工智能的底座,而算力集群好比AI世界的“发电机”,其高效调度与稳定运维,直接决定了大模型等产业的发展速度。在上海仪电,一支平均年龄仅32岁的智算科技万卡集群青年突击队,从零起步、边干边学,不
热门专题
热门推荐
TON网络最近实施了一次重要的升级,交易费用大幅下降,总体费用降低至近乎零的水平,同时引入了不受网络拥堵影响的固定定价机制。 最近,TON网络完成了一次关键升级,效果立竿见影:交易费用被大幅削减,整体成本降至近乎忽略不计的水平。更重要的是,它引入了一套不受网络拥堵影响的固定定价机制。这一变革带来的不
在怪物猎人物语3中,泡狐龙蛋是玩家们十分渴望得到的珍贵物品。以下为大家详细介绍获取泡狐龙蛋的方法。 探索特定区域 想找到泡狐龙蛋,首先得去对地方。游戏里有些区域的“出货率”明显更高,比如生态丰富的水没林,那里可是泡狐龙时常出没的“老巢”。 不过,光知道区域还不够,关键在于“仔细”二字。你需要像个真正
在重返未来1999中,狂想可燃点是一个极具挑战性但又充满乐趣的玩法。合理的队伍搭配能够让玩家在这个玩法中更加得心应手,下面就为大家推荐几套实用的狂想可燃点队伍。 控制爆发流 核心角色:星锑、红弩箭、十四行诗 这套阵容的思路非常清晰:以控制创造机会,用爆发终结战斗。星锑的核心优势在于其强大的单体爆发技
花蕾绽爱意,冰晶映柔情!国民原创乐园游戏《蛋仔派对》×《精灵梦叶罗丽》联动重磅上线 次元壁,又一次被魔法打破了。4月30日,国民原创乐园游戏《蛋仔派对》与经典动画《精灵梦叶罗丽》的联动正式开启。罗丽公主与冰公主携手降临蛋仔岛,仙光流转指尖,一场关于缔结魔法契约的奇妙邂逅,正等着你。 双生公主,诠释魔
牧场物语风之繁华集市:核心农作物种植指南 想在集市上站稳脚跟,选对作物是关键。今天,我们就来聊聊游戏中几种基础又重要的农作物,看看它们各自有什么特点,以及如何为你的牧场和集市生意添砖加瓦。 小麦 先说小麦,这可是基础中的基础。它的优势非常明显:生长周期短,从播种到收获,十来天就能搞定。这意味着资金回





