国产万卡智算集群破局背后:99.99%超高可用性如何实现?
走进上海智能算力科技有限公司(下称“智算科技”)位于上海松江区的国产万卡集群智算中心,刚踏入机房大门,浑厚而持续的风扇轰鸣声便扑面而来。目光所及,数万张GPU在机柜里整齐排列、鳞次栉比;高速网络线缆密密麻麻却井然有序,与闪烁着微光的设备指示灯交相辉映,每一处细节都彰显着智算中心的高效运转。
需要特别指出的是,智算科技公司目前已经完成多款国产GPU卡以及多台套国产并行计算系统的软硬件适配。在自主可控的大背景下,该公司对于国产卡算力集群的成功破局对中国发展人工智能产业是一大推动。
能支持大模型训练的万卡算力集群的搭建以及稳定运行的难度众所周知,而采用多家国产芯片异构计算集群搭建和运维则是难上加难。
智算科技智算中心的稳健运转,离不开该公司系统工程中心的硬核支撑——这里汇聚着一群平均年龄不足33岁的青年从业者,怀揣精湛技艺与创新热忱,深耕科技前沿、攻坚技术壁垒,在算力创新的赛道上步履不停。
国产万卡异构算力破局
当前,中国虽有多家GPU算力芯片厂商,但受起步较晚、芯片制程受限等因素影响,各厂商规模普遍较小,亟需稳定的应用场景开展产品验证与技术迭代。
而智算科技的国产智算中心,主动扛起了这一使命,为国产算力芯片搭建起关键的实践应用场景。
智算科技是由上海仪电(集团)有限公司(含云赛智联股份有限公司)牵头,与上海数据集团有限公司、上海市信息投资股份有限公司、上海阶跃星辰智能科技有限公司以及松江区政府(上海松江国有资产投资经营管理集团有限公司)共同发起组建的算力基础设施公司。
目前,智算科技已建成万卡级智算集群,并逐步形成规模化、专业化、集约化运营格局,集群算力规模、性能密度和综合能效均领先全国。
据介绍,该公司算力设备种类齐全,已完成多款GPU卡以及多台套国产并行计算系统的软硬件适配测试。同时,聚焦提升资源管理、任务调度和网络运维水平,该公司建立了专业软件团队,与清华大学等联合开展国产并行计算软件、编程框架、通信库、算子库、等智算关键软件和训推工具链研发,不断提高MFU模型算力利用率。目前已建成上线具备自主知识产权的智算云平台,基于微服务框架实现训推优化、数据集成、模型研发、云平台管理和跨域算力调度等功能服务。
智算科技董事长、总经理孙跃接受澎湃新闻采访时表示,一方面,做多元异构算力一定程度上会带动国产厂商的发展,给国产算力提供一个场景,有助于充分利用国产算力。另一方面,不同的业务和行业对不同芯片有不同的需求。许多国产算力芯片在细分领域具有一定优势,可以通过异构在同一底座和云平台的基础上更好地适配不同垂类和算力基础设施的要求,更好地发挥国产软硬件基础设施的作用。
技术攻坚,集群实现了99.99%的超高可用性
搭建万卡算力集群难,而万卡算力集群要想稳定运行则是难上加难。在大规模训练中,任何关键节点的故障都可能导致整个训练任务中断。无论是GPU本身的高价值、训练任务还是科研时间,损失都不可估量。
智算科技系统工程中心总监、团队负责人胡宝群接受采访时表示,万卡算力稳定运营,意味着故障必然会发生,甚至每天都会发生。当故障发生时,如何快速定位故障,故障后如何快速修复,这个是行业非常重要的挑战。
“我们当前已经实现分钟级甚至秒级的预定位故障,并且能够在5分钟内恢复业务。”胡宝群表示。
据介绍,智算科技的智算中心已经成功实现了集群99.99%的超高可用性(相当于全年总故障时间缩短至1小时内),这一成果有力支撑了某大模型公司等多模态大模型领先全球的训练(成功避免了算力中断可能造成的巨大损失)。
在技术突围方面,智算科技的团队首创“动态感知调度方案”,使训练效率飙升91%,每年为国家节省的算力成本相当于新建3个数据中心,实现了混合架构万卡集群调度技术的自主可控。
这支平均年龄不超过33岁的青年突击队
智算科技的技术团队非常年轻,平均年龄不超过33岁,他们来自互联网、运营商和上海仪电系统,是一群有一定工作经验,技术和业务能力非常强的技术人员组成的攻坚团队。
尽管成员之前有一定技术积累,但三年前开始构建的万卡大模型几乎都是前沿且探索性的,团队也是在整个攻坚过程中形成自己的技术方案,并完成了突破。
胡宝群是智算科技计算部门的第二号员工,整个技术工程团队也是他逐步带领起来的。
“前期团队搭建相对困难,因为真正有万卡集训经验的人主要来自互联网云厂商,所以上海有经验的人较少。所以团队有人来自互联网大厂。后期公司也开始培养第二波和第三波的技术人才。”胡宝群表示。
据悉,这支青年突击队曾连续79天吃住在机房驻守,为了0.1%的效率提升每天熬红双眼反复打磨代码,开展算法攻坚。面对紧急任务,他们打破常规,将线性流程优化为“并行施工+边测边调”,抢占每一秒进度。
“我们每台设备后面会接20多根网线,整套万卡集群,即有近十万根线,实际上建设时会复杂一些。实际运营过程中,我们还需要将1万张调度、协同、故障修复,这相对比较困难。”胡宝群表示,一万张的智算中心故障几乎每刻都在发生,大家精神高度紧张,也需要依赖平台和工具链的建设。此外,团队也需要对接行业前沿技术,比如通过算法预判出现问题的情况,提前介入,确保算力中心的稳定运营。
智算科技系统平台部负责人翟雨佳补充道,“AI人才密度相对稀缺,壁垒也是比较高的。其实,国外的头部AI企业最稀缺的也不是资金,而是人才,我们现在已经具备了一支能够胜任任务或者专业结构合理、技术过硬的AI技术人才,这才是我们最宝贵的资产。”
孙跃也强调,当初万卡集群搭建之时,国内具备万卡建设经验的团队寥寥无几。智算科技一方面积极引进专业人才,另一方面注重在实践中锤炼队伍,在攻坚克难的过程中,将分散的个体人才凝聚成紧密协作的团队,不断提升团队的组织协调能力与整体战斗力。
孙跃表示:“团队需要充分给年轻同志施展才华的空间和舞台,让每位同事充分发挥潜能和潜力。只有每位同事都像小老虎一样,我们才能在整个集群建设、公司发展过程中敢打敢拼敢冲锋。”
相关攻略
隼瞻科技完成近亿元融资,其独特“IP+EDA工具”双轮驱动模式备受关注。公司拥有完备处理器IP货架及自研专用EDA平台ArchitStudio,通过软件定义硬件理念大幅缩短设计周期。该方案显著降低专用处理器设计门槛,助力端侧AI等场景高效落地,推动本土芯片架构创新。
4月27日,蚂蚁集团旗下全模态AI助手“灵光”App正式上线“体验世界模型”创新功能。用户仅需上传一张图片,即可在手机端一键生成长达60秒的沉浸式3D场景,并以第一人称视角自由探索。这一过程如同体验一款轻量级互动游戏,用户可在AI实时构建的动态环境中随意漫游。该功能无需本地部署与复杂配置,打开App
OpenAI近期正式发布了名为“保证容量”(Guaranteed Capacity)的全新服务方案,旨在帮助企业客户提前锁定未来一至三年的AI计算资源。在当前全球算力供应持续紧张的背景下,这项服务相当于为企业提供了一张长期稳定的“算力保障票”。 根据官方披露的细则,该服务的运行机制清晰直接:客户可自
近日,联想与中国一汽集团深化战略合作的消息,再次将“AI+智能制造”推向了行业焦点。此次合作超越了传统的设备采购,直指汽车产业智能化转型的核心命题——如何构建一个坚实、高效且绿色的智能算力底座,以应对汽车仿真计算、智能座舱开发等前沿场景带来的海量数据处理需求。 中国一汽企业生态战略营销部企业板块负责
科技板块近期出现回调,分析指出这主要受短期因素影响,人工智能等产业的中期趋势未变。投资布局可关注“算力”与“复苏”双主线,算力方向包括AI、光模块、PCB、存储芯片等核心环节;复苏方向则涉及电网设备、人形机器人及部分传统周期板块。中报业绩将成为验证各细分领域景气度的关键指标。
热门专题
热门推荐
10月11日,加密货币市场经历剧烈波动,单日爆仓金额与人数双双突破历史纪录。市场行情极端变化导致大量杠杆交易者被强制平仓,凸显了加密货币投资的高风险特性。这一事件再次引发对市场波动性与风险管理的广泛关注。
过去24小时内,加密货币市场剧烈波动,导致全网大量交易者仓位被强制平仓。数据显示,爆仓人数高达162万,涉及金额巨大。市场普遍认为,此次暴跌与多重因素相关,包括宏观经济预期变化、监管政策不确定性以及部分大型投资者抛售行为。这一事件再次凸显了加密货币市场的高风险特性。
加密货币市场经历约160亿美元清算冲击后进入缓慢筑底阶段。高杠杆集中、价格波动加剧及恐慌情绪扩散引发连锁清算。比特币与以太坊反弹空间有限;瑞波币抗跌但波动加大;Solana受冲击明显。投资者应控制杠杆、分批建仓并关注市场动态。
加密货币市场剧烈波动,过去24小时内全网爆仓金额升至191亿美元,创下历史新高。市场多空博弈激烈,杠杆交易者大量被强制平仓,凸显了高杠杆交易在极端行情中面临的巨大风险。
加密货币市场剧烈震荡,比特币等主流币种价格集体下挫,导致超160万投资者被强制平仓。此次暴跌由宏观紧缩、高杠杆连锁平仓及市场恐慌情绪共同引发,形成下跌与抛售相互强化的恶性循环。建议通过降杠杆、设止损及分散资产组合以应对风险。





