中国移动智算实现万卡长周期稳定训练,技术已达领先水平
10月14日最新消息,人民邮电报今日发布报道称,中国移动成功实现智算万卡池在长周期训练场景下的持久稳定运行,训练稳定性已达到全球行业标杆水准。这一突破标志着我国在超大规模智算集群管控领域迈入领先地位,攻克了大型算力集群调度、高可靠通信保障及智能化故障诊断与快速自愈等多个业界长期面临的难题。
报道指出,随着人工智能技术进入爆发式增长阶段,大模型参数量正从千亿向万亿级别跃升,由此对智算基础设施的算力密度、长期稳定性以及协同效能提出了更严苛的要求。万卡级规模的协同训练场景目前已成为全球范围内普遍面临的智算集群稳定性挑战。
中国移动依托哈尔滨数据中心智算集群,牵头构建了全调度以太网(GSE)技术体系,研发了慢卡慢网络风险识别、断点续训机制与AI运维智能体等创新技术,成功突破了超大规模智算基础设施建设与运行中的关键技术瓶颈。在研究过程中,团队围绕三大核心难题展开重点攻关:
创新性地推出了慢卡慢网络风险识别技术,实现对典型故障场景的全面感知,显著提升诊断准确率
研发的断点续训机制,在故障节点被自动隔离后可实现训练状态分钟级回滚,使硬件故障导致的训练中断量下降50%
引入AI运维智能体,通过多层架构日志分析系统达成分钟级故障定界,覆盖25类软硬件故障解决方案,将故障处置时长从数天压缩至分钟级
据人民邮电报透露,这一稳定运行能力直接使大模型训练周期缩短近三分之一,资源利用率逼近100%,为人工智能技术的工业化量产打下坚实基础,有力支撑自动驾驶、生物医药、新材料研发等前沿领域的持续创新。与此同时,中国移动已在黑龙江、广东等地建设了智算运维示范中心。
值得一提的是,在10月11日举行的2025中国移动全球合作伙伴大会主论坛上,中国移动正式发布了“AI+”行动计划升级版,明确提出到2028年底将持续加大在人工智能领域的投入,总体投入规模将实现翻倍增长,建成国内规模最大、技术领先的智算基础设施,并计划探索十万卡级别智算集群建设,实现全国产智能算力规模突破100 EFLOPS。
热门专题


热门推荐

当混动市场的竞争从“参数比拼”转向“需求洞察”,一款新车的市场表现往往能折射出消费逻辑的深刻变迁。领克10EM-P上市首月即实现万台下线,在平均售价接近19万元的中高端市场创下“非低价冲量”的纪录。

10月15日消息,今日,荣耀举行新品发布会,发布荣耀Magic8系列、荣耀MagicPad 3 Pro等六大新品,有手机、平板、耳机、智能手表等。目前全部产品价格已经公布,汇总如下:荣耀Magic8

百度旗下视频生成模型迎来重大技术突破,其自主研发的“蒸汽机(文心专精)”系统首次实现AI长视频实时交互生成功能。通过流式视频技术的创新应用,该系统成功打破传统AI视频生成10秒左右的时长桎梏,支持“

在dnf中,迷你漫游枪手是备受玩家喜爱的宠物之一。它具有独特的属性特点,对于玩家的战斗表现有着一定的影响。迷你漫游枪手的基本属性涵盖了多个方面。首先是力量属性,它能为角色提供可观的

第二十一届中国国际消防设备技术交流展览会在北京拉开帷幕,这场汇聚全球消防救援产业核心力量的盛会,以“科技赋能实战,助力产业发展,服务消防救援”为主题,集中展示了消防领域的前沿产品与尖端技术,成为行业