粤港澳大湾区首个“真武”万卡智算集群上线,瞄准十万卡规模
近期的消息显示,国内算力基础设施建设又迈出了扎实的一步。由中国电信广东公司与阿里云在韶关数据中心联手打造的智算集群,已经正式投入运营。这个集群有个不小的看点——它不仅是粤港澳大湾区首个基于阿里云“真武”专用芯片的万卡级智算集群,更被规划了一个宏大的未来:预计将扩容至十万卡规模。这标志着国家推动的“超大规模智算集群”新型基础设施,首次在大湾区这片热土上成功落地。
从技术自主性的角度来看,这个项目的价值相当突出。它可不是简单的硬件堆叠,而是实现了从底层芯片、云计算平台,到上层模型应用的全链路自主研发。说得直白点,这是国家在构建自主可控算力底座道路上,一个里程碑式的样板工程。
那么,它的技术实力究竟如何?集群内部采用了卡间RoCE高性能组网,配合双平面多轨通信技术,直接把端到端的网络时延压低到了惊人的4微秒水平。与此同时,网络峰值利用率超过了95%。这意味着什么呢?这意味着数据在成千上万张计算卡之间流动的“高速公路”极其畅通且高效,几乎不存在拥堵和等待,这对于大规模AI训练任务来说,是至关重要的基础。
硬件的核心参数也很能打。“真武”芯片整机提供了高达1.5T的超大显存,而卡与卡之间的互联带宽更是超过了700GB/s。这组数据为国产算力系统应对下一代超大规模模型的需求,提供了坚实的硬件支撑。毕竟,模型参数越来越大,对内存和通信速度的要求也水涨船高。
性能提升的效果是立竿见影的。相比于传统的单机部署模式,这个集群的单卡吞吐性能直接跃升了9.3倍,而每秒能够生成的Token总量,也提升了接近10倍。这种量级的效率飞跃,对于研发机构和企业而言,无疑能大大缩短模型迭代周期,降低试错成本。
当然,光有强大的硬件还不够,好用才是关键。集群提供了从IaaS(基础设施即服务)、PaaS(平台即服务)到MaaS(模型即服务)的全栈AI智算云化产品服务。这种一体化的服务模式,让用户能够更专注于模型和应用本身,而不是底层运维。据称,这种全栈优化使得整体训练与推理效率提升了超过30%。
在软件生态兼容性上,集群的表现同样出色。它已经支持包括DeepSeek-V3.2满血版、Qwen3.5-397B-A17B等在内的业内领先开源模型,能够实现单机快速部署。这对于广大开发者社区和科研机构来说,是个极大利好,意味着他们可以无缝迁移已有的工作流,更快地利用上先进算力。
技术最终要服务于场景。目前,该集群已经在多个行业领域有了实际落地的案例。尤其是在医疗民生这个关键领域,一个名为“全诊通”的应用已经上线,并且开始在中山大学肿瘤防治中心等知名医院开展国产化迁移与应用试点。这让我们看到了先进算力在赋能精准医疗、改善民生方面的巨大潜力。

最后,为了让先进的算力资源能够惠及更广泛的中小企业和创新团队,集群的所有资源已经同步上架到了“广东电信算力超市”。这相当于开了一个“算力零售店”,企业可以根据自己的实际需求,灵活地按卡、甚至按小时来购买和使用算力服务。这种普惠化的模式,或许能成为点燃区域AI创新活力的又一个火花。
