云天励飞千卡AI推理集群落地,构建国产算力生态样板

3 月 12 日,云天励飞中标湛江市AI渗透支撑新质生产力基础设施建设项目,中标金额4.2亿元。项目将基于云天励飞自研的国产AI推理加速卡,建设国产AI推理千卡集群。
该集群将搭载DeepSeek等国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。
一、AI算力从“训练优先”走向“推理优先”
智算集群是人工智能时代的基础设施。如果说电力支撑了工业时代,互联网支撑了信息时代,那么智算正在成为支撑AI时代的重要底座。
在AI算力体系中,算力大体可以分为训练算力与推理算力。训练算力决定模型如何完成“从0到1”的能力构建,而推理算力则直接支撑AI应用落地。无论是春节期间大热的SeeDance,近期广泛讨论的“小龙虾”,还是各行业不断上线的AI Agent应用,背后都离不开推理算力的支撑。根据Gartner预测,到2026年,约55%的AI专用云基础设施支出将用于推理工作负载。
过去,国内许多智算中心普遍采用“训推一体”的建设模式。而此次在湛江建设的集群,则定位为专注推理任务的AI推理集群,主要面向各类行业应用场景,为传统产业的AI化提供直接支撑。
湛江也是国产大模型DeepSeek创始人梁文峰的家乡。近年来,当地在“DeepSeek+”应用探索方面动作频频。2025年初,DeepSeek-R1发布后,湛江即完成本地部署——基于国产技术栈的DeepSeek-R1大模型率先在湛江政务云上线。该模型在处理通用政务事务的同时,还能够持续学习本地产业知识与方言表达,逐渐形成具有地方特色的“湛江智慧”。
此次云天励飞建设的AI推理集群,也将与DeepSeek等国产模型进行深度适配,为更多行业应用提供算力支撑。

二、面向推理时代的千卡集群架构
在大模型应用场景中,推理系统通常需要同时满足高并发、高吞吐与低延迟三项要求。为提升整体效率,当前业界普遍采用“Prefill–Decode分离”的推理架构,通过对不同阶段进行资源优化,实现系统性能的整体提升。
其中,Prefill阶段主要负责对长上下文进行理解和计算,计算量大、带宽需求高;而Decode阶段则负责持续生成Token,对系统延迟更加敏感。如何在两个阶段之间进行合理的资源配置,成为推理系统架构设计的重要问题。
与此同时,随着大模型上下文长度不断增加,大量中间状态需要以KV Cache的形式存储。业内普遍认为,未来推理系统的性能瓶颈将越来越多来自数据访问效率,而不仅仅是计算能力。
在这一背景下,算力、存储与网络之间的协同设计,正逐渐成为AI基础设施的重要竞争力。
此次在湛江落地的千卡推理集群,正是围绕这一思路进行构建。
该集群采用云天励飞自主研发的AI推理芯片,并在系统架构上确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片设计中对计算资源与存储带宽进行针对性配置,使系统在长上下文推理场景下依然能够保持较高的吞吐效率。
在网络互联方面,系统采用统一高速互联架构,通过400G光网络构建集群物理层网络,实现节点之间的高带宽、低延迟通信。与传统在节点内和节点间分别采用不同协议构建网络的方式相比,这种同构互联架构减少了协议转换带来的额外开销,也简化了系统部署。
在部署能力上,该架构既可以支持单节点数十卡规模扩展,也能够平滑扩展至千卡级集群规模,从而适配不同规模的AI应用需求。
此外,针对大模型推理中KV Cache访问带来的压力,系统在计算互联与存储互联层面进行了协同优化。通过计算网络与存储网络的联合调度,可以显著提升数据读取效率,使模型在长上下文推理场景下依然保持稳定性能。
通过芯片架构、网络互联以及系统调度等多层优化,这一推理集群在整体效率与成本控制方面形成了明显优势,为AI规模化应用提供了更加经济的算力方案。

三、自研芯片构建低成本推理能力
据悉,本次AI推理集群将分三期建设,并全部采用云天励飞自研的国产AI推理加速卡。
其中,一期项目将部署云天励飞 X6000 推理加速卡;二、三期建设将率先搭载公司最新一代芯片产品。
根据公司规划,未来三年云天励飞将推出三代AI推理芯片产品。
第一阶段,将推出面向长上下文场景优化的Prefill芯片,通过提升计算效率与内存访问能力,为OpenClaw、各类AI Agent提供基础算力支撑。
第二阶段,将研发专注于Decode阶段低延迟优化的芯片产品,进一步提升实时推理能力。
第三阶段,则通过系统级协同优化,实现Prefill与Decode性能的整体提升,向毫秒级推理时延目标迈进。
其中,首款Prefill芯片DeepVerse100预计将在年内完成流片,并计划在湛江集群中率先部署。
在更长期的规划中,云天励飞提出“1001计划”,即以“百亿Token一分钱”为长期目标,通过芯片与系统协同优化持续降低大模型推理成本。
过去几年,AI算力建设往往以“堆算力”为主要路径——通过不断扩大GPU规模来获得更高性能。但随着大模型逐渐进入应用阶段,产业关注点正从“算力峰值”转向“单位成本效率”。
换句话说,未来AI产业竞争的重要维度,不仅在于模型能力本身,还在于谁能够以更低成本提供稳定的大规模推理能力。
湛江项目的落地,也为这一目标提供了重要的实践场景。千卡级推理集群不仅能够满足当前AI应用需求,同时也为更大规模算力系统提供技术部署平台。
在典型架构下,一个千卡级集群通常由多级扩展结构组成:从单节点8卡、32卡,到64卡甚至百卡级超节点,再到跨节点的大规模集群。通过这一规模系统的实际运行,可以充分验证卡间互联、节点通信和负载均衡等关键技术,为未来更大规模AI算力系统建设积累经验。
随着大模型逐步进入产业应用阶段,AI基础设施的发展逻辑也正在发生变化——从单纯追求算力规模,转向更加注重效率与成本。
在业内看来,推理算力将成为决定AI应用规模化落地的关键基础设施。谁能够以更高效率、更低成本提供稳定的大规模推理能力,谁就有机会在新一轮人工智能产业竞争中占据先机。
此次湛江AI推理千卡集群的建设,不仅为当地产业数字化转型提供了重要算力底座,也为国产模型与国产芯片协同发展提供了实践场景。在“国模”与“国芯”的深度协同下,AI基础设施正逐步从技术探索走向规模化应用,为人工智能产业的下一阶段发展打开新的空间。
免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。
相关攻略
长思维链虽热门,但其高能耗高维特性可能并非最优。未来推理模型需向更稳定、低维的系统发展,高效结合快慢思考。当前模型易错且纠错成本高,而深度思考的潜力在于发现新知识。推理本质是逻辑组合知识以解决新问题,发展应追求“多快好省”与“双商齐备”,并突破目前局限于数学与代码的。
OpenClaw的爆火,让众多AI应用开发者第一次直面了高昂的Token账单——一个用户请求可能触发多轮工具调用,每次调用都携带超长上下文,实际的API成本远超预期,甚至可能达到订阅费用的数十倍。如何有效控制Token成本,正成为AI Agent开发者面临的核心挑战与增长瓶颈。 这显然不是可持续的商
这项由瑞士洛桑联邦理工学院(EPFL)、意大利卢加诺大学(USI)、韦斯利安大学、巴黎脑研究所(ICM)以及宾夕法尼亚州立大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604 03480。对这一交叉领域感兴趣的读者,可以通过该编号在arXiv平台上查阅完整原文。 一、
北京商报讯(记者 陶凤 王天逸) 人工智能领域又传来一条振奋人心的消息。4月8日,摩尔线程正式宣布,其旗舰级AI训推一体全功能GPU——MTT S5000,已经成功完成了对智谱新一代旗舰模型GLM-5 1的Day-0极速适配。这意味着,推理部署与训练复现的全部流程,现在都能在这条国产算力路径上获得支
如何用SQL求解逻辑推理题:经典楼层分配谜题实战 今天我们来探讨一个非常有趣的技术应用:使用SQL来求解逻辑推理题。这听起来或许有些大材小用,但正是这种跨界应用,充分展现了SQL语言的强大灵活性以及开发者分析问题的思维能力。我们将以一个经典的五人楼层分配谜题作为案例,逐步拆解如何用纯粹的SQL找到答
热门专题
热门推荐
为庆祝品牌投身赛车运动整整125年,斯柯达正式推出了晶锐Fabia Motorsport Edition特别版。这款车基于Fabia 130打造,设计灵感直接来源于征战赛场的Fabia RS Rally2拉力赛车,整体风格充满了对赛事历史的致敬意味。不过,得先说明白,它的升级重点主要落在了外观和底盘
Grayscale 通过其以太坊质押 ETF 质押了 102,400 个 ETH,价值 2 37 亿美元 先来看一组数据:资产管理巨头 Grayscale 最近通过其以太坊质押 ETF,一口气质押了超过10万个 ETH,价值约2 37亿美元。这个动作本身不小,但更有意思的是市场的后续反应——或者说,
劳斯莱斯库里南自问世以来,始终是超豪华全尺寸SUV领域的标杆。对于追求极致安全又不愿牺牲低调气质的高净值人士而言,如何实现“隐形”的顶级防护,一直是核心诉求。如今,加拿大专业防弹车制造商Inkas,以一款近乎“零痕迹”改装的库里南,给出了完美解决方案——一座移动的“隐形堡垒”。 区别于常见的外露装甲
新加坡维塔士工作室正考虑将《侠盗猎车手V》与《荒野大镖客:救赎2》移植至任天堂Switch平台。该团队拥有丰富的移植经验,曾成功负责多款游戏的跨平台适配。这两款作品全球销量巨大,若能登陆Switch,其便携特性可能成为新的市场增长点。
当高尔夫GTI迎来五十周年里程碑,传奇的纽博格林北环赛道成为其致敬历史与展望未来的最佳舞台。这里不仅铭刻了燃油性能图腾的巅峰时刻,也正式开启了电动GTI的新纪元。近日,大众汽车正式宣布,高尔夫GTI 50周年版在纽北创下全新纪录,荣膺最快前驱量产车称号;与此同时,品牌首款纯电动GTI车型——ID





