国产AI推理千卡集群首次落地 采用云天励飞自研芯片
近日,国内AI算力领域迎来标志性进展:云天励飞成功中标湛江市“AI渗透支撑新质生产力基础设施建设项目”,中标金额达4.2亿元。该项目的核心任务是建设一个基于全自研国产AI推理加速卡的千卡级智算集群,标志着国产化AI推理基础设施迈入大规模部署新阶段。

该集群建成后,将重点承载DeepSeek等国产大模型的推理任务,旨在为政务数字化、产业智能化及多元应用场景提供高效、低成本、自主可控的AI算力服务,致力于打造“国产大模型+国产AI芯片”协同创新的生态典范。
一、AI算力重心转移:从模型训练走向规模化推理
智算中心已成为人工智能时代不可或缺的新型基础设施。如同电力之于工业革命,互联网之于信息社会,智能算力正成为驱动AI规模化应用的核心底座。
在AI算力体系中,通常分为训练算力与推理算力两大部分。训练算力专注于模型从无到有的能力构建,而推理算力则直接决定了AI技术能否在实际场景中高效、稳定地运行。无论是此前引发热议的AI视频应用,还是深入各行各业的智能体(AI Agent),其流畅体验的背后都离不开强大推理算力的支撑。行业分析机构Gartner预测,到2026年,AI专用云基础设施支出中,用于推理工作负载的比例将上升至约55%,这清晰揭示了市场重心向推理端倾斜的趋势。
与过去常见的“训推一体”建设模式不同,湛江项目明确聚焦于推理任务,专门服务于产业智能化转型中的实际应用需求。这一转向具有重要的示范意义。
值得一提的是,湛江是国产大模型DeepSeek创始人梁文峰的家乡,当地在推动“DeepSeek+”本土化应用方面布局积极。2025年初,基于国产技术栈的DeepSeek-R1大模型已在湛江政务云完成部署,在处理通用政务的同时,持续学习本地产业知识与方言,逐步形成具有地方特色的“湛江智慧”。
此次云天励飞中标的AI推理集群,将进一步与DeepSeek等国产大模型进行深度适配与优化,为更广泛的行业应用落地提供坚实、自主的算力基石。
二、专为推理优化:千卡集群的先进架构设计
面向大模型的实际部署,推理系统需要同时应对高并发、高吞吐与低延迟的挑战。当前主流解决方案是采用“Prefill(预填充)–Decode(解码)分离”的架构,通过对不同计算阶段进行针对性资源调配,实现系统整体性能最优。
具体而言,Prefill阶段负责处理用户输入的整个上下文,计算密集且对内存带宽要求极高;Decode阶段则负责逐个生成输出Token,对响应延迟极为敏感。如何平衡两个阶段的资源分配,是推理架构设计的核心。
同时,随着大模型上下文长度不断增长,存储中间状态的KV Cache对内存系统带来巨大压力。业界共识是,未来推理系统的瓶颈将更多来自数据访问效率,而不仅是计算能力本身。因此,计算、存储与网络三者的协同设计,已成为提升AI基础设施竞争力的关键。
湛江落地的千卡推理集群正是基于这一理念构建。它采用云天励飞全自研的AI推理芯片,并确立了“优先优化Prefill、兼顾Decode”的技术路线。通过在芯片层面进行计算与存储带宽的针对性设计,确保系统即使在处理长上下文任务时也能保持高吞吐。
在网络层面,集群采用统一的400G高速光互联架构,实现了节点间高带宽、低延迟的同构网络通信,避免了异构协议转换带来的性能损耗与部署复杂性。
该架构具备高度弹性,既可支持小规模数十卡的灵活部署,也能平滑扩展至千卡级大规模集群,以适应不同体量的AI应用需求。
针对KV Cache访问带来的挑战,系统通过计算网络与存储网络的协同调度优化,显著提升了长上下文推理时的数据读取效率,保障了性能稳定性。
通过芯片、网络与系统调度的多层次协同优化,该集群在整体能效与成本控制方面展现出显著优势,为AI的规模化、经济化应用提供了新的解决方案。
三、自研芯片驱动:构筑低成本、高效率推理底座
据悉,该AI推理集群将分三期建设,全部采用云天励飞自主研发的国产AI推理加速卡。一期将部署X6000推理加速卡,二、三期则会率先搭载其新一代芯片产品。
根据规划,云天励飞将在未来三年内推出三代AI推理芯片:首代聚焦长上下文Prefill阶段优化,为各类AI智能体应用提供基础算力;第二代将专注于Decode阶段的低延迟优化;第三代则致力于通过系统级协同,实现Prefill与Decode性能的全面提升,向毫秒级推理时延迈进。其中,首款Prefill芯片DeepVerse100预计年内流片,并计划在湛江集群进行首批部署验证。
更长远来看,公司提出了“1001计划”的远景目标,即通过芯片与系统的深度协同,持续降低推理成本,迈向“百亿Token一分钱”的极致能效。
回顾AI算力发展,早期往往以“堆砌算力”追求峰值性能为主。但随着大模型进入产业深水区,竞争焦点正从“算力规模”转向“单位成本下的计算效率”。换言之,未来的核心竞争力在于能否以更低的成本提供稳定、大规模的推理服务。
湛江千卡集群的落地,正是这一趋势的先行实践。它不仅满足了当前应用需求,更成为未来更大规模算力系统关键技术(如卡间互联、节点通信、负载均衡)的验证平台。典型的千卡集群通常由多级扩展结构组成,其实际运行为构建万卡乃至更大规模系统积累了宝贵经验。
随着大模型加速赋能实体经济,AI基础设施的发展逻辑正在深刻演变——从追求绝对规模转向注重实际效率与综合成本。推理算力已成为决定AI应用能否大规模普及的关键。谁能够以更高效率、更低成本提供稳定可靠的大规模推理能力,谁就将在新一轮人工智能产业竞争中占据战略主动。
湛江国产AI推理千卡集群的建设,不仅为当地乃至区域的产业数字化转型提供了强大算力支撑,更为“国产模型”与“国产芯片”的协同创新提供了宝贵的集成验证场景。在“国模国芯”的深度融合下,AI基础设施正从技术探索走向规模化应用,为中国人工智能产业的自主化、高质量发展开辟了新的广阔空间。
相关攻略
云天励飞中标湛江4 2亿元AI项目,将建设基于自研芯片的国产千卡推理集群。该集群专为推理设计,旨在为政务及产业提供低成本、高效率算力,适配DeepSeek等国产大模型,通过优化架构与调度提升效率、控制成本,推动国产芯片与模型协同发展,助力AI规模化落地。
DeepSeek在AI领域率先落地虚拟硬件层,通过封装底层硬件差异提供统一接口,使开发者无需关注硬件细节,大幅降低了开发门槛。此举不仅突破了中小企业应用AI的瓶颈,推动行业焦点转向价值创造,也增强了国产AI的自主可控能力,为应对国际竞争奠定了坚实基础。
造AI这件事,如今的主角,正在悄然变成AI本身。 就在最近,一个国产AI完成了一次堪称“自举”的突破:它先为自己写出了一套全新的大模型预训练框架,然后,就用这套框架,成功训练出了一个全新的小尺寸模型。 这个来自面壁智能的成果,带来了两个关键产物:由AI编写的预训练框架ForgeTrain,以及由它训
六大AI加密货币投资竞赛深度解析:国产模型为何表现卓越? 2025年10月,一场别开生面的加密货币投资竞赛引发行业关注。六大顶尖人工智能模型同台竞技,旨在测试其在数字资产市场中的实战投资能力。最终,国产AI模型DeepSeek以显著优势拔得头筹,其表现远超多个国际知名模型,这一结果为我们揭示了AI金
数字化转型背景下,AI销售陪练系统正成为破解传统培训成本高、周期长难题的关键工具。市场厂商主要分为内容、渠道、垂直及技术四类,系统可应用于新人实训、合规演练等场景,有效提升效率、降低风险。选型应聚焦技术成熟度、行业知识及交付能力,以驱动培训体系战略升级。
热门专题
热门推荐
《Paralives》开发商承诺所有后续更新永久免费,拒绝付费DLC模式。15人小团队依靠首发销售额即可支撑多年运营,无需依赖额外内容包维持开发,展现了与《模拟人生》系列不同的差异化竞争思路。
2025年5月28日,比亚迪王朝网全新力作——宋Ultra DM-i正式推向市场,共推出5款配置车型,官方售价区间为12 99万至15 99万元。此次定价策略极具突破性:一款拥有310公里纯电续航能力的中型插电混动SUV,直接下探至13万元级别市场。作为王朝网络的新旗舰,该车明确瞄准高频出行需求场景
先来关注一个有趣的细节:苹果首款折叠屏手机,传闻将于今年秋季正式亮相。产品命名可能为iPhone Ultra,也有媒体称之为iPhone Fold——无论最终叫什么,这都将标志着苹果在折叠形态领域首次“出手”。 近日,配件厂商iFunSmart已率先上架iPhone Ultra的首批保护壳——这绝非
山寨币ETF迎来批量上市潮,首批项目市场表现如何?一文分析 Binance币安 欧易OKX ️ Huobi火币️ 最近,市场出现了一个不容忽视的新动向:XRP、DOGE、LTC、HBAR等现货ETF已经悄然登陆美国市场。与此同时,A VAX、LINK等资产的同类产品也正在审批流程中。进入11月以来,
近日,公司对SteamDeck1TBOLED版涨价300美元至949美元,上架短短不到24小时便再度售罄。据外界分析,该公司从中国大量补货并分批投放库存,高溢价未影响众多玩家的抢购热情与速度,其人气极其旺盛无比足以支撑快速清空。





