游乐游手机版
首页/科技数码/文章详情

云天数模:发力推理芯片,三年战略对标英伟达升级算力

时间:2026-02-05 12:49
雷峰网消息,2月3日,云天励飞首次对外公布未来三年的大算力AI推理芯片战略布局,将实现百万Tokens推理成本降低100倍以上的目标。推理算力需求暴涨,是在行业中实际发生的结构性变革。德勤发布的报告

雷峰网消息,2月3日,云天励飞首次对外公布未来三年的大算力AI推理芯片战略布局,将实现百万Tokens推理成本降低100倍以上的目标。

推理算力需求暴涨,是在行业中实际发生的结构性变革。

德勤发布的报告指出2026年推理算力将占整体AI算力的66%,推理优化芯片市场在2026年将增长至超500亿美元。字节旗下豆包大模型Token使用量从2024年的单日0.12万亿,到2025年12月已突破50万亿。

多个行业信号共同指向一个趋势:推理侧竞争已不再单纯是“把模型做得更强”的参数竞赛,而是“让应用跑得更久、更稳、更便宜”的效能竞赛,单位推理成本与交付效率已成为规模化落地的最大门槛。

“在推理芯片领域,依托国内丰富的应用场景、稳定可靠的电网和快速迭代的开源模型,我们具备弯道超车的能力,因此训练追赶、推理超车是未来5年我们的策略,而GPNPU则是AI推理芯片架构的最优解。”云天励飞董事长兼CEO表示。


面向AI推理需求的爆发式增长,云天励飞如何规划下一阶段芯片研发路线图?又将如何通过架构创新与技术突破,真正实现算力效率提升与全生命周期成本下降,从而在推理芯片领域实现弯道超车?

GPNPU架构定义未来三年芯片路线:直指英伟达旗舰级算力产品

推理时代的胜负手不在单点指标,而在系统级协同:既要承接主流软件生态,又要在推理负载下实现更优能效与更低时延。

云天励飞确立了GPNPU技术路线,并提出了“GPNPU=GPGPU+NPU+3D堆叠存储”的核心公式,兼顾通用计算的“通用性”与NPU的“高效性”。


在通用生态层面,鉴于CUDA仍是全球最成熟、覆盖最广的加速计算平台之一,云天励飞的GPNPU架构致力于正视主流生态的迁移成本问题,能够实现一行代码完成CUDA程序兼容,极大降低了进入生产系统的门槛。

在推理能效层面,NPU能够实现更高的计算效率和能效比,面对大模型推理这种高度结构化、可被体系化优化的负载,专用化设计带来的能效优势更容易转化为真实成本优势,这也是国际厂商持续加码专用路线的重要原因。

同时,针对行业公认的“内存墙”瓶颈,云天励飞正深度研发 3D 堆叠存储及更前沿的互连技术,以提升带宽与能效,降低推理时延。

“通过引入3D memory架构,我们可以实现10倍于当前训练芯片HBM带宽的性能,其访问时延将达到10纳秒级别,以实现极致的推理能效。”云天励飞CTO李爱军表示。

在架构工程与产品化路径上,云天励飞提出“算力积木”架构,通过Chiplet扩展与互连思路,将标准计算单元进行模块化封装与组合,让算力像搭积木一样按需扩展,形成从边缘到更大规模推理的弹性产品形态。

其次是面向推理的系统级优化能力,公司拒绝单纯的“芯片参数竞赛”,而是主张把“模型怎么跑得更省”沉淀到架构里,围绕真实业务负载持续迭代,逐项击穿推理链路中的成本与时延瓶颈,最终形成可复制交付的解决方案。

“基于对大模型推理的理解,我们构造了PD分离系统架构,针对大模型prefill和decode阶段不同的计算特点进行优化设计,在芯片的微架构层面上,我们同时对于Attention及FFN的计算的特点进行细粒度的分析,从而进一步的去提升我们的推理效率。”李爱军说到。


会议上,云天励飞以推进百万Token推理成本每年两位数的降低为目标,正式发布了未来三年的大算力芯片规划。

2026至2028年,云天励飞规划推出三代迭代芯片,节奏清晰对标国际主流厂商。

第一代超节点P芯片将于今年推出,其将面向百万长上下文的场景进行极致的prefill推理优化,在算力上紧跟H100。

2027年,云天励飞将研发第一代超节点D芯片,以此在decode推理方面实现超低延时,而其算力性能将达到B200 相当的水平。

2028年,云天励飞将研发第二代超节点D芯片,致力于实现毫秒级的推理时延,从而使得prefill和decode的性能大幅提升,在算力层面,将对标英伟达的下一代Rubin芯片。


手握「充足」国产产能,云天励飞打通研发、量产与规模化交付闭环

算力芯片的竞争已步入新周期,多家公司登陆资本市场之外,还有大量创业公司逐渐崭露头角。

竞争白热化的行业境况下,陈宁指出,支撑公司跨越周期的,是长期积累构筑的商业护城河。云天励飞的核心竞争力,已形成技术、产能、生态、市场、资本五大维度的协同。

GPNPU的架构创新,以及三年大算力芯片规划的发布,实现了技术与产品的闭环。

在此之下,产能成为落地的关键。

针对行业普遍关注的供应链安全问题,云天励飞高级副总裁、CFO兼董秘邓浩然特别强调,公司目前是国内屈指可数手握充足国产产能保障的企业之一,这一战略储备为后续芯片的大规模量产与交付提供了极高的确定性。

此外,云天励飞受到资本市场的高度关注,具备足够的资金实力以支撑芯片研发的长期消耗,同时在顶级芯片人才的招揽上,也能够走在前列。


而为了应对市场竞争以及不确定性,云天励飞更将组织调整为更具韧性的“1+4”架构。

“1”指聚焦于AI大算力推理芯片,“4”则是四大事业部。作为生态构建者,四大事业部旨在解决芯片从“研发生产、优化打磨到市场推广”的核心难题。其中,政企事业部作为基石,将凭借深厚的行业经验,将战略重点转向推理设备和智算中心的建设,以实现业务运转的协同闭环。

据悉,云天励飞正规划打造区域级“千卡集群”。


推理时代的竞争,本质是“单位推理成本”的竞争。只有把推理做得足够便宜、足够稳定、足够易用,AI才能从“看得见的能力”走向“用得起的生产力”。

未来,云天励飞将以GPNPU架构为核心,大力推进云端大算力强化软硬协同与存储体系攻坚,实现百万Tokens推理成本降低超100倍的目标。

来源:https://www.163.com/dy/article/KL0LS3IF05118HA4.html
上一篇马斯克8520亿美元净资产的创富路径与万亿目标展望 下一篇《仁王3》直播突发故障,制作人幽默回应开发中实情
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
中国空间站第十批科学实验样品返回交付科学家
科技数码 · 2026-05-30

中国空间站第十批科学实验样品返回交付科学家

神舟二十二号返回舱带回第十批空间科学样品,总重约41公斤,涵盖生命、材料、燃烧三大领域23个项目。生命样品研究空间环境对胚胎发育等影响;材料分析重力对合金生长规律;燃烧探索纳米材料火焰合成,为人类长期驻留太空提供理论基础。

超3000万元无偿资金精准注入上海基础研究
科技数码 · 2026-05-30

超3000万元无偿资金精准注入上海基础研究

由16家市属国企出资的启源基金会,成立不到一年已签约无偿资助超3000万元,支持32位青年学者开展高风险基础研究,不占股权、不设商业条件。同时提供产业对接与转化指导,形成“资金+赋能”双轮驱动,推动成果从实验室走向产线。

同济大学刚刚发布两项最新重大研究成果
科技数码 · 2026-05-30

同济大学刚刚发布两项最新重大研究成果

同济大学附属东方医院周彩存团队两项非小细胞肺癌研究登ASCO年会并刊于NEJM和《柳叶刀》。舒沃替尼靶向EGFRexon20ins突变,客观缓解率58 9%对31 1%,中位无进展生存期10 3个月,风险降35%;芦康沙妥珠单抗联合帕博利珠单抗治疗PD-L1阳性患者,客观缓解率70 2%,进展风险降65%,为全球首个。

神舟二十一号推进舱与返回舱分离乘组返程在即
科技数码 · 2026-05-30

神舟二十一号推进舱与返回舱分离乘组返程在即

神舟二十一号航天员乘组搭乘神舟二十二号载人飞船,完成空间站任务后,推进舱与返回舱分离,返回舱成功着陆,航天员平安重返地球。

每天十分钟 600号专家教你养护前额叶
科技数码 · 2026-05-30

每天十分钟 600号专家教你养护前额叶

前额叶皮层是大脑的刹车系统,负责专注、抑制冲动等执行功能。高频即时反馈的短视频会使其功能退化,导致注意力下降、难以延迟满足。每日十分钟无聊活动、单任务练习、冲动缓冲等训练可有效保养前额叶。