“我们正全面进入AI应用大规模落地的关键阶段,急需更高性价比的推理芯片支撑这一进程。”云天励飞董事长兼CEO陈宁在战略前瞻会上强调。
自今年2月3日起,公司正式对外公布了未来三年的大算力AI推理芯片核心战略布局。该战略将研发资源集中于攻克大模型落地过程中面临的“成本壁垒”,致力于通过底层架构的系列创新,显著降低大规模推理成本,目标是将百万tokens的推理成本降低百倍以上,从而推动人工智能从技术尝鲜走向普惠生产力。
加速布局推理算力
当前,全球算力产业的发展重心正快速向推理侧倾斜。
谷歌在发布第七代TPU“Ironwood”时,明确了其面向推理场景的战略定位,并强调需在大规模推理效能上进行系统性优化。与此同时,产业整合也在加速进行。去年末,英伟达与推理芯片新锐Groq达成合作,通过非独占许可安排,获得了其核心推理技术的授权与工程人才团队的加持,此举显著强化了其在高性能推理与实时工作负载方面的能力。
云天励飞高层指出,推理侧的竞争已不再仅仅是模型参数规模的比拼,更是关乎“让应用跑得更久、更稳、更经济”的效能竞赛。单位推理成本与交付效率已成为衡量技术能否规模化落地的最大门槛。
“公司的目标是将百万token的推理成本每年降低百倍。展望2030年,我们希望实现百亿token一分钱的成本水平。只有达到这个里程碑,才算得上是一场真正的工业革命。”陈宁如是阐述公司的长远愿景。
架构创新
为满足推理时代对系统级协同的严苛需求,云天励飞确立了名为GPNPU的技术路线。这一创新架构融合了GPGPU的通用性和NPU的高效能,同时前瞻性地集成了3D堆叠存储技术,旨在从工程层面系统性地解决可迁移、可部署、可持续降本三大核心挑战。
具体而言,在通用生态层面,云天励飞的GPNPU架构将保持与行业主流框架CUDA的兼容,实现代码级无缝迁移,从而降低用户将其应用部署到生产系统的门槛。
而在推理效能层面,专用NPU架构能够实现更高的计算效率和能效比。针对大模型推理这类高度结构化、可被体系化优化的负载,专业化设计带来的效能优势更容易转化为真实的成本优势。这也是国际领先厂商持续投入专用路线的重要原因。
针对业界公认的“内存墙”瓶颈,云天励飞正深入研发3D堆叠存储及更前沿的互连技术,旨在大幅提升内存带宽与能效,有效降低推理时延。
在架构工程与产品化路径上,公司采取“算力积木”的构建思路:通过Chiplet扩展与互连设计,将标准计算单元进行模块化封装与灵活组合,使得算力能够像搭积木一样按需扩展,形成从边缘到云端大规模推理的弹性产品形态。同时,围绕真实业务负载持续迭代,逐项击穿推理链路中的成本与时延瓶颈,最终形成可复制、可交付的综合最优解。
打造全场景算力矩阵
面向未来三年的规划,云天励飞CTO李爱军表示,公司将不遗余力地投入大算力芯片DeepVerse的研发,围绕成本、时延与吞吐等核心性能指标持续迭代,并按照产品节奏梯次覆盖市场需求。
公司的路线图将对标国际主流平台的代际演进,聚焦于长上下文预填充(Prefill)、低时延解码(Decode)等关键推理阶段的系统级优化,力求在真实负载下持续兑现“更经济、更稳定、更易部署”的产品承诺。
陈宁将公司的核心竞争力总结为技术、产能、生态、市场、资本五大关键要素的协同共振。这不仅构成了云天励飞应对行业激烈竞争的底气,更为未来三年战略的稳步落地提供了坚实的体系化保障。
回顾去年,公司进行了“1+4”架构的重要调整:“1”代表聚焦于AI大算力推理芯片这一核心,“4”则是支撑核心的四大事业部。作为生态构建者,四大事业部旨在系统解决芯片从“研发生产、优化打磨到市场推广”全链条中的核心难题。其中,政企事业部作为基石,凭借深厚的行业经验,将战略重点转向推理设备和智算中心的建设。此外,云天励飞还计划打造区域级“千卡集群”,树立城市AI算力赋能的新标杆。
针对行业普遍关注的供应链安全问题,公司高级副总裁、CFO兼董秘邓浩然特别强调,公司是国内少数拥有充足国产产能保障的企业之一。这为公司后续芯片的大规模量产与稳定交付提供了极高的确定性。
