6月30日,中昊芯英正式推出了他们的新一代TPU芯片——「须臾」。同时发布的,还有软硬件一体化的智能计算底座「泰则2.0」。这并非一次常规的产品迭代,从性能参数来看,诚意满满。

先说核心指标:须臾的单芯片混合精度浮点算力直接达到了896 TFLOPS,是前代芯片「刹那」的整整3倍。8-bit推理算力也提升至1792 TOPS,专为海量词元高并发推理场景设计——换言之,大模型运行将更加流畅、响应更快。显存容量与芯片内部互联速率均有大幅提升,支持超长上下文,这意味着在处理千亿参数模型时,性能表现更为从容。单卡额定功耗为600W,看似不低,但相较传统算力芯片,功耗反而降低了50%——对于当前动辄数千瓦的集群而言,这一指标对低碳数据中心建设是实打实的利好。
值得关注的是,须臾从芯片IP核、专属指令集到底层算子加速库、整机系统软件,均实现完全自主研发,未依赖海外核心技术。这意味着政务、金融、电网等对安全合规要求极高的行业,可以放心部署使用。
再来看「泰则2.0」。它是高性能智算平台中标准的最小计算单元,采用两路高性能CPU处理器搭配8片高性能TPU处理单元的配置。从物理形态看,即一台通用CPU服务器外接一台TPU算力加速设备。混合精度算力达到7.168 P(注意是混合精度)。更关键的是,同等任务下整机能耗仅为传统GPU服务器的80%——省电即降本,数据中心运营方看到这个数字定会眼前一亮。
软件层面同样没有落下。泰则2.0原生兼容PyTorch、vLLM、SGLang等主流开发工具,训练场景适配DeepSpeed、Megatron-LM等分布式套件。目前已完成Qwen全系列、DeepSeek、GLM、MiniMAX等数十款大语言和多模态模型的深度适配。开发者拿到即可快速上手,无需耗费数月进行适配调试。可以说,从芯片到平台,中昊芯英这步棋走得相当扎实,瞄准的正是AI基础设施自主可控的核心需求。
