中昊芯英发布须臾TPU单芯片混合精度算力896TFLOPS_AI热点日报

中昊芯英发布须臾TPU单芯片混合精度算力896TFLOPS

类型：热点整理2026-07-01

6月30日，中昊芯英正式推出了他们的新一代TPU芯片——「须臾」。同时发布的，还有软硬件一体化的智能计算底座「泰则2 0」。这并非一次常规的产品迭代，从性能参数来看，诚意满满。先说核心指标：须臾的单芯片混合精度浮点算力直接达到了896 TFLOPS，是前代芯片「刹那」的整整3倍。8-bit推理算力

6月30日，中昊芯英正式推出了他们的新一代TPU芯片——「须臾」。同时发布的，还有软硬件一体化的智能计算底座「泰则2.0」。这并非一次常规的产品迭代，从性能参数来看，诚意满满。

单芯片混合精度浮点算力达 896TFLOPS，中昊芯英新一代 TPU 芯片「须臾」发布

先说核心指标：须臾的单芯片混合精度浮点算力直接达到了896 TFLOPS，是前代芯片「刹那」的整整3倍。8-bit推理算力也提升至1792 TOPS，专为海量词元高并发推理场景设计——换言之，大模型运行将更加流畅、响应更快。显存容量与芯片内部互联速率均有大幅提升，支持超长上下文，这意味着在处理千亿参数模型时，性能表现更为从容。单卡额定功耗为600W，看似不低，但相较传统算力芯片，功耗反而降低了50%——对于当前动辄数千瓦的集群而言，这一指标对低碳数据中心建设是实打实的利好。

值得关注的是，须臾从芯片IP核、专属指令集到底层算子加速库、整机系统软件，均实现完全自主研发，未依赖海外核心技术。这意味着政务、金融、电网等对安全合规要求极高的行业，可以放心部署使用。

再来看「泰则2.0」。它是高性能智算平台中标准的最小计算单元，采用两路高性能CPU处理器搭配8片高性能TPU处理单元的配置。从物理形态看，即一台通用CPU服务器外接一台TPU算力加速设备。混合精度算力达到7.168 P（注意是混合精度）。更关键的是，同等任务下整机能耗仅为传统GPU服务器的80%——省电即降本，数据中心运营方看到这个数字定会眼前一亮。

软件层面同样没有落下。泰则2.0原生兼容PyTorch、vLLM、SGLang等主流开发工具，训练场景适配DeepSpeed、Megatron-LM等分布式套件。目前已完成Qwen全系列、DeepSeek、GLM、MiniMAX等数十款大语言和多模态模型的深度适配。开发者拿到即可快速上手，无需耗费数月进行适配调试。可以说，从芯片到平台，中昊芯英这步棋走得相当扎实，瞄准的正是AI基础设施自主可控的核心需求。

来源：https://www.ithome.com/0/970/774.htm

FLOP

延伸阅读

补充最近整理过的热点入口。

中昊芯英发布须臾TPU单芯片混合精度算力896TFLOPS

相关热点

延伸阅读