中昊芯英近日正式发布了新一代完全自主研发的高性能TPU AI专用芯片——「须臾」,同时其配套的软硬件一体化智算底座「泰则2.0」也同步亮相。这一系列举措,精准聚焦AI算力领域的关键竞争赛道。

首先来看芯片本身的硬核表现。须臾芯片的单芯片混合精度浮点算力达到896 TFLOPS,这一成绩是上一代产品「刹那」整整3倍的提升。而其8-bit推理算力更是飙升至1792 TOPS——通俗来说,这款芯片专为海量词元高并发推理场景量身打造。显存容量与芯片内部互联速率也实现了显著跃升,使得超长上下文的处理不再成为性能瓶颈。单卡额定功耗为600W,相较于传统算力芯片,功耗降低了50%,对于低碳数据中心建设而言,无疑是一个实实在在的利好。
更值得关注的是,须臾从芯片IP核、专属指令集到底层算子加速库、整机系统软件,全部为完整自主研发,不存在对海外核心技术的依赖。这意味着在政务、金融、电网等对安全合规要求极为严格的行业领域,它可以无障碍地直接部署应用。
再来看看「泰则2.0」——这是一款高性能智算平台中标准的最小计算单元。它搭载了两路高性能CPU处理器和8片高性能TPU处理单元,物理形态上相当于一台通用CPU服务器外接一台高性能TPU算力加速设备。其算力达到7.168P(混合精度)。而在同等任务负载下,整机功耗仅为传统GPU服务器的80%,这一能效比表现相当突出。
软件层面的配套也没有落下。泰则2.0实现了对全主流AI框架的兼容,原生支持PyTorch、vLLM、SGLang等开发工具,训练场景可直接对接DeepSpeed、Megatron-LM等分布式训练套件。更重要的是,它已经完成了Qwen全系列、DeepSeek、GLM、MiniMAX等数十款大语言模型和多模态模型的深度适配——开发者拿到后就能快速进行模型迁移,省去了大量繁琐的适配工作。
