游乐游手机版
首页/科技数码/文章详情

中昊芯英发布新一代高性能TPU AI专用算力芯片须臾

时间:2026-07-02 10:34
就在今年6月30日,中昊芯英正式向市场推送了其新一代全自研高性能TPU AI专用算力芯片——“须臾®”。一同登场的还有基于这颗芯片构建的软硬件一体化智算底座:泰则®2 0 AI高性能智算平台。相较于其前代产品“刹那®”芯片和初代泰则®智算服务器,这一次的升级到底体现在哪些方面?简单概括就是:底层架构

就在今年6月30日,中昊芯英正式向市场推送了其新一代全自研高性能TPU AI专用算力芯片——“须臾®”。一同登场的还有基于这颗芯片构建的软硬件一体化智算底座:泰则®2.0 AI高性能智算平台。相较于其前代产品“刹那®”芯片和初代泰则®智算服务器,这一次的升级到底体现在哪些方面?简单概括就是:底层架构、算力峰值、片上存储、集群互联、计算能效,几乎每个核心环节都实现了跨越式提升。

中昊芯英正式发布新一代高性能TPU AI专用算力芯片“须臾®”

从“刹那®”到“须臾®”:TPU架构全面升级,单卡算力性能提升3倍

中昊芯英是国内最早一批扎进TPU架构AI专用算力芯片研发的企业,这一点在行业里是有共识的。2024年,他们成功流片了国内首枚高性能TPU芯片“刹那®”,并且实现了量产和产业化落地。而“须臾®”这张新芯片,正是在“刹那®”三年规模化落地经验基础上进行的架构革新。它要针对性解决的是什么呢?超大模型、长上下文、海量词元交互场景下,传统算力长期面临的访存延迟、能耗偏高、并行效率不足等顽疾。

核心硬件算力指标全面升级

单颗“须臾®”芯片深度优化了面向大模型的张量计算逻辑,扩容了寄存器与大容量片上缓存,性能参数上的跃升非常直观。不妨来看一组硬参数:

  • 单芯片混合精度浮点算力达到896TFLOPS,这个数字是上一代芯片“刹那®”的3倍;8-bit推理算力可达1792TOPS,专门适配海量词元高并发推理场景。
  • 单卡搭载的显存以及芯片内部互联速率都有大幅提升,这意味着它能够支持超长上下文,多轮对话中的数据反复搬运开销被有效降低。
  • 单芯片额定功耗600W,但有意思的是,在算力性能与传统芯片持平的前提下,功耗反而降低了50%。这个特性天然契合当前绿色低碳智算中心的建设方向。
  • 通过多维张量计算单元与数据复用优化设计,“须臾®”有效缓解了深度学习领域那个经典的“存储墙”难题。执行同等AI任务时,综合计算效能可以达到传统GPU架构的数倍,尤其在大模型计算和批量词元生成场景下,优势格外突出。

全栈自主可控底层技术体系

“须臾®”延续了中昊芯英的全自研TPU技术路线,这一点值得多说一句。从芯片IP核、专属指令集,到底层算子加速库、整机系统软件,全部是自主研发,没有海外核心技术依赖。公司的核心技术覆盖了芯片设计、电路开发、编译工具、模型适配的全链条,能够快速高效地完成新模型和迭代模型的适配与部署,这对于政务、金融、电网等对信息安全有合规要求的关键行业来说,意义不言而喻。

泰则®2.0 AI高性能智算平台:单机7.168P算力,2048芯片高速片间互联

本次同步推出的泰则®2.0平台,标准的最小计算单元(也就是“泰则®2.0智算节点”/单机)是怎么构成的?它由两路高性能CPU处理器与8片高性能TPU处理单元互联构建而成。物理形态上,就是一台通用的CPU服务器外接一台高性能TPU算力加速设备。单机算力达到7.168P(混合精度),而在同等任务下,整机能耗仅为传统GPU服务器的80%。

在集群部署层面,泰则®2.0通过自研的低延迟高并行片间通讯协议,单个超节点最高能够实现2048片“须臾®”芯片直联。这是什么概念?这意味着它可以承载万亿参数大模型的分布式训练、多智能体协同运算、全平台海量词元并发推理这些重负载业务,都不在话下。

不仅如此,这个平台还配套了完整的可视化运营管理系统。BMC硬件远程管控、全链路硬件状态监控、故障信息/邮件预警、算力计费、用户权限、模型市场……所有这些功能都集成在一起。运维人员可以实时查看芯片温度、功耗、资源使用率、系统日志等全维度信息,真正做到开箱即用。

值得一提的是软件层面的兼容性。平台原生支持PyTorch、vLLM、SGLang等主流开发工具,训练场景适配DeepSpeed、Megatron-LM分布式套件;已经完成了Qwen全系列、DeepSeek、GLM、MiniMAX等数十款大语言和多模态模型的深度适配。开发者无需进行大规模代码改造就能快速完成模型迁移,这相当于大幅降低了国产算力的替换门槛。

直击词元经济与AI智能体产业新需求,覆盖多个垂直行业落地

2026年,行业正式迈入词元经济落地阶段。AI产业从传统的算力时租模式,转向以词元为核心计价单位的MaaS(模型即服务)模式。海量对话交互、长上下文记忆、AI智能体自主任务,这些都在带来指数级的词元吞吐压力。“须臾®”芯片与泰则®2.0平台,从硬件层面专门对词元生成、上下文缓存、批量并发推理做了优化,可以有效降低单词元推理成本,支撑AI服务商搭建自主可控的按量计费词元服务体系。

与此同时,产品深度适配了当下主流的开源AI智能体框架OpenClaw,并提供本地私有化部署方案。所有交互词元和业务数据都在本地存储,不对外流出。这句话怎么理解?就是既能实现数字员工7×24小时自动化执行,又能保障企业数据隐私安全。具体落地场景上,可以覆盖报表自动化、IT运维监控、批量数据分析、个人智能助理等。依托通用高效的张量算力底座,这套方案能够赋能多个行业的数字化智能化转型。

在商业化成本与绿色算力层面,泰则®2.0的单位算力建设成本仅为海外高端算力产品的60%。低功耗特性可以显著降低智算中心的电费支出与碳排放,这一点与各地低碳算力园区、数据中心碳中和建设的政策导向是高度契合的。

大规模客户应用落地,驱动技术持续迭代

中昊芯英的初代“刹那®”芯片已经在多个行业实现了大规模客户交付与成熟落地。目前,产品已经成功部署于深圳联通、天津移动、太极股份、江西上饶等地运营商、政府机构及科技企业建设的多个超大规模智算中心,同时也在高校、科研机构的科研计算平台与教学实验环境中投入使用,辐射范围延伸到金融、传媒、教育、医疗等广泛领域。

面向未来,中昊芯英会继续依托已有的大规模客户基础,持续进行技术迭代,进一步优化TPU芯片的算力、能效与片上存储架构,适配更多大规模大模型与多智能体集群的运算需求。同时,联合主流大模型厂商、云服务商及系统集成商,深化软硬件协同开发,进一步扩展自主可控算力产业链的落地版图。

来源:https://www.163.com/dy/article/L0MONN500514R9OJ.html
上一篇Switch 2再现硬件抽奖 新旧屏幕混发靠运气 下一篇Meta发布非侵入式脑机接口新研究Brain2Qwerty v2
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。