近日,一家名为Tensordyne的AI芯片初创公司对外宣称,其新型推理芯片在能效比和响应速度方面,有望全面超越当前市场领导者英伟达。据模拟测试结果显示,该公司已完成首款芯片的流片送样,搭载72颗芯片的整机系统计划于2027年下半年正式上市。Tensordyne表示,其72芯片系统运行大型大语言模型的速度是同等规模英伟达GB300系统的4倍,但功耗仅为后者的五分之一。当然,这些数据目前仍停留在理论模拟阶段,需等待年底真实系统运行后才能得到验证。

Tensordyne新款Napier芯片实现超高能效的核心,在于其执行AI核心运算——矩阵乘法——的独特方式。该方案巧妙运用了对数运算的基本性质:log(A×B) = log(A) + log(B)。
"我们将乘法器转化为加法器,"Tensordyne联合创始人兼AI副总裁吉勒斯·巴克胡斯解释道。加法器相比乘法器体积更小、能耗更低,因此Napier芯片能够在更小的面积内集成更强的算力,同时有效降低功耗。
这一思路在学术界并非新鲜事,但此前一直无法实现商业化,因为在对数值与描述神经网络的浮点数之间进行转换既耗时又耗能,还会引入较大误差。巴克胡斯表示,如今这一难题已被攻克。
"迄今为止,还没有任何团队能像我们这样实现线性与对数之间的高效转换,这正是整个方案的关键所在。我们的工程师在硅芯片上找到了一种极为优雅、精确且低成本的实现方式。"
数字格式的重要性,业界早已有共识。英伟达首席科学家比尔·达利在2023年IEEE Hot Chips大会上指出,当时英伟达GPU性能提升的主要驱动力,正是采用了更短的数字格式及其所需的更小电路。研究人员也在探索类对数格式(如posit)及其科学计算版本takum的计算电路,但由于硬件实现与传统浮点运算差异过大,至今未能进入主流应用。
随着AI智能体的兴起,推理——即神经网络模型的执行——正变得比训练新的大语言模型更为重要。成本和响应速度成为主导因素,促使AI公司寻找更适合推理场景的系统架构。Tensordyne的管理层表示,他们早已预见到这一趋势,并据此进行了针对性的系统设计。
执行大语言模型主要分为两个阶段:预填充(prefill)和解码(decode)。预填充阶段,模型将输入文本转化为Token,并构建一种称为键值缓存的工作记忆,这是一个计算密集型过程。解码阶段,大语言模型根据上一个Token和键值缓存逐步生成输出Token,这种顺序生成方式导致解码过程相对较慢,且更依赖内存和网络延迟,而非算力。
因此,AI芯片厂商开始针对这两种不同需求进行系统设计。英伟达推出了一种方案:采用满载B300 GPU的服务器机架处理预填充,再搭配多个搭载Groq 3处理器的机架来负责解码。亚马逊云服务则将其自研Trainium AI芯片机架用于预填充,并结合多个Cerebras晶圆级计算机机架完成解码。
Tensordyne宣称其系统能够同时胜任这两项任务。"我们同时在攻克两个艰巨的挑战,"Tensordyne首席产品官兼联合创始人R.K.阿南德说,"我们是第一家证明无需依赖多个供应商和多个机架就能同时完成两项任务的公司。"
预填充所需的密集算力源于对数运算;解码所需的能力则依托144GB高带宽内存,以及一套延迟仅1微秒的自研互联网络——Tensordyne Napier Link。
在一个占用标准机架四分之一空间的"pod"系统里,Tensordyne集成了72颗Napier芯片、8颗英特尔至强CPU以及64TB固态存储。据该公司称,四个pod组成的完整机架在处理2万亿参数大语言模型时,每用户每秒可输出1300个Token,每百万Token成本约为11美元,功耗为120千瓦,其中1个pod负责预填充,3个pod负责解码。相比之下,要实现相近的每用户每秒Token数,需要九机架规模的Rubin与Groq 3组合系统,功耗预计高达1.5兆瓦。
上述数据是否准确,还需等待年内进一步实测验证。Tensordyne计划通过云端提供测试版本,让客户提前体验,预计大约一年后开始向客户批量交付系统。
Q&A
Q1:Tensordyne的Napier芯片是如何实现高能效的?
A:核心创新在于利用对数运算替代传统矩阵乘法。因为log(A×B)=log(A)+log(B),乘法可以转化为加法,加法器比乘法器体积更小、能耗更低。这样一来,Napier芯片就能在更小的面积内集成更强的算力,同时大幅降低功耗。Tensordyne称,其工程师攻克了长期存在的线性与对数数值相互转换精度差、效率低的难题,实现了在硅芯片上的高精度、低成本转换。
Q2:Tensordyne的72芯片系统与英伟达系统相比,性能差距有多大?
A:根据Tensordyne的模拟数据,其72芯片系统运行大型大语言模型的速度是同等规模英伟达GB300系统的4倍,功耗仅为后者的五分之一。在处理2万亿参数大语言模型时,四pod机架可实现每用户每秒1300个Token,功耗120千瓦,每百万Token成本约11美元;而实现相近性能的英伟达Rubin与Groq 3九机架系统,预计功耗高达1.5兆瓦。当然,这些数据目前仅为模拟测试结果,需等待真实系统上线后才能最终验证。
Q3:Tensordyne的系统何时能商用?普通客户如何体验?
A:Tensordyne计划在2027年下半年正式开售搭载72颗Napier芯片的商用系统。在此之前,预计大约一年内开始向客户批量发货,并打算先通过云端提供测试版本,让客户提前上手体验和评估。目前,首款芯片已完成流片送样,处于研发验证阶段。
