谷歌TurboQuant如何绕过内存墙？重新审视它的技术突破

首页

热心网友

转载

2026-03-27

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

在大模型时代，资源瓶颈不只是硬件问题，更是数学问题。

作者｜王艺

3月25日美股开盘，存储芯片板块集体遭遇“黑色时刻”。

美光科技收跌4％，西部数据下跌4.4％，SK海力士跌去5.6％，闪迪更是重挫6.5％。一夜之间，HBM（高带宽内存）概念股蒸发数百亿美元市值。

一些外媒推测，这与谷歌最新发布的一篇论文和一段技术博客有关。

论文名叫《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》（下文简称TurboQuant）。

具体而言，TurboQuant通过一套全新的向量量化算法，将大语言模型推理过程中的KV缓存（Key-Value Cache）从16bit压缩到3bit左右，实现了至少6倍的内存压缩和最高8倍的注意力计算加速——而模型输出质量几乎不受影响。

消息传开后，Cloudflare CEO Matthew Prince在社交媒体上将其形容为“谷歌的DeepSeek时刻”。一位独立开发者也在Reddit上晒出了复现结果：基于PyTorch和自定义Triton kernel，在RTX 4090上用2bit精度跑Gemma 34B，输出与未压缩版本的模型逐字符一致。

“这就是谷歌的DeepSeek时刻，它在优化人工智能推理的运行速度、内存使用量、能耗以及多租户利用率方面提供了更大的空间，Cloudflare 多个团队都在致力于这些方面的工作。”图源：X @Mattew Prince

TurboQuant算法无需硬件改动，可与现有的推理协议栈兼容——在H100处理器上，4bit注意力机制的内存压缩率提高了5倍以上，速度提升高达8倍。图源：Reddit @NoShowJobsHQ

可以说，论文写得“零损耗”，社区用代码投了票。

但市场的过激反应和社区的狂热背后，我们要问的是：这篇论文到底做了什么？它真的能撼动AI基础设施的底层逻辑吗？

1.KV Cache瓶颈与“内存墙”

要理解TurboQuant为何引发如此大的市场震动，必须先理解一个被越来越多人讨论、却仍然没有被大众真正看透的结构性矛盾：大模型推理阶段的核心瓶颈，不是算力，而是内存。

当你和一个AI进行长对话时，模型并不会每说一个字都把之前所有上下文重新计算一遍。Transformer架构的做法是将之前已经计算过的Key和Value向量缓存起来，也就是所谓的KV Cache。它的作用类似于人类“边说边回顾”时的短期记忆。

问题在于，这份记忆会随着对话长度线性膨胀。

以一个13B参数的模型为例，在NVIDIA A100 40GB显卡上，模型权重本身大约占65％的显存，而KV Cache可以轻松吃掉剩余30％以上的空间。当上下文长度从4K扩展到128K甚至百万级别时，KV缓存所消耗的显存往往会反超模型参数本身，成为推理阶段最大的内存瓶颈。

更棘手的是，这个瓶颈不仅仅是“存不下”的问题，更是“搬不动”的问题。

大模型的推理过程，尤其是自回归生成阶段（即逐token生成文本的过程），本质上是内存受限（memory-bound）的工作负载。GPU的Tensor Core算力严重过剩，但数据从HBM搬运到SRAM的速度，也就是所谓的“内存带宽”成为了真正的卡脖子因素。即便从A100升级到H100，FLOPS提升了超过2倍，但HBM带宽和容量的增速远远跟不上。

这就是业界反复提及的“内存墙（Memory Wall）”。

过去几年，行业解决内存问题的方案主要沿着三个方向展开：

第一是从“长度”上压缩——滑动窗口注意力（Sliding Window Attention），只保留最近固定长度的记忆，扔掉太远的上下文。这相当于给缓存的“长”设了上限。Kimi前段时间提出的Attention Residuals（注意力残差），就是在用这个方法解决大模型注意力的问题。（详见）

注意力残差概述。（a）标准残差：采用统一加法累加的方式进行的标准残差连接；（b）全注意力残差：每个层通过学习到的注意力权重有选择地整合所有前一层的输出；（c）块注意力残差：将层分组成块，从而将内存消耗从 O(Ld) 减少到 O(Nd)。图源：《Attention Residuals》

第二是从“高度”上压缩——GQA（Grouped-Query Attention）、MQA（Multi-Query Attention）等架构改进，减少Key/Value头的数量，降低每一层需要缓存的数据量。

MQA通过在多个注意力头之间共享同一组键和值，同时为每个注意力头维护不同的查询，降低了计算复杂度和内存使用量；GQA是对MQA的一种优化，不是为每个查询单独计算键值表示，而是为每个组计算共享的键值表示。图源：VerticalServe Blogs 《Attention Variations — MQA vs GQA vs MHA vs MLA》

第三是从“精度”上压缩——量化。把原本用16bit浮点数存储的KV向量，压缩到8bit、4bit甚至更低的整数表示。

量化就像把人工智能模型中使用的非常大的数字缩小成更小的数字，从而节省空间并提高运行速度，譬如不再使用超高精度的数字（浮点数），而是使用更简单的数字（整数）。图源：CloudThrill

量化看似是最直接的方案，但传统量化方法有一个致命的隐形成本：元数据开销。

几乎所有传统量化方法都需要为每一小块数据额外存储一组全精度的“缩放因子”（scale）和“零点偏移量”（zero-point），用于将低精度整数还原回近似的浮点值。在位宽较高（比如8bit）时，这些元数据占比很小，可以忽略。但当压缩到4bit甚至更低时，这些“手续费”占总存储的比例急剧攀升——标称4bit，实际可能是5到6bit，压缩效率被自己的开销蚕食了一大截。

量化前后的模型权重分布，INT8精度下有256条网格线，INT4精度下却只有16条网格线。图源：Toutube @Tales Of Tensors 《LLM Quantization Explained: GPTQ, AWQ, QLoRA, GGUF and More》

更深层的问题是，很多量化方法是离线的——它们需要拿一批校准数据跑一遍，学习出最优的量化参数。但KV Cache是推理时实时生成的，每个用户的对话内容都不一样，根本没有办法提前做离线校准。

这就是TurboQuant真正要解决的问题。它要做的是从根本上消灭传统量化的这些隐形税，做一个真正适合在线、实时、零预处理场景的“向量压缩器”。

2.TurboQuant到底做了什么？

TurboQuant的设计哲学，用一句话概括就是：结构优化＞暴力压缩。其核心思路可以用一个生活中的类比来理解：

想象你要把一堆形状各异的衣服塞进行李箱。传统方法是直接硬塞，塞不下就用力压，还得在每个角落垫上填充物（元数据开销）来保持形状。而TurboQuant的做法是：先把所有衣服用同一种方式折叠整齐（随机旋转），然后按照统一的尺寸标准打包（最优标量量化），最后检查一下有没有折痕没整理好，用一张薄纸垫一下（QJL残差纠偏）。

具体来说，TurboQuant分为两个阶段：

第一阶段：随机旋转＋MSE最优量化

TurboQuant首先对输入的高维向量做一次随机旋转变换。

在高维空间中，一个单位向量经过随机旋转后，其每个坐标分量的数值都会收敛到一个已知的概率分布——Beta分布（在高维下近似为正态分布）。更关键的是，不同坐标之间近似相互独立。

这意味着，无论原始数据长什么样，经过旋转后，所有向量的所有坐标都服从同一个已知的分布。

既然分布已知且统一，就可以针对这个分布预先计算出数学上最优的量化方案——通过求解经典的Lloyd-Max量化器（本质是一维连续空间上的k-means问题），找到每个位宽下误差最小的量化码本。这些码本可以提前算好、永久存储，推理时只需查表，完全不需要针对具体数据做任何调整。

这就是TurboQuant消灭传统量化“隐形开销”的关键：不需要存储任何scale、zero-point等元数据，因为分布本身是通过数学变换被“锁定”的。每一个bit都被用于存储真正的信息，没有一丝浪费。

第二阶段：QJL残差纠偏

到这里，第一阶段的压缩已经非常高效了——如果我们只关心"还原出来的向量和原来像不像"，它几乎是最优解。但大模型在实际运算时，并不是把向量还原出来看看就完事了，而是要拿压缩后的向量去做“内积运算”（可以粗略理解为“比较两个向量有多相似”），这才是注意力机制的核心操作。而恰恰在这一步，问题出现了。

为什么内积很重要？因为Transformer的注意力机制的核心运算就是Query向量和Key向量的内积。如果量化后的内积估计有偏差，注意力分数就会系统性地偏移，最终导致模型输出质量下降。

论文中给出了一个精确的例子：在1bit量化时，MSE最优量化器会给内积引入2/π≈0.637的乘性偏差——也就是说，所有内积都会被系统性地缩小约36％。这在高位宽时偏差会减小，但在极低位宽下是不可忽视的。

TurboQuant的解决方案极为巧妙：在总位宽预算b中，先用b-1位做MSE最优量化（把“主体信息”装进去），然后对残差（原始向量与量化重建之间的差）施加一个1bit的QJL（Quantized Johnson-Lindenstrauss）变换。QJL是同一团队此前提出的一种基于随机投影的1bit量化方法，其核心性质是：对内积估计是无偏的。

两步叠加后，整个系统的内积估计就变成了无偏的，同时方差（误差的随机波动）也被控制在接近信息论极限的水平。

在TurboQuant的发布博客上，谷歌最新用几个数据描述了这个新算法的有效性——“3bit无损”、“8×加速”、“6×压缩”、“零预处理”。

TurboQuant 在计算键值缓存中的注意力逻辑值方面表现出显著的性能提升，在各种位宽级别上均优于高度优化的JAX基线。图源：Google Research Blog《TurboQuant: Redefining AI efficiency with extreme compression》

TurboQuant之所以在学术界引起巨大震动，不仅因为实验结果好看，更因为它有严格的理论依据。

论文利用香农信息论中的失真率函数（distortion-rate function）和Yao’s minimax原理，证明了一个下界：对于任何量化算法，bbit量化的MSE不可能低于1/4^b。

而TurboQuant的MSE上界是（√3π/2）×（1/4^b）≈2.7×（1/4^b）。

也就是说，TurboQuant的失真率只比“宇宙中任何算法都不可能突破的理论极限”大约2.7倍。在低位宽下这个差距更小——1bit时仅为1.45倍。

TurboQuant的 MSE 失真率被证明最多不超过信息论下界 2/√3π ≈2.7，在比特宽度b=1时，TurboQuant的失真率仅比最优值低约1.45倍。图源：《TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate》

这类向量压缩问题本身就证明了很高质量的低比特解法是存在的。一旦市场意识到“KV Cache不是只能靠更大HBM暴力解决，而是存在接近理论极限的压缩路线”，那么纯粹依赖内存稀缺叙事抬估值的那部分溢价，就会更容易被压缩。

3.“内存墙”被绕过了吗？

TurboQuant论文发布后，市场给出了非常迅速的反应——前段时间因为HBM而大幅上涨的存储芯片股（详见《》）在今天应声下跌。很多人认为AI芯片将不再需要那么大的内存了，HBM的叙事将走弱，AI芯片的“内存墙”也将被绕过。

存储芯片三大原厂今日股价图源：Yahoo Finance

但是，「甲子光年」认为，将TurboQuant理解为“HBM需求将被大幅削弱”、自此就认为“内存墙将会被绕过”的判断有点过了，这是一种过度线性的思考。

TurboQuant本质上解决的是：在既定显存容量下，如何提升单位字节的有效信息密度。

它并不会减少训练所需的HBM容量——训练阶段仍然需要高精度参数、梯度和优化器状态；它主要优化的是推理阶段的KV Cache开销。而当模型规模继续扩大、上下文长度继续拉长时，总内存需求仍然会上升。

换句话说，TurboQuant更像是把“内存墙”向外推远了一段距离，而不是把墙推倒。

真正被改变的，是边际需求曲线。

过去几年，HBM的投资逻辑建立在一个朴素假设上：模型越大、上下文越长、并发越高＝显存需求线性爆炸。

如果KV Cache可以在近理论极限的条件下压缩到3-4bit，那么推理阶段对HBM容量的敏感度就会显著下降。需求曲线从“线性放大”变成“被压缩后的线性放大”。

这会带来两个变化：

第一，单卡利用率提升。相同硬件可以服务更多请求，云厂商的推理成本下降，算力供给侧的议价能力被削弱。

第二，容量升级节奏放缓。如果原本需要从80GB升级到120GB才能支持某种超长上下文，现在通过量化就能实现，那么硬件升级的迫切性会降低。

这并不是说大模型对内存的需求消失了，而是说单位算力对应的营收能力提高了。对于云厂商是利好，对于单纯卖“更大容量”的供应链企业，则是估值体系的重估。

此外，「甲子光年」在多位技术专家交流后得到的信息是，大家一致认为，工程优化逐步吞噬硬件溢价将会是AI产业的一个长期趋势。

早期大家拼模型规模，中期拼数据质量，现在越来越多的竞争发生在系统层和算法层——FlashAttention、PagedAttention、GQA、MoE、推理调度优化、算子融合……每一次看似微小的改进，都在降低对“暴力堆料”的依赖。

可以说，TurboQuant如果被大规模工程化落地，那么它代表的是一种范式转移——从“用更贵的内存解决问题”转向“用更聪明的数学解决问题”。

整个AI基础设施链条，它也意味着软件层的价值占比提升。

当压缩算法接近信息论极限时，硬件差异化的空间被部分侵蚀。真正的竞争点可能从“谁的HBM更大”转向“谁的系统栈整合得更好、调度更智能、算法更先进”。

这也是为什么这篇论文被一些人称为“DeepSeek时刻”——它像DeepSeek对模型训练成本的冲击一样，对推理阶段的资源结构提出了挑战。

TurboQuant未必会让HBM失去价值，也不会让GPU需求崩塌。但它释放了一个强烈信号——在大模型时代，资源瓶颈不只是硬件问题，更是数学问题。当压缩效率逼近信息论极限时，我们看到的不是“更少的算力”，而是“更高的单位算力产出”。

对于投资者而言，这意味着必须重新评估产业链中“谁在卖稀缺性，谁在卖效率”；对于工程师而言，这意味着一个更具挑战性的时代：优化空间正在从参数规模，转向结构设计与信息表达。

而对于整个AI行业而言，这或许只是一个开始。

（封面图来源：Google Research）

来源:https://www.163.com/dy/article/KOVURMOJ0512MLBG.html

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：Anthropic报告：AI未致大规模失业，技能鸿沟才是真正危机下一篇：知声AI年收入12亿，硬核增长与盈利未来可期

谷歌TurboQuant如何绕过内存墙？重新审视它的技术突破

相关攻略

热门专题

最新APP

热门推荐