谷歌论文揭示内存压垮股价,KV缓存缩减6倍内幕
梦晨 发自 凹非寺量子位 | 公众号 QbitAI
学术会议ICLR,居然和美光和西部数据大跌扯上关系了?
两家存储芯片巨头股价大跌,没有财报暴雷,没有供应链断裂,只是谷歌展示了一篇即将在ICLR 2026正式亮相的论文。

谷歌研究院推出TurboQuant压缩算法,把AI推理过程中最吃内存的KV cache压缩至少6倍,精度零损失
市场的解读简单粗暴,长上下文AI推理以后不需要那么多内存了,利空内存。

网友纷纷表示,这不就是美剧《硅谷》里的Pied Paper?

Pied Piper是2014年开播的HBO经典美剧《硅谷》里的虚构创业公司,核心技术就是一种“近乎无损的极限压缩算法”。
2026年,类似的算法在现实世界居然成真了。
KVCache量化到3 bit
要理解TurboQuant为什么重要,先得理解它解决的是什么问题。
AI大模型推理时处理过的信息会临时存在KV Cache,方便后续快速调用,不用每次从头算起。
问题是随着上下文窗口越来越长,内存消耗急剧膨胀。KV cache正在成为AI推理的核心瓶颈之一。

传统的解决思路是向量量化,把高精度数据压成低精度表示。
但尴尬的是,大部分量化方法本身也需要存储额外的“量化常数”,每个数字要多占1到2个bit。
TurboQuant用两个改动把这个额外开销干到了零。
PolarQuant(极坐标量化):
不用传统的X、Y、Z坐标描述数据,转而用极坐标”距离+角度”。
谷歌团队发现,转换后角度的分布非常集中且可预测,根本不需要额外存储归一化常数。
就像把“往东走3个路口,往北走4个路口”压缩成”朝37度方向走5个路口”。
信息量不变,描述更紧凑,还省掉了坐标系本身的开销。

QJL(量化JL变换):
把高维数据投影后压缩成+1或-1的符号位,完全不需要额外内存。TurboQuant用它来消除PolarQuant压缩后残留的微小误差。

两者组合后PolarQuant先用大部分bit容量捕捉数据的主要信息,QJL再用1个bit做残差修正。
最终实现3-bit量化,无需任何训练或微调,精度零损失。
8倍加速,Benchmark全线拉满
谷歌团队在Gemma和Mistral等开源模型上,跑了主流长上下文基准测试,覆盖问答、代码生成、摘要等多种任务。
在“大海捞针”任务上,TurboQuant在所有测试中拿下完美分数,同时KV cache内存占用缩小了至少6倍。
PolarQuant单独使用,精度也几乎无损。

速度提升同样显著。在英伟达H100 GPU上,4-bit TurboQuant计算注意力分数的速度,比32-bit未量化版本快了8倍。
不只是省内存,还更快了。
在向量搜索领域,TurboQuant同样超越了现有最优量化方法的召回率,而且不需要针对具体数据集做调优,也不依赖低效的大码本。

AI内存的DeepSeek时刻?
Cloudflare CEO评价“这是谷歌的DeepSeek时刻”。
他认为DeepSeek证明了用更少的资源也能训出顶尖模型。
TurboQuant的方向类似,用更少的内存,也能跑同样质量的推理。

谷歌表示,TurboQuant除了可以用在Gemini等大模型上,同时还能大幅提升语义搜索的效率,让谷歌级别的万亿级向量索引查询更快、成本更低。
不过TurboQuant目前还只是一个实验室成果,尚未大规模部署。
更关键的是,它只解决推理阶段的内存问题。而AI训练环节完全不受影响。
论文地址:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
[1]https://x.com/eastdakota/status/2036827179150168182?s=20
相关攻略
自去年下半年启动的内存涨价趋势,在今年第一季度达到新高,给下游的手机、电脑等制造企业带来显著压力,连苹果也不得不暂时下架部分Mac机型。核心零部件成本上升,已成为行业必须面对的严峻挑战。 进入第二季度,内存市场的紧张态势并未缓解。最新行业分析显示,存储芯片价格仍在持续攀升,且上涨幅度较上一季度更为明
2026年的全球半导体市场,正被一场深刻的结构性失衡所定义。高带宽内存、DRAM及NAND闪存等关键存储组件的价格一路飙升,其根源在于数据中心正以前所未有的胃口,吞噬着全球近七成的内存产能。这场由上游引发的风暴,如同精准传导的多米诺骨&牌,迅速波及PC、智能手机、新能源汽车等下游产业,最终让每一位普
ROG发布幻刃DDR5RGB20周年版内存条,采用24GBx2的DDR5-6000规格,时序CL26-36-36-76,搭载海力士M-DIE颗粒,提供终身质保。产品定位高端,首发价5999元,计划6月下旬上市。
CPU-Z发布2 20版本,显著扩展了对新一代处理器的识别支持,包括AMD锐龙PRO9000、锐龙AI400G系列及代号“GorgonHalo”的多款高端型号,以及英特尔相关平台。同时,新版本新增了对HUDIMM和HSODIMM等前沿内存模组的识别能力。
据外媒报道,近期发生了一件可能是最离谱的“捡漏”故事,不过这种运气可不是人人都有。 最近在Reddit上,一位用户的经历让整个硬件圈都直呼“离谱”。他在一家本地的清仓店里,只花了6 99美元,就成功拿下了一套64GB的DDR5笔记本内存(2×32GB)。 价格错误的“捡漏”故事之前也听过不少,比如半
热门专题
热门推荐
今年三月,谷歌DeepMind高级科学家Alexander Lerchner发表了一篇重磅论文,其核心结论清晰而深刻:基于算法的符号操作在结构上注定无法产生真正的意识——无论未来模型规模如何庞大、架构如何精巧,甚至是否为其配备仿生身体,这一根本性限制或许都无法被跨越。 仔细审视这一论断,它并非一个关
研究针对AI助手难以执行复杂屏幕操作的问题,构建了CUActSpot评测基准,通过代码渲染自动生成含精确坐标的多样化训练数据,并训练了一个40亿参数模型。实验表明,提升训练数据多样性比单纯扩大数据规模更能有效增强模型通用操作能力,并展现出跨任务泛化潜力。
《迷你世界》于2026年5月15日发布全新激活码,玩家可凭兑换码领取酷炫角色装扮、迷你币及稀有道具,请及时复制有效激活码前往游戏内使用。
《我的世界》于2026年5月17日发布免费兑换码EMMMyxhjVHMApsb2,可兑换游戏道具与装饰。兑换码常有时间或次数限制,请尽快使用。更多兑换码可查看官方汇总页面。





