首页 游戏 软件 资讯 排行榜 专题
首页
AI
谷歌论文揭示内存压垮股价,KV缓存缩减6倍内幕

谷歌论文揭示内存压垮股价,KV缓存缩减6倍内幕

热心网友
67
转载
2026-03-26

梦晨 发自 凹非寺量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

学术会议ICLR,居然和美光和西部数据大跌扯上关系了?

两家存储芯片巨头股价大跌,没有财报暴雷,没有供应链断裂,只是谷歌展示了一篇即将在ICLR 2026正式亮相的论文。



谷歌研究院推出TurboQuant压缩算法,把AI推理过程中最吃内存的KV cache压缩至少6倍,精度零损失

市场的解读简单粗暴,长上下文AI推理以后不需要那么多内存了,利空内存。



网友纷纷表示,这不就是美剧《硅谷》里的Pied Paper?



Pied Piper是2014年开播的HBO经典美剧《硅谷》里的虚构创业公司,核心技术就是一种“近乎无损的极限压缩算法”。

2026年,类似的算法在现实世界居然成真了。

KVCache量化到3 bit

要理解TurboQuant为什么重要,先得理解它解决的是什么问题。

AI大模型推理时处理过的信息会临时存在KV Cache,方便后续快速调用,不用每次从头算起。

问题是随着上下文窗口越来越长,内存消耗急剧膨胀。KV cache正在成为AI推理的核心瓶颈之一。



传统的解决思路是向量量化,把高精度数据压成低精度表示。

但尴尬的是,大部分量化方法本身也需要存储额外的“量化常数”,每个数字要多占1到2个bit。

TurboQuant用两个改动把这个额外开销干到了零。

PolarQuant(极坐标量化):

不用传统的X、Y、Z坐标描述数据,转而用极坐标”距离+角度”。

谷歌团队发现,转换后角度的分布非常集中且可预测,根本不需要额外存储归一化常数。

就像把“往东走3个路口,往北走4个路口”压缩成”朝37度方向走5个路口”。

信息量不变,描述更紧凑,还省掉了坐标系本身的开销。



QJL(量化JL变换):

把高维数据投影后压缩成+1或-1的符号位,完全不需要额外内存。TurboQuant用它来消除PolarQuant压缩后残留的微小误差。



两者组合后PolarQuant先用大部分bit容量捕捉数据的主要信息,QJL再用1个bit做残差修正。

最终实现3-bit量化,无需任何训练或微调,精度零损失。

8倍加速,Benchmark全线拉满

谷歌团队在Gemma和Mistral等开源模型上,跑了主流长上下文基准测试,覆盖问答、代码生成、摘要等多种任务。

在“大海捞针”任务上,TurboQuant在所有测试中拿下完美分数,同时KV cache内存占用缩小了至少6倍。

PolarQuant单独使用,精度也几乎无损。



速度提升同样显著。在英伟达H100 GPU上,4-bit TurboQuant计算注意力分数的速度,比32-bit未量化版本快了8倍。

不只是省内存,还更快了。

在向量搜索领域,TurboQuant同样超越了现有最优量化方法的召回率,而且不需要针对具体数据集做调优,也不依赖低效的大码本。



AI内存的DeepSeek时刻?

Cloudflare CEO评价“这是谷歌的DeepSeek时刻”。

他认为DeepSeek证明了用更少的资源也能训出顶尖模型。

TurboQuant的方向类似,用更少的内存,也能跑同样质量的推理。



谷歌表示,TurboQuant除了可以用在Gemini等大模型上,同时还能大幅提升语义搜索的效率,让谷歌级别的万亿级向量索引查询更快、成本更低。

不过TurboQuant目前还只是一个实验室成果,尚未大规模部署。

更关键的是,它只解决推理阶段的内存问题。而AI训练环节完全不受影响。

论文地址:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/


[1]https://x.com/eastdakota/status/2036827179150168182?s=20

来源:https://www.163.com/dy/article/KOUS0VEN0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

PC现价触底:戴尔直言今年是购入电脑最佳时机
娱乐
PC现价触底:戴尔直言今年是购入电脑最佳时机

快科技3月27日消息,据报道,戴尔台湾总经理廖仁祥证实,受到内存缺货涨价影响,戴尔在中国台湾市场销售的PC已涨价。具体涨幅取决于各产品零组件成本,尤其是内存和SSD占该机型成本比重。廖仁祥表示,目前

热心网友
03.28
华硕ExpertBook B3 G1评测:一款配置豪华的高端商务本
娱乐
华硕ExpertBook B3 G1评测:一款配置豪华的高端商务本

IT之家 3 月 28 日消息,华硕现已推出 ExpertBook B3 G1 商务笔记本,主要面向企业采购等市场,可选 14 16 英寸版本,至高可选配英特尔酷睿 Ultra 7 vPro 265

热心网友
03.28
华硕ExpertBook B3 G1评测:超丰富接口满足商务需求
礼仪与书信
华硕ExpertBook B3 G1评测:超丰富接口满足商务需求

IT之家 3 月 28 日消息,华硕现已推出 ExpertBook B3 G1 商务笔记本,主要面向企业采购等市场,可选 14 16 英寸版本,至高可选配英特尔酷睿 Ultra 7 vPro 265

热心网友
03.28
谷歌新算法冲击全球内存股 瑞穗:正是上车机遇
业界动态
谷歌新算法冲击全球内存股 瑞穗:正是上车机遇

本周,在谷歌新算法的冲击下,全球存储类股票都遭到冲击,这引发了投资者们的集体焦虑。但瑞穗科技专家乔丹·克莱因(Jordan Klein)认为,当前内存股的回调更像是一个“上车机会”,而不是一个股价转

热心网友
03.27
内存涨价来袭:蓝厂NX1系列手机全系官宣上调100元
网络安全
内存涨价来袭:蓝厂NX1系列手机全系官宣上调100元

IT之家 3 月 27 日消息,蓝狐 BLUEFOX 手机最新微博今日发布公告,宣布蓝狐 NX1 迷你手机将进行价格调整。尊敬的用户: 感谢您一直以来对 BLUEFOX 蓝狐的选择与信任。 受全球半

热心网友
03.27

最新APP

暗黑之地
暗黑之地
角色扮演 03-28
你比我猜
你比我猜
休闲益智 03-26
锦绣商铺
锦绣商铺
模拟经营 03-26
儿童画画
儿童画画
休闲益智 03-25
疯狂猜词
疯狂猜词
休闲益智 03-25

热门推荐

拼多多电脑版网页端:官方购物网站主页入口详解
电脑教程
拼多多电脑版网页端:官方购物网站主页入口详解

拼多多电脑版正式入口为https: www pinduoduo com ,支持主流浏览器快速访问、多种登录方式、智能搜索、商品360°查看、实时物流追踪及嵌入式售后操作。拼多多电

热心网友
03.28
PPT网格线设置技巧:快速提升排版精准与美观
手机教程
PPT网格线设置技巧:快速提升排版精准与美观

在ppt制作中,合理运用网格线和参考线能极大提升页面元素的对齐精度与整体美观度。以下将详细介绍其设置方法及应用技巧。一、ppt网格线的设置1 打开视图菜单:打开ppt软件,找到菜

热心网友
03.28
帆船纪元前期好用船只评测:新手开荒必选船型
游戏攻略
帆船纪元前期好用船只评测:新手开荒必选船型

在风帆纪元手游前期,选择一艘合适的船对于玩家的游戏体验至关重要。以下为大家推荐几种前期好用的船只。小型双桅纵帆船特点它具有较高的机动性,转向灵活,能快速调整航行方向。操作相对简单,

热心网友
03.28
《琢玉》收官在即!孙俪迪丽热巴刘烨,谁主沉浮引新潮
娱乐
《琢玉》收官在即!孙俪迪丽热巴刘烨,谁主沉浮引新潮

眼下,口碑两极、热度一路走高的话题大剧《逐玉》即将迎来收官。紧随其后,剧集市场迎来上新热潮,荧屏竞争愈发热闹。白宇、龚俊、迪丽热巴、孙俪、刘烨、聂远等实力派与人气演员轮番登场,年代现实、律政行业、东

热心网友
03.28
OPPO Pad mini轻薄小平板曝光,小尺寸也有大亮点
网络安全
OPPO Pad mini轻薄小平板曝光,小尺寸也有大亮点

IT之家 3 月 28 日消息,OPPO 智能生态产品总监今日在抖音平台曝光了 OPPO Pad mini,定位轻薄小尺寸平板,预计将于 4 月亮相。据博主 @数码闲聊站 此前爆料,OPPO Pad

热心网友
03.28