游乐游手机版
首页/科技数码/文章详情

揭秘谷歌TurboQuant:硬件博弈如何缩减6倍AI内存与算力?

时间:2026-03-26 17:07
美东时间3月24日,谷歌研究院(Google Research)发布了一项名为TurboQuant的免训练(training-free)AI内存压缩算法。最新技术文件显示,该算法能够在不损失模型精度


美东时间3月24日,谷歌研究院(Google Research)发布了一项名为TurboQuant的免训练(training-free)AI内存压缩算法。

最新技术文件显示,该算法能够在不损失模型精度的前提下,将大语言模型推理阶段的键值缓存(KV Cache)内存占用缩减至少6倍,并在特定基准测试中相较32位未量化模型实现最高8倍的性能提升。这项极度压缩技术,直接改变了大型AI模型在显存资源调配上的技术预期。

技术发布的连锁反应迅速传导至资本市场。周三美股交易时段,存储芯片板块出现整体下挫,闪迪一度大跌6.5%,美光科技跌幅约4%,希捷科技跌超5%。

市场情绪的短期波动主要源于单一维度的推演:若底层算法能将上下文内存需求大幅缩减,现阶段价格高昂且供不应求的高带宽内存(HBM)及企业级存储芯片的长期出货量预期可能会面临修正。

PolarQuant与QJL的协同机制

TurboQuant的核心突破在于解决了传统向量量化过程中伴随的内存额外开销问题。传统方案为了保证精度,往往需要为每个数据块额外存储全精度的量化常数。该算法采取了两阶段处理架构:

首先,利用PolarQuant技术进行主体压缩。该方法放弃了传统的笛卡尔坐标系,将数据向量转换为极坐标,把数据分离为代表强度的半径和代表方向的角度。这种几何结构的简化彻底消除了传统方法的额外内存开销。


随后,引入量化约翰逊-林登施特劳斯(QJL)算法作为数学误差校正层。TurboQuant使用极低位宽(仅1 bit)对第一阶段留下的微小误差套用QJL算法,消除偏差以确保最终注意力分数的精准。

测试数据显示,在此机制下,TurboQuant能够将KV缓存压缩至3.5比特甚至3比特,在“大海捞针”(Needle In A Haystack)等长文本基准测试中,依然保持了100%的检索召回率。同时,其“数据无感知”(data-oblivious)特性使其无需进行特定的预处理或微调即可直接部署。

参照系差异与权重的刚性需求

在评估该算法的实际商业穿透力时,需剥离理论数据的极限值。一方面,谷歌声称的“最高8倍性能提升”是建立在与未量化的32位(32-bit)基础数据相对比的前提下。而在当前实际的推理产业环境中,16位乃至8位、4位量化已广泛普及,生产环境中的绝对效率跃升幅度将低于最新的基准对比数据。

另一方面,算法的作用域具有严格限定。TurboQuant仅针对推理阶段的KV缓存生效,它有效缓解了超长上下文带来的显存线性增长问题,但并不压缩模型权重(Model Weights)本身的物理显存占用。这意味着,该算法能让同等显存容量的GPU支撑更长的上下文对话或更高的并发吞吐量,但依然无法改变部署千亿参数大模型时对底层硬件容量的基本门槛。

从行业视角来看,单次查询的内存开销与推理成本大幅下降,使得边缘侧设备或消费级显卡能够承载此前仅限云端运行的长文本任务。这种软件优化对硬件依赖的对冲,重新定义了AI应用落地的成本曲线。

从宏观算力供需关系推演,这也可能引发典型的“杰文斯悖论”(Jevons Paradox):

资源利用效率的提升,反而会因使用成本的降低而激发更庞大的长尾应用需求。

TurboQuant降低了长文本推理的存储门槛,可能刺激AI多模态应用在企业端和消费端的规模化铺开。系统并发量的急剧上升,最终带来的全球算力基础设施与存储需求总量,未必会呈现单边缩减。(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 焦燕)

来源:https://www.163.com/dy/article/KOV81QO905118O92.html
上一篇2026年成都充电新布局:600多个路灯充电桩4月底启用 下一篇vivo X300 Ultra旗舰配置一览:骁龙8E5与2K 144Hz直屏是亮点
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
年国家能源局充换电服务业用电量增速48.8%
科技数码 · 2026-06-29

年国家能源局充换电服务业用电量增速48.8%

2025年全社会用电量达103682亿千瓦时,同比增长5 0%。充换电服务业用电增速高达48 8%,信息传输与软件服务业增速17 0%。第三产业和居民用电对增长贡献率合计占一半。中国成为全球首个年度用电量超10 4万亿千瓦时的国家。

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元
科技数码 · 2026-06-29

追风者 GLACIER ONE 360 S25 液冷散热器新品上市 联体风扇售价429元

追风者冰川360S25液冷散热器售价429元,三联一体风扇便捷安装,冷头小体积纯铜底座噪音18dB,风扇转速300-2000RPM、风量75CFM、静压2 96mmAq,五年质保漏液包赔。

三星Galaxy Watch8用户反馈谷歌后台组件异常
科技数码 · 2026-06-29

三星Galaxy Watch8用户反馈谷歌后台组件异常

三星GalaxyWatch8、Watch5Pro、Watch6及Watch7用户反映,GooglePlayServices后台耗电异常,电量占比最高达99 97%,远超正常水平,严重影响续航。目前故障原因不明,谷歌尚未发布官方声明。

罗永浩批苹果iOS 27创新不足 盼新CEO改进
科技数码 · 2026-06-29

罗永浩批苹果iOS 27创新不足 盼新CEO改进

罗永浩批评苹果iOS27创新不足,称仅有双iPhone同号、音量分离等数十项细节改进,认为库克时代缺乏突破性创新,股市虽好但消费者只能被迫接受挤牙膏式升级。

年国产车出口710万辆,两家车企销量破百万
科技数码 · 2026-06-29

年国产车出口710万辆,两家车企销量破百万

2025年国产汽车出口总量达710万辆,同比增长21%。奇瑞以134万辆居首,比亚迪105万辆次之,上汽乘用车出口占比60%最高,长城出口51万辆。吉利、长安等主流品牌同步增长,小鹏、零跑等新兴品牌海外拓展加速。