首页 游戏 软件 资讯 排行榜 专题
首页
AI
谷歌新算法:内存占用暴降83%,性能提升八倍详解

谷歌新算法:内存占用暴降83%,性能提升八倍详解

热心网友
50
转载
2026-03-27


智东西
编译 刘煜
编辑 陈骏达

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

智东西3月26日报道,昨天,谷歌于发布了一款针对大语言模型键值缓存(KV Cache)的无损极限压缩算法TurboQuant,它能够从根本上解决向量量化中内存开销问题。谷歌称,TurboQuant可将大语言模型键值缓存内存占用至少降至原来的1/6,推理速度最高提升8倍,同时保持100%精确程度。

Cloudflare的联合创始人、CEO兼执行主席Matthew Prince称,谷歌推出TurboQuant堪称“谷歌的DeepSeek时刻”。


▲Matthew Prince的推文(图源:X)

向量量化一直是企业为AI数据 “瘦身” 的主流技术,主要用于压缩高维向量、节省内存、提升检索与推理效率。但传统压缩方法通常会引入额外的内存开销(每一小块数据都要单独算、单独存一套完整的“压缩参数”),这些参数很占内存,每个数字都要多占1-2 bit,这样反而会影响向量量化的效果。

谷歌称,此次推出的TurboQuant借助了谷歌提出的1 bit无偏误差校正算法QJL与极坐标量化压缩技术PolarQuant,实现了压缩算法的突破。

谷歌官宣推出TurboQuant后,引发资本市场短期内对该技术会降低存储芯片采购需求的担忧,导致存储芯片板块集体回调。

当天美股盘中,美光股票跌幅超过5%,收盘时下跌3.4%,市值蒸发约151.6亿美元(约合人民币1047.37亿元)。闪迪股票下跌幅度更大,一度超过7%,收盘时下跌3.5%,市值蒸发约36.44亿美元(约合人民币251.75亿元)。韩股收盘时,SK海力士股价下跌了6.23%。


▲美光、闪迪股价图(图源:腾讯自选股)SK海力士股价图(图源:Investing)

博客链接:

https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

一、TurboQuant的工作原理:高质量压缩与误差修正

TurboQuant能够在零精度损失下实现模型尺寸的大幅缩小,非常适合支持键值缓存压缩和向量搜索。它主要通过两个关键步骤实现这一目标。

TurboQuant首先对数据向量进行随机旋转变换,这样处理简化了数据的几何结构,使得TurboQuant可以对向量的每个部分单独应用标准的高质量量化器(量化器是一种将大量连续数值映射为更少并且离散的符号或数值的工具,比如音频量化与JPEG压缩)。

第一阶段,PolarQuant利用大部分压缩算力(绝大多数比特位)来捕捉原始向量的核心语义与特征强度,完成主体压缩。

PolarQuant不再使用表示各轴距离的标准坐标系(即X、Y、Z坐标)来描述向量,而是通过笛卡尔坐标系将向量转换为极坐标。这就好比把“向东走3个街区,向北走4个街区”,替换成“沿37度方向走5个街区”。

PolarQuant转换后只会保留半径(代表核心数据的强度)和角度(代表数据的方向或语义)。由于角度的分布规律已知且高度集中,模型不再需要执行计算代价高昂的数据归一化操作。它将数据映射到一个边界固定、可预测的圆形网格上,PolarQuant就不用再存那些“用来表示数据范围”的额外信息,从而省下了一大块内存空间。


▲PolarQuant工作概念图(图源:谷歌正式)

第二阶段,TurboQuant仅以1 bit的极小额外内存开销,将QJL作用于第一阶段压缩后残留的微小误差上,消除误差。

QJL采用一种名为约翰逊–林登斯特劳斯变换(Johnson-Lindenstrauss Transform)的数学方法,在保留数据点之间基本距离与关联关系的前提下,把复杂的数据压缩成了一种超级简单、几乎不占额外内存、计算又特别快的格式。

QJL在高精度查询与低精度简化数据之间进行结构化平衡,相当于一个数学误差校正器,能够消除压缩带来的偏差。这使得模型能够精准计算注意力分数(即判断输入信息中哪些部分重要、哪些部分可安全忽略的核心过程)。

二、拆解测试:TurboQuant强在哪?

谷歌称,在实验中,TurboQuant能在完全不降低AI模型效果、不损失精度的前提下,显著解决键值缓存给模型推理带来的性能瓶颈。

谷歌拿Meta开源的Llama-3.1-8B模型做测试,将TurboQuant、PolarQuant和KIVI算法相比较,可以看到,与最新基准线Full Cache相比,TurboQuant能够将键值缓存量化至仅3.5 bit,并且没有损失模型精度。同时,PolarQuant也几乎实现了无损压缩。


▲TurboQuant的缓存压缩性能图(横轴为性能得分,纵轴为量化方案)(图源:谷歌正式)

谷歌对3种不同量化位宽的TurboQuant进行测试,结果表明,在下图的所有序列长度(模型处理的文本token数量)中,TurboQuant 1 bit版本加速比最高,4 bit版本加速比最低。在1M超长上下文中,TurboQuant 1 bit版本加速比在13倍左右,4 bit版本在7倍左右。

同时,谷歌称TurboQuant在JAX框架(谷歌的超级加速框架)的基础上,仍能实现显著加速。在英伟达的H100 GPU上,TurboQuant 4 bit版本相比不压缩的32bit原版键值缓存,速度最高提升8倍,不仅能加速大模型推理,还能大幅优化向量搜索、索引构建等关键场景。


▲TurboQuant计算注意力logits的加速效果图(横轴为序列长度,纵轴为加速比)(图源:谷歌正式)

在高维向量搜索任务中,谷歌以1@k召回率(1@k召回率用于衡量算法在其前k个近似结果中,压缩后的向量和不压缩时算出“最相似结果”一样的概率。)为指标,将TurboQuant与当前最优方法PQ和RabbiQ进行了效果对比。

从下图可以看到,不管是2 bit还是4 bit版本的TurboQuant,都在召回率指标上持续取得了更优表现。这证实了TurboQuant在高维搜索任务中的稳健性与高效性。

同时,谷歌称,在GloVe数据集(维度d=200)(斯坦福大学发布的经典预训练词向量数据集)上,TurboQuant在与当前多种主流先进量化方法的对比中,展现出稳健的检索性能,并实现了最优的1@k召回率。


▲TurboQuant的召回率图(横轴是检索范围,纵轴是召回率)(图源:谷歌正式)

由此可见,TurboQuant在PolarQuant主体压缩的基础上,通过极低比特量化与误差校正,使键值缓存的存储空间显著减少,让模型能够在相同硬件条件下处理更长的上下文、更大的批量数据,同时降低推理成本。

此外,TurboQuant的推理速度极快,精度几乎达到无损效果,即使在超长文本下其推理能力依然稳定高效。

结语:算法博弈下的存储焦虑,企业推动大模型“瘦身”革命

TurboQuant在谷歌的测试中表现出了出色的出成绩,它能够以极低的内存占用、近乎为零的预处理耗时,完成大规模向量索引的构建与查询,这让“谷歌级别”的语义搜索变得更加快速高效。

早在2025年,英伟达于在arXiv上公开了第一版KVTC,证明它能把大模型的键值缓存压缩到原来的 1/20,同时精度损失不到1%。近期,英伟达更新了实测数据,称在H100 GPU上处理8000 Token的长提示时,模型生成第一个词的时间,从传统方案的3秒左右,缩短至380毫秒,速度提升8倍。

科技大厂正通过持续的算法创新与迭代,不断提升AI大模型的推理效率。在当前存储芯片供应紧张的背景下,企业通过对大模型推理过程中的键值缓存进行高效压缩,来提升大模型自身的推理效率,或许可以在一定程度上缓解存储芯片产能跟不上AI算力发展速度的局面。

来源:https://www.163.com/dy/article/KOVS4J1Q051180F7.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

OpenClaw人人养虾:接入Discord
AI
OpenClaw人人养虾:接入Discord

Discord接入:让OpenClaw成为你的社区智能管家 对于全球数亿的游戏玩家和社群爱好者来说,Discord几乎等同于线上“大本营”。那么,有没有可能让你精心搭建的Discord服务器也拥有一个聪明能干的AI助手呢?答案是完全可行。通过创建Discord Bot(机器人),你可以将OpenCl

热心网友
04.15
Claude强到不敢发的Mythos,被质疑用了字节Seed技术
AI
Claude强到不敢发的Mythos,被质疑用了字节Seed技术

Claude最强“神话”模型,可能用到来自字节的技术? 这条猜测直接冲上了热搜榜。 这款被形容为“强到不敢公开发布”的Mythos模型,确实极大地刺激了人们对下一代大语言模型架构的想象空间。 社区讨论的焦点,正集中在它是否采用了“循环语言模型”(Looped Language Model)这一创新架

热心网友
04.14
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?
科技数码
DeepSeek上线专家模式:国产AI激战正酣,V4能否复刻去年春节炸场?

国产大模型DeepSeek迎来重大更新:快速模式与专家模式上线 最新消息显示,国产AI大模型DeepSeek再次迎来重要升级。4月8日,用户在访问DeepSeek时发现,输入框上方新增了“快速模式”与“专家模式”两个选项。根据官方说明,快速模式专注于日常对话场景,响应速度快,同时支持图片和文件中的文

热心网友
04.14
OpenClaw人人养虾:接入飞书
AI
OpenClaw人人养虾:接入飞书

飞书接入指南:为你的团队嵌入一位AI同事 如果你身处国内互联网或科技行业,对飞书这款高效协作平台一定非常熟悉。如今,它已不仅是团队沟通工具,更成为众多企业的数字化工作中枢。那么,能否让团队成员在飞书内部,直接调用强大的AI智能助手来提升效率呢?答案是肯定的。本指南将手把手教你,如何将OpenClaw

热心网友
04.14
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
AI
让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步,却忘了最终的目的地。针对这一痛点,厦门大学和香港科技大

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

医院标语文明就医分享20条
职业与学业
医院标语文明就医分享20条

当代互联网技术飞速进步,口号已成为普遍被使用的短语 在信息爆炸的今天,一句精炼有力的口号,往往能迅速传递品牌或活动的核心理念,甚至演变为一种深入人心的文化符号。那么,哪些标语能够真正触动人心,将抽象的服务宗旨转化为具体可感的信任呢?本文将聚焦于医疗健康这一特殊领域,为您深度解读一组关于文明就医与人文

热心网友
04.18
微软build大会 是什么?基础说明与使用场景
业界动态
微软build大会 是什么?基础说明与使用场景

微软年度开发者盛会概览微软Build大会是该公司每年面向全球开发者、工程师和技术决策者举办的最重要技术盛会。它不仅是微软展示其最新技术成果、平台更新和未来愿景的舞台,更是开发者们获取前沿知识、学习最佳实践以及直接与产品团队交流的核心渠道。大会通常持续数日,包含主题演讲、技术深度解析、实践工作坊以及丰

热心网友
04.18
大航海时代起源WhatIstheEnglishNameofDaHaiYangShiDaiQiYuan
游戏攻略
大航海时代起源WhatIstheEnglishNameofDaHaiYangShiDaiQiYuan

《大航海时代起源》:在无垠海域中,书写你自己的航海史诗 《大航海时代起源》(英文名“Uncharted Waters Origin”)的核心魅力,正如其名,在于开启一段关于自由探索、跨洋贸易与开拓未知疆域的宏大冒险。游戏从角色创建伊始,便将命运的舵盘交予玩家。性别、外貌乃至性格倾向,这些基础的自定义

热心网友
04.18
38集刑侦剧来袭,张若昀、焦俊艳二搭,王劲松、韩童生坐镇
娱乐
38集刑侦剧来袭,张若昀、焦俊艳二搭,王劲松、韩童生坐镇

《完美证据》:一场“慢”与“快”的七年对赌 在当下追求“拍完即播”的影视快消时代,《完美证据》的出现,宛如一位闯入百米赛道的马拉松选手。当行业竞逐速度时,它却历经七年打磨才姗姗来迟。观众不禁好奇:耗时如此之久,这部剧究竟在打磨什么?它的“慢”,是否藏着独特的价值? 审视其时间线,最值得玩味的或许不是

热心网友
04.18
AI食谱生成器
AI
AI食谱生成器

AI食谱生成器是什么 简单说,它是一种能帮你“凭空变出”菜谱的智能助手。这工具由多个技术团队合力开发,核心目标很明确:让每个人,无论是经常下班的上班族,还是爱钻研美食的厨艺爱好者,都能根据手边有的食材和个人口味,快速获得一份专属的烹饪方案。它让做饭这件事,从“今晚吃什么”的难题,变得轻松、个性,甚至

热心网友
04.18