首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
谷歌压缩算法解读:内存通胀时代的终结者?

谷歌压缩算法解读:内存通胀时代的终结者?

热心网友
25
转载
2026-03-26


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

破解算力问题,降低模型所需的存算空间,有很多种途径,是减少训练时算力,还是减少推理时算力?稀疏化、量化、压缩、蒸馏等手段,都是方法之一。只是当前鉴于不同方法的优势特征,各家模型企业及研究机构都会选择不同的策略。

以长上下文任务为例,过去两年,AI算法团队曾提出要以键值缓存(KV Cache)为中心的分离架构设计,即根据不同计算特性将预填充服务器与解码服务器分开,在大batch size及队列场景下需要更大的系统内存带宽。简而言之,对于许多推理时任务来说,瓶颈在于内存带宽。

今日,谷歌发布了一项名为TurboQuant的算法,这项技术旨在解决上述提及的问题:大模型运行时的内存消耗。其核心是让AI在思考和回答问题时,占用少得多的工作内存,同时保持几乎相同的智力水平,甚至速度更快。

根据最新描述,TurboQuant的推出预计会带来多项利好:模型推理方面,百万Token上下文成本会明显下降;向量数据库领域,更容易做到实时索引和亚毫秒查询;边缘AI领域,手机和嵌入式设备的上下文推理更现实。此外,该思路同样可扩展到多模态领域的向量压缩。

事实上,就在该技术发布当日,美股存储板块如美光科技、闪迪等应声下跌。近年来,内存(RAM)、固态硬盘(SSD)、硬盘驱动器(HDD)等存储产品受下游数据中心建设扩张需求的激增,出现了一段时间的供应短缺及价格推高。该市场反应可以理解为,TurboQuant一旦广泛应用,或将显著影响未来对AI推理服务器中内存容量规格的需求判断,重塑相关硬件的成本曲线。


要理解TurboQuant的价值,首先要明白大模型在生成文本时是如何工作的。它们并非一次性处理所有信息,而是像人类阅读一样,一个字一个字地生成。在这个过程中,模型需要一个“临时记事本”来记住之前所有对话的内容,以免重复计算。这个“记事本”在技术上被称为键值缓存(KV Cache)。但问题在于,对话越长,这个“记事本”就越厚,占用的内存就越多。以长文本为例,在处理超长文档或复杂多轮对话时,KV Cache会迅速撑满昂贵的高性能内存,成为制约AI处理速度、推高运行成本的主要瓶颈。

TurboQuant运用了两个结算的核心算法:PolarQuant主压缩和QJL(量化Johnson-Lindenstrauss变换)残差校正,目标是压缩KV Cache中的向量。

第一步:PolarQuant——高质量压缩

传统量化方法类似于用直角坐标系(东、北方向)记录一个点的位置。TurboQuant的第一步,是PolarQuant,改用极坐标(角度和距离)来描述。研究发现,经过特定的数学变换(随机旋转)后,高维向量的数值分布会变得非常规律和集中,就像一个固定的圆形网格。这样一来,系统可以预先计算好一套最优的压缩码本,无需针对每次对话进行复杂的校准,实现了在线实时压缩。这一步用大部分比特对数据主体进行了高质量压缩。

第二步:QJL——消除隐藏误差

第一步压缩后,会残留微小的误差。如果放任不管,在AI计算注意力(即决定关注对话中哪部分内容)时,这些误差会累积并导致结果出现偏差。TurboQuant的第二步创新在于,它用一个名为QJL的方法来处理这些残差。QJL的特点在于,它仅用1个比特(即一个正负号)来表征残差,并与高精度的原始查询向量结合,最终能实现无偏的内积估计。这意味着,尽管数据被大幅压缩,但AI在计算“哪些信息更重要”时,得到的结果依然是准确无误的。

什么是QJL?简单说,就是一种把高维向量“投影”到低维空间的方法,且能以数学证明保证距离关系不被破坏太多。QJL把这个投影结果进一步压缩到1比特,体积极小,但仍能作为无偏估计器。

根据谷歌最新博客阐述,TurboQuant带来了接近理论极限的性能提升:


极致压缩:可以将KV Cache压缩到每通道仅3比特,相比传统的16或32比特存储,减少了至少6倍的内存占用。在长上下文测试中,即使压缩后,模型依然能找到隐藏的信息,表现满分。精度无损:在多个标准长上下文基准测试(如LongBench、Needle in a Haystack)上,使用3.5比特配置的TurboQuant,模型性能与使用全精度缓存时完全一致,2.5比特配置下也只有轻微的性能下降。速度提升:由于需要从内存中读取的数据量锐减,计算速度得到极大提升。在H100 GPU上,4比特TurboQuant的注意力核心步骤的速度,比未压缩的32比特版本快8倍。

TurboQuant能够以极低的内存占用、近乎零预处理时间和最先进的精度构建和查询大型向量索引。这使得谷歌规模的语义搜索速度更快、效率更高。当然,TurboQuant的意义远不止于一项实验室突破。据博客所述,向量量化虽然目前主要解决的是Gemini等模型中的KV-cash瓶颈,但该技术同样适用于需要在高维向量数据库中进行海量搜索的场景(如现代语义搜索引擎)。

相关论文将在ICLR 2026和AISTATS 2026发表。

相关链接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

相关论文链接:https://arxiv.org/pdf/2502.02617

(本文作者 | 杨丽,编辑 | 杨林)

来源:https://www.163.com/dy/article/KOV1UA4K05118O92.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙
AI
全网炸锅! Anthropic万字曝光Claude情绪代码,被人类逼疯哐哐撞墙

新智元报道编辑:Aeneas KingHZ【新智元导读】刚刚,Anthropic首度实锤:大模型真有「情绪」!激活绝望神经元后,Claude会撒谎、作弊甚至勒索。AI内心戏曝光,人类对齐面临失控危机

热心网友
04.07
DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路
AI
DeepSeek挑战Transformer记忆?查表法重塑模型架构新思路

新智元报道编辑:LRST【新智元导读】ICLR论文STEM架构率先提出「查表式记忆」架构,早于DeepSeek Engram三个月。它将Transformer的FFN从动态计算改为静态查表,用tok

热心网友
03.30
谷歌AI论文涉学术造假,洗白内存占用了900亿刀?
AI
谷歌AI论文涉学术造假,洗白内存占用了900亿刀?

编辑|泽南、杨文没想到这次大面积市场震荡,还引出了学术大瓜。本周五晚,谷歌的学术不端事件成为了 AI 圈的焦点。来自苏黎世联邦理工学院(ETH Zurich)的博士后高健扬在知乎发布文章,表示 Go

热心网友
03.30
电价优势如何助力低成本Token出海:机遇与路径解析
科技数码
电价优势如何助力低成本Token出海:机遇与路径解析

文 | 盘古智库当前,市场上流行一种极度简化的商业叙事:将中国丰富的绿电资源视为人工智能时代的“新煤矿”。其基本逻辑可以表述为:利用西部低至 0 3 元每度的电力优势驱动大规模智算中心,通过算力芯片

热心网友
03.29
谷歌内存论文疑被抄袭,华人学者控诉业内学术不公
AI
谷歌内存论文疑被抄袭,华人学者控诉业内学术不公

新智元报道编辑:好困 Aeneas【新智元导读】把闪存股一夜干崩的谷歌顶会论文,出大事了。TurboQuant的核心方法,两年前就被一位华人学者做完、发完顶会、代码全部开源了。谷歌不仅没正面提及,而

热心网友
03.28

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

macOS 系统安装 WorkBuddy 提示“已损坏”的解决方法
AI
macOS 系统安装 WorkBuddy 提示“已损坏”的解决方法

双击WorkBuddy app提示“已损坏”实为macOS Gatekeeper拦截:一、右键选择“打开”后点“仍要打开”可临时放行;二、终端执行sudo xattr -r -d com apple quarantine Applications WorkBuddy app清除隔离属性;三、sud

热心网友
04.20
Smartrip
AI
Smartrip

Smartrip 是什么 谈起智能旅行规划,市面上工具不少,但真正能做到从想到出发全程“包办”的却不多。今天要聊的这款 Smartrip,就属于那种能彻底解放你行前准备精力的AI助手。它由 Adeva 团队开发,核心能力在于运用智能算法,深度理解你的个人偏好,然后从海量选项中筛选出最佳的旅行方案并完

热心网友
04.20
2026 小巧便携的充电宝推荐:轻若无物的续航神器,这五款揣兜就走
业界动态
2026 小巧便携的充电宝推荐:轻若无物的续航神器,这五款揣兜就走

小巧便携的充电宝:轻若无物的续航神器,这五款揣兜就走 说到小巧便携的充电宝,大家脑海里浮现的,恐怕就是那些厚度在15毫米以内、重量不超过250克,能轻松塞进牛仔裤口袋或随身小包的“能量块”了。它们精准地解决了传统大容量充电宝“出门像带块砖”的尴尬,让移动补电真正变得轻松。市场数据也印证了这一趋势:根

热心网友
04.20
币安交易所官网最新入口 币安App v8.8.5版官方下载链接
web3.0
币安交易所官网最新入口 币安App v8.8.5版官方下载链接

币安交易所官网最新入口在哪里? 最近,不少朋友都在打听同一个问题:币安交易所的官网最新入口到底在哪儿?别急,这篇文章就来为大家梳理清楚,顺便带你深入了解一下这个平台的核心机制与最新动态。 币安Binance官网直达入口: 币安官方认证App下载包: 平台资产安全保障机制 说到交易平台,安全永远是用户

热心网友
04.20
MATIC今日价格在哪看_如何币安Binance上查看MATIC实时报价
web3.0
MATIC今日价格在哪看_如何币安Binance上查看MATIC实时报价

如何查看MATIC实时价格?五种官方渠道详解 可通过官网、App、行情页、首页组件或API五种方式查看MATIC USDT实时价格:登录后进入现货交易区查深度图与最新价;行情页看涨跌幅与K线;App首页添加价格小组件;开发者调用API获取毫秒级报价。 一、访问币安Binance官网或App主界面 首

热心网友
04.20