首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
揭秘谷歌TurboQuant:硬件博弈如何缩减6倍AI内存与算力?

揭秘谷歌TurboQuant:硬件博弈如何缩减6倍AI内存与算力?

热心网友
92
转载
2026-03-26


美东时间3月24日,谷歌研究院(Google Research)发布了一项名为TurboQuant的免训练(training-free)AI内存压缩算法。

最新技术文件显示,该算法能够在不损失模型精度的前提下,将大语言模型推理阶段的键值缓存(KV Cache)内存占用缩减至少6倍,并在特定基准测试中相较32位未量化模型实现最高8倍的性能提升。这项极度压缩技术,直接改变了大型AI模型在显存资源调配上的技术预期。

技术发布的连锁反应迅速传导至资本市场。周三美股交易时段,存储芯片板块出现整体下挫,闪迪一度大跌6.5%,美光科技跌幅约4%,希捷科技跌超5%。

市场情绪的短期波动主要源于单一维度的推演:若底层算法能将上下文内存需求大幅缩减,现阶段价格高昂且供不应求的高带宽内存(HBM)及企业级存储芯片的长期出货量预期可能会面临修正。

PolarQuant与QJL的协同机制

TurboQuant的核心突破在于解决了传统向量量化过程中伴随的内存额外开销问题。传统方案为了保证精度,往往需要为每个数据块额外存储全精度的量化常数。该算法采取了两阶段处理架构:

首先,利用PolarQuant技术进行主体压缩。该方法放弃了传统的笛卡尔坐标系,将数据向量转换为极坐标,把数据分离为代表强度的半径和代表方向的角度。这种几何结构的简化彻底消除了传统方法的额外内存开销。


随后,引入量化约翰逊-林登施特劳斯(QJL)算法作为数学误差校正层。TurboQuant使用极低位宽(仅1 bit)对第一阶段留下的微小误差套用QJL算法,消除偏差以确保最终注意力分数的精准。

测试数据显示,在此机制下,TurboQuant能够将KV缓存压缩至3.5比特甚至3比特,在“大海捞针”(Needle In A Haystack)等长文本基准测试中,依然保持了100%的检索召回率。同时,其“数据无感知”(data-oblivious)特性使其无需进行特定的预处理或微调即可直接部署。

参照系差异与权重的刚性需求

在评估该算法的实际商业穿透力时,需剥离理论数据的极限值。一方面,谷歌声称的“最高8倍性能提升”是建立在与未量化的32位(32-bit)基础数据相对比的前提下。而在当前实际的推理产业环境中,16位乃至8位、4位量化已广泛普及,生产环境中的绝对效率跃升幅度将低于最新的基准对比数据。

另一方面,算法的作用域具有严格限定。TurboQuant仅针对推理阶段的KV缓存生效,它有效缓解了超长上下文带来的显存线性增长问题,但并不压缩模型权重(Model Weights)本身的物理显存占用。这意味着,该算法能让同等显存容量的GPU支撑更长的上下文对话或更高的并发吞吐量,但依然无法改变部署千亿参数大模型时对底层硬件容量的基本门槛。

从行业视角来看,单次查询的内存开销与推理成本大幅下降,使得边缘侧设备或消费级显卡能够承载此前仅限云端运行的长文本任务。这种软件优化对硬件依赖的对冲,重新定义了AI应用落地的成本曲线。

从宏观算力供需关系推演,这也可能引发典型的“杰文斯悖论”(Jevons Paradox):

资源利用效率的提升,反而会因使用成本的降低而激发更庞大的长尾应用需求。

TurboQuant降低了长文本推理的存储门槛,可能刺激AI多模态应用在企业端和消费端的规模化铺开。系统并发量的急剧上升,最终带来的全球算力基础设施与存储需求总量,未必会呈现单边缩减。(本文首发钛媒体APP,作者 | 硅谷Tech_news,编辑 | 焦燕)

来源:https://www.163.com/dy/article/KOV81QO905118O92.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

第二季度智能手机内存价格预计环比上涨超七成
科技数码
第二季度智能手机内存价格预计环比上涨超七成

自去年下半年启动的内存涨价趋势,在今年第一季度达到新高,给下游的手机、电脑等制造企业带来显著压力,连苹果也不得不暂时下架部分Mac机型。核心零部件成本上升,已成为行业必须面对的严峻挑战。 进入第二季度,内存市场的紧张态势并未缓解。最新行业分析显示,存储芯片价格仍在持续攀升,且上涨幅度较上一季度更为明

热心网友
05.18
内存价格全面上涨影响所有用户与行业
科技数码
内存价格全面上涨影响所有用户与行业

2026年的全球半导体市场,正被一场深刻的结构性失衡所定义。高带宽内存、DRAM及NAND闪存等关键存储组件的价格一路飙升,其根源在于数据中心正以前所未有的胃口,吞噬着全球近七成的内存产能。这场由上游引发的风暴,如同精准传导的多米诺骨&牌,迅速波及PC、智能手机、新能源汽车等下游产业,最终让每一位普

热心网友
05.17
ROG首款24GB双条DDR5-6000内存上市首发价5999元
科技数码
ROG首款24GB双条DDR5-6000内存上市首发价5999元

ROG发布幻刃DDR5RGB20周年版内存条,采用24GBx2的DDR5-6000规格,时序CL26-36-36-76,搭载海力士M-DIE颗粒,提供终身质保。产品定位高端,首发价5999元,计划6月下旬上市。

热心网友
05.16
CPU-Z 2.20 新版发布 支持 AMD Gorgon Halo 系列处理器
科技数码
CPU-Z 2.20 新版发布 支持 AMD Gorgon Halo 系列处理器

CPU-Z发布2 20版本,显著扩展了对新一代处理器的识别支持,包括AMD锐龙PRO9000、锐龙AI400G系列及代号“GorgonHalo”的多款高端型号,以及英特尔相关平台。同时,新版本新增了对HUDIMM和HSODIMM等前沿内存模组的识别能力。

热心网友
05.15
收银员不识货!网友白菜价捡漏64GB内存惹人羡慕
游戏评测
收银员不识货!网友白菜价捡漏64GB内存惹人羡慕

据外媒报道,近期发生了一件可能是最离谱的“捡漏”故事,不过这种运气可不是人人都有。 最近在Reddit上,一位用户的经历让整个硬件圈都直呼“离谱”。他在一家本地的清仓店里,只花了6 99美元,就成功拿下了一套64GB的DDR5笔记本内存(2×32GB)。 价格错误的“捡漏”故事之前也听过不少,比如半

热心网友
04.29

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

DeepMind科学家深度解析人工智能为何无法具备人类意识
AI
DeepMind科学家深度解析人工智能为何无法具备人类意识

今年三月,谷歌DeepMind高级科学家Alexander Lerchner发表了一篇重磅论文,其核心结论清晰而深刻:基于算法的符号操作在结构上注定无法产生真正的意识——无论未来模型规模如何庞大、架构如何精巧,甚至是否为其配备仿生身体,这一根本性限制或许都无法被跨越。 仔细审视这一论断,它并非一个关

热心网友
05.19
微软东南大学合作研发AI助手实现拖拽绘图超越鼠标点击
AI
微软东南大学合作研发AI助手实现拖拽绘图超越鼠标点击

研究针对AI助手难以执行复杂屏幕操作的问题,构建了CUActSpot评测基准,通过代码渲染自动生成含精确坐标的多样化训练数据,并训练了一个40亿参数模型。实验表明,提升训练数据多样性比单纯扩大数据规模更能有效增强模型通用操作能力,并展现出跨任务泛化潜力。

热心网友
05.19
2026年迷你世界5月17日最新激活码领取
游戏攻略
2026年迷你世界5月17日最新激活码领取

2026年5月17日,《迷你世界》发放专属免费激活码,玩家可凭兑换码领取特色皮肤、迷你币及稀有道具等精美游戏物品。

热心网友
05.19
2026年迷你世界5月15日最新激活码免费领取
游戏攻略
2026年迷你世界5月15日最新激活码免费领取

《迷你世界》于2026年5月15日发布全新激活码,玩家可凭兑换码领取酷炫角色装扮、迷你币及稀有道具,请及时复制有效激活码前往游戏内使用。

热心网友
05.19
2026年我的世界最新兑换码5月17日免费领取
游戏攻略
2026年我的世界最新兑换码5月17日免费领取

《我的世界》于2026年5月17日发布免费兑换码EMMMyxhjVHMApsb2,可兑换游戏道具与装饰。兑换码常有时间或次数限制,请尽快使用。更多兑换码可查看官方汇总页面。

热心网友
05.19