首页 游戏 软件 资讯 排行榜 专题
首页
AI
英伟达开源128K记忆压缩方案,免额外缓存提速2.7倍

英伟达开源128K记忆压缩方案,免额外缓存提速2.7倍

热心网友
60
转载
2026-01-14

闻乐 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

提升大模型记忆能力,美国开源巨头英伟达也拿出了新方案。

联合Astera研究所、斯坦福大学、UC伯克利、加州大学圣迭戈分校等机构,推出了名为TTT-E2E的创新方法。

在128K超长文本处理上,其速度比传统注意力模型快2.7倍,处理2M上下文时提速更达到35倍,性能表现令人印象深刻。



这项技术与近日备受关注的DeepSeek条件记忆模块有所不同。

DeepSeek的Engram模块采用“按需查表”的静态学习路径,而英伟达则选择了动态学习的思路,关键在于对上下文进行压缩。

通过实时学习将关键信息压缩到自身权重中,让模型在测试阶段依然保持学习状态。

这样既避免了额外缓存的负担,又能精准捕捉长文本中的核心逻辑。

为模型装上记忆压缩包



TTT-E2E并未依赖复杂特殊架构,而是基于带滑动窗口注意力的标准Transformer,部署起来更为简便。

该方法的核心思路,是将长文本建模从架构设计问题转化为“持续学习”任务。

在测试阶段,模型会基于当前读取的上下文进行下一个词预测。

每读取一段文本,就通过梯度下降更新自身参数,通过这种方式持续训练自身,把读到的文本信息动态压缩到权重中,这样就不用额外存储冗余数据。

在训练阶段,团队通过元学习为模型做初始化准备,让模型天生适应“测试时学习”的模式。

把每个训练序列都模拟成测试序列,先在内循环中对其进行测试时训练,再在外循环中优化模型的初始参数,确保初始状态就能快速适配测试时的学习需求,实现了训练与测试的端到端对齐优化。



为了平衡效率与稳定性,TTT-E2E还设计了三项关键优化。

一是采用“迷你批处理+滑动窗口”的组合策略。将测试时的训练数据分成多个迷你批,配合8K大小的滑动窗口注意力,既解决了单token梯度更新易爆炸的问题,又保证模型能记住批内上下文,提升计算并行度;

二是精准更新策略。只更新模型的MLP层(冻结嵌入层、归一化层和注意力层),并且只更新最后1/4的网络块,在减少计算成本的同时避免参数更新混乱;

三是双MLP设计。在需更新的网络块中加入一个静态MLP层,专门存储预训练知识,另一个动态MLP层负责吸收新上下文,来防止模型学新忘旧。



从实验数据来看,TTT-E2E的表现相当亮眼。

在3B参数模型的测试中,TTT-E2E在128K上下文长度下的测试损失与全注意力Transformer持平甚至更优,而Mamba 2、Gated DeltaNet等同类模型在长文本场景下性能均出现明显下滑;

在延迟上,它的推理延迟不随上下文长度增加而变化,与RNN类似,在H100显卡上处理128K文本时,速度比全注意力模型快2.7倍。



在解码长序列任务中,经Qwen-8B模型评估,TTT-E2E生成的文本质量稳定,损失值持续低于传统模型。



通过实验结果也可以看出,该方法的推理延迟与上下文长度无关,始终保持恒定,这也意味着无论处理8K还是128K文本,用户都能获得一致的快速响应体验。

不过,TTT-E2E也存在一些小局限。

在大海捞针这类需要精准回忆细节的任务中,它的表现远不如全注意力模型。

这是因为它的核心是压缩记忆,会过滤掉看似无关的细节,而全注意力模型能近乎无损地召回所有信息。

另一方面,训练阶段的元学习需要计算梯度的梯度,目前实现比标准预训练要慢。

目前,TTT-E2E的代码和相关论文已完全开源。



这项研究的项目总负责人是斯坦福的博士后研究员Yu Sun,他也是该研究的核心贡献者。

他研究的总体目标是让人工智能系统能够像人类一样持续学习。自2019年以来,他就在开发“测试时训练”的概念框架,TTT-E2E项目的早期构想就是由他提出的。

来源:https://www.163.com/dy/article/KJ862ENE0511DSSR.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

香港科技大学团队突破实时视频生成关键技术
科技数码
香港科技大学团队突破实时视频生成关键技术

这项由香港科技大学、京东探索研究院和香港大学联合开展的研究发表于2026年3月,论文编号为arXiv:2603 17051v1。有兴趣深入了解的读者可以通过该编号在学术数据库中查询完整论文。制作一段

热心网友
03.31
Sand.ai发布MagiAttention,定义分布式注意力性能新标杆
AI
Sand.ai发布MagiAttention,定义分布式注意力性能新标杆

机器之心编辑部2025 年 4 月,Sand ai 开源了 MagiAttention v1 0 0,定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕,今天Sand ai

热心网友
03.26
鸿蒙智行问界M5:将长期稳定运营于问界产品系列
编程语言
鸿蒙智行问界M5:将长期稳定运营于问界产品系列

3月25日,鸿蒙智行最新发布了问界M6第一期答网友问,透露了问界M5系列的后续计划。鸿蒙智行最新表示,问界M6上市后,问界M5将持续在问界家族产品序列中稳定运营。该产品已收获了超15万用户青睐,将

热心网友
03.25
DeepMind混合记忆突破:OpenClaw AI实现近2万帧3D重建
AI
DeepMind混合记忆突破:OpenClaw AI实现近2万帧3D重建

编辑|杜伟过去两天,全球爆火的 Agent 私人助手 OpenClaw,接连更新了两个版本,让人直呼「开发团队是不睡觉了吗?」之所以如此爆火,很大程度上归功于 OpenClaw 的长期记忆能力,它能

热心网友
03.16
Evo 2模型进化:从读懂片段到设计生命全解析
科技数码
Evo 2模型进化:从读懂片段到设计生命全解析

来源:科技日报科技日报记者 张梦然国际顶级学术期刊《自然》近期正式发表了一项汇聚人工智能(AI)与生命科学顶尖智慧的里程碑式成果。由美国Arc研究所、英伟达公司,联合斯坦福大学、加州大学伯克利分校及

热心网友
03.16

最新APP

火柴人传奇
火柴人传奇
动作冒险 04-01
街球艺术
街球艺术
体育竞技 04-01
飞行员模拟
飞行员模拟
休闲益智 04-01
史莱姆农场
史莱姆农场
休闲益智 04-01
绝区零
绝区零
角色扮演 04-01

热门推荐

《三国:天下归心》香香连击队成员推荐
游戏攻略
《三国:天下归心》香香连击队成员推荐

《三国:天下归心》香香连击队全面解析:后期最强阵容搭配攻略 在策略手游《三国:天下归心》中,如何打造一支能够主宰战局的后期王牌队伍?本篇将为您深入剖析以孙尚香为核心的“香香连击队”终极搭配方案。该阵容由孙尚香、蔡文姬、貂蝉三位核心武将构成,其独特之处在于通过蔡文姬与貂蝉的完美辅助联动,极大化触发孙尚

热心网友
04.03
爱奇艺极速版如何查看营业执照
手机教程
爱奇艺极速版如何查看营业执照

爱奇艺极速版营业执照信息查询全攻略 在使用爱奇艺极速版应用时,无论是出于消费保障、商务合作考量,还是日常维权需要,核实其背后的实际运营主体与工商信息都是十分必要的环节。查询其营业执照信息有着明确且可靠的操作路径,可以帮助用户清晰了解服务提供方的合法资质。 官方权威途径:国家企业信用信息公示系统查询

热心网友
04.03
红色沙漠堕落之神任务闪电柱解谜答案一览
游戏攻略
红色沙漠堕落之神任务闪电柱解谜答案一览

在《红色沙漠》的“堕落之神”任务中,古代闪电装置的解谜环节是挑战巨化泰坦BOSS前的核心难点。整个电塔谜题由五座塔构成,其核心在于正确的激活与连接顺序。为了让各位冒险家能快速通关,本篇攻略将详细解析闪电塔的正确操作步骤。咱们这就开始,一步步点亮所有的电塔。 《红色沙漠》堕落之神任务:闪电塔解谜全流程

热心网友
04.03
洛克王国世界炽心勇狮图鉴
游戏攻略
洛克王国世界炽心勇狮图鉴

洛克王国炽心勇狮全面解析:技能、获得方法与实战指南 在《洛克王国》的众多宠物中,炽心勇狮以其传奇守护者的身份和强大的火焰力量而备受瞩目。作为火系宠物的代表之一,它的核心特征在于那颗永不熄灭的火焰心脏,这不仅是它力量的象征,更是其所有强大技能的能量源泉。由炽心勇狮喷发出的烈焰,拥有随着战斗进程而不断增

热心网友
04.03
洛克王国世界公平鸽图鉴
游戏攻略
洛克王国世界公平鸽图鉴

洛克王国公平鸽图鉴详解:裁判型宠物的属性技能与获取攻略 在洛克王国的众多宠物当中,公平鸽以其鲜明的裁判官形象与独特的对战定位,成为了许多玩家关注的对象。这只严格恪守自身准则的宠物,完美诠释了何为“公正严明”。它的行事守则堪称一套独特的生存哲学:执着于介入每一场争执,绝不因任何原因延误“出庭”,坚持做

热心网友
04.03