游乐游手机版
首页/AI热点日报/热点详情

内存成本降低75%的新型LLM优化技术

类型:热点整理2026-06-28
大语言模型(LLM)在落地应用时,高昂的计算成本始终是企业面临的核心挑战。特别是随着上下文窗口不断扩展,动辄数十万乃至数百万token的输入,带来了巨大的计算开销与响应延迟,让许多团队望而却步。近期,东京初创公司Sakana AI的研究团队提出了一项创新方案——名为“通用Transformer记忆”

大语言模型(LLM)在落地应用时,高昂的计算成本始终是企业面临的核心挑战。特别是随着上下文窗口不断扩展,动辄数十万乃至数百万token的输入,带来了巨大的计算开销与响应延迟,让许多团队望而却步。近期,东京初创公司Sakana AI的研究团队提出了一项创新方案——名为“通用Transformer记忆”(An Evolved Universal Transformer Memory)的技术,有望将此类成本大幅降低,最高可达75%。

新型LLM优化技术削减内存成本高达75%

该技术的核心思路并不复杂:通过一个专用的神经网络模块,教会模型在上下文中“聪明地”保留关键信息,同时果断丢弃冗余细节。如此一来,模型仅需处理真正有价值的内容,效率和性能自然能够得到同步提升。

优化Transformer内存机制

Transformer模型的响应质量,很大程度上取决于其“上下文窗口”中存储的内容——也就是用户输入的信息。可以将上下文窗口理解为模型的工作内存。窗口中存放什么、如何存放,直接影响着模型的输出效果,这也正是“提示工程”这一领域兴起的原因。

当前的主流模型已支持超长上下文窗口,能够容纳数十万甚至数百万个token——token是LLM对用户输入中词汇、词组、短语、概念和数字的数值化表示。长窗口允许用户向提示中塞入更多信息,但代价也很明显:更长的提示意味着更高的计算成本和更慢的响应速度。因此,优化提示内容、剔除不必要的token,同时保留关键信息,已经成为降本增效的关键路径。

现有的提示优化技术要么消耗大量资源,要么需要用户手动反复测试不同配置来缩小提示规模,效率并不理想。

神经注意力记忆模块

通用Transformer记忆的突破之处在于引入了一种名为“神经注意力记忆模型”(Neural Attention Memory Models,简称NAMMs)的简单神经网络。它的任务十分明确:逐一检查LLM内存中的每个token,决定是“记住”还是“遗忘”。

研究人员指出,这一新能力使Transformer能够主动舍弃无用的冗余细节,将注意力集中在最关键的信息上,这对于需要长上下文推理的任务而言至关重要。

Universal transformer memory (来源:Sakana AI)

NAMMs的训练独立于LLM之外,在推理时才与预训练模型结合使用,因此部署起来非常灵活。不过,它需要访问模型内部的激活值——这意味着目前只能应用于开源模型。

与Sakana AI此前开发的多项技术类似,NAMMs采用进化算法,而非基于梯度的优化方法。通过迭代变异和试错,挑选出性能最优的模型,进化算法不断优化NAMMs的效率和表现。这一点尤其关键,因为NAMMs要实现的是一种非微分目标:保留还是丢弃token,这一决策本身无法用梯度直接优化。

NAMMs作用于LLM的注意力层——这是Transformer架构的核心组件之一,负责判断上下文窗口中每个token之间的关系和重要性。基于注意力值,NAMMs决定哪些token该保留,哪些可以从上下文窗口中移除。这种基于注意力的机制还有一个显著优势:训练好的NAMMs可以跨模型复用,无需额外调整。例如,一个仅在文本数据上训练的NAMM,可以直接应用于视觉或多模态模型。

神经注意力记忆模型 (NAMM) 检查注意力层,以确定哪些标记应该从上下文窗口中保留或丢弃(来源:Sakana AI)

测试结果

为验证通用Transformer记忆的实际效果,研究团队在开源的Meta Llama 3-8B模型上训练了一个NAMM。实验数据显示,配备NAMMs的Transformer基础模型在处理自然语言和编码问题的长序列任务时,表现显著优于原始模型。同时,通过丢弃不必要的token,NAMM帮助LLM在执行任务时节省了高达75%的缓存内存。

研究者在论文中写道:“在我们的基准测试中,NAMMs为Llama 3-8B Transformer带来了明显的性能改进。此外,我们的内存系统还产生了一个显著的‘副作用’:每层的上下文大小被自动缩减,而我们在训练时从未明确优化过内存效率。”

NAMM 模型在提高模型性能的同时,还与领先的快速优化技术相竞争 (来源:Sakana AI)

团队还进一步在70B版本的Llama上进行了测试,并扩展到其他模态和任务的Transformer模型,例如LLaVA(计算机视觉)和Decision Transformer(强化学习)。

研究人员表示:“即使在这些分布外的场景中,NAMMs通过丢弃冗余视频帧、次优动作等token,依然保持了其优势,使基础模型能够专注于最相关的信息,从而提升性能。”

任务依赖行为

一个特别有趣的发现是,NAMMs会根据任务类型自动调整其行为策略。

例如,在编码任务中,模型倾向于丢弃与注释和空白相关的连续token块——这些内容不影响代码的执行。而在自然语言任务中,模型则主要丢弃语法上冗余的token,这些token不影响序列的整体含义。这种任务感知的自主调节能力,让NAMMs显得格外智能。

研究团队已经发布了创建自有NAMMs的代码。对于处理数百万token的企业级应用,类似通用Transformer记忆这样的技术,能够直接转化为速度提升和成本降低。而训练好的NAMMs的跨模型可复用性,更使其有望成为企业中不同应用场景的通用优化工具。

至于未来方向,研究人员建议更先进的技术路径,例如在训练LLM的过程中就引入NAMMs,进一步扩展模型的内存能力。研究者在论文中总结道:“这项工作只是挖掘这类新型内存模型潜力的起点,我们预期它可能为未来几代Transformer的进步提供许多新的机会。”

来源:https://www.53ai.com/news/finetuning/2024122615782.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。