游乐游手机版
首页/AI教程/文章详情

Transformer作者初创发布Transformer²动态自调权重

时间:2026-06-30 15:49
SakanaAI提出Transformer²,实现大语言模型在推理时动态调整权重。通过奇异值分解分解权重矩阵,利用强化学习学习z向量调控组件,使模型自适应未见任务。在数学、编程、推理等任务中表现超越LoRA,参数更少效率更高,向活体智能迈进。

先说几个核心判断。大语言模型虽然能力惊人,但有一个根深蒂固的弱点:它学完知识后,就像一个“固化”了的大脑。想让它吸收哪怕一句新信息,往往都得把整个训练流程重来一遍,成本高得吓人。

而生物界的适应能力,却几乎是本能的。章鱼可以瞬间改变肤色融入环境,人类大脑在受损后能重建神经通路——“物竞天择,适者生存”并非一句空话。但落到大语言模型头上,如何让它们也具备这种“随需而变”的能力,却是一个长期困扰研究者的难题。

现在,Sakana AI的研究团队给出了一个全新的解题思路,叫做Transformer²。它的核心目标非常明确:让大语言模型在推理过程中,能够实时调整自身,去适应那些训练时从未见过的新任务——方法则是选择性调整权重矩阵中的关键组件。

从技术原理上看,它打破了传统“一次训练管全部”的微调框架。我们当然希望一个模型能通吃所有任务,但现实很骨感:全面的后训练几乎意味着天文数字的计算资源,而且一旦引入更多样化的数据,过拟合和任务间的干扰就会变得非常棘手。

相比之下,“自适应模型”的思路就更灵活。与其试图让一个模型什么都会,不如给它配上一套“专家工具箱”,在需要的时候动态调用。但这里也有问题——创建多个专家模块意味着训练参数暴增,依然容易过拟合,模块之间的组合也不够灵活。

Transformer²找到了一个精巧的突破口:它不去动整个模型,而是专注于有选择性地调整权重矩阵中的关键“零件”。

Transformer²这个名字本身就解释了两步走的过程:第一步,模型“看一眼”传入的任务,理解它的需求;第二步,执行任务专用的适应性调整,输出最佳结果。在数学、编程、推理和视觉理解等多种任务上,它的表现都相当亮眼,不仅超越了LoRA这样的传统静态方法,还在效率上实现了提升——用更少的参数,达到了更好的效果。

LLM的「大脑」:权重矩阵

人类大脑通过互联的神经通路存储和处理信息。大语言模型的“大脑”则是权重矩阵——它从海量训练数据中提炼出的核心知识就存储在其中。

想要让这个“大脑”能灵活适应新任务,首先得弄清楚它的内部结构。而奇异值分解(SVD)恰恰提供了这扇窗口。

形象点说,SVD就像一个技术高超的外科医生,能给大语言模型的“大脑”做精细解剖。它将庞大复杂的知识矩阵,分解成更小、更独立、更有意义的组成部分——比如,针对数学、语言理解等不同能力的“子路径”或组件。SVD正是通过识别权重矩阵中的这些主成分来达成这一目标的。

有趣的是,研究人员发现,如果选择性地增强某些组件的信号,同时抑制另一些,就能显著提升大语言模型在下游任务中的表现。基于这个发现,Transformer²向前迈出了关键一步——让这种调整变得“动态”且“任务特定”,从而让大语言模型能在更复杂的场景里游刃有余。

引入Transformer²

Transformer²重新定义了大语言模型适应多样化任务的方式。它的核心,就是动态调节权重矩阵里的关键组件。

在训练阶段,它引入了奇异值微调(SVF)方法。SVF使用强化学习(RL)来增强或抑制不同“大脑”组件的信号,以应对多种下游任务。而在推理阶段,它则通过三种不同的策略来识别任务特征,并据此调整模型权重。

下图清晰地展示了这个框架。

左图:使用SVD将权重矩阵分解为独立组件。右图:利用RL训练这些组件的组合以应对不同任务。注意,有些组件(比如图中的紫色齿轮)在语言理解和推理任务之间是共享的。推理时,系统会先识别任务类型,然后动态调整组件的组合。

使用SVF和RL进行训练

在训练阶段,SVF会为每个下游任务学习一组 z向量

你可以把z向量理解为该任务的“专家标识”。它是一个非常紧凑的表示,指定了权重矩阵中每个组件的期望强度,相当于一个“放大器”或“衰减器”,用来调节不同组件对模型行为的影响力。

举个简单的例子:假设SVD把权重矩阵分解成了[A, B, C, D, E]这5个组件。

对于数学任务,学习到的z向量可能是[1, 0.8, 0, 0.3, 0.5]。这表明组件A对数学任务至关重要,而组件C几乎不影响它的表现。

而对于语言理解任务,z向量可能会变成[0.1, 0.3, 1, 0.7, 0.5]。这说明组件C虽然在数学任务里用处不大,但对语言理解却举足轻重。

SVF通过强化学习在预定义的任务集上学习这些z向量。这些学习到的z向量,使得Transformer²能以极小的参数代价(仅仅多训练了一些z向量),就能适应各种全新的下游任务。

自适应性

在推理阶段,框架采用了“两阶段”的适应策略。

第一阶段,给定任务或单个输入提示,Transformer²会通过下面三种方法之一来分析“测试时”的条件。第二阶段,它会结合这些z向量来调节权重,生成最适合当前场景的最终答案。

三种任务检测与适应方法如下:

  • 基于提示的适应:使用专门设计的提示词,对任务进行分类(比如数学、编程),然后直接选择一个预训练好的z向量。
  • 基于分类器的适应:额外训练一个任务分类器,在推理时识别任务类型,再匹配合适的z向量。
  • 少样本适应:通过加权插值,组合多个预训练的z向量。一个简单的优化算法会根据模型在少量样本测试集上的表现,来自动调整这些权重。

这三种方法共同确保了Transformer²既能实现强大的任务自适应,又保持了高效的推理能力。

主要结果

作者将这些方法应用在了Llama和Mistral模型上,并在广泛的任务维度进行了测试,包括数学(GSM8K、MATH)、代码(MBPP-Pro、HumanEval)、推理(ARC-Easy、ARC-Challenge)和视觉问答(TextVQA、OKVQA)。

SVF测评

首先,研究人员用SVF在这些任务上获取了z向量,并和LoRA进行了对比。

结果很清晰:在文本任务上,SVF全面优于LoRA,尤其在GSM8K数据集上提升显著。这很可能得益于强化学习的目标设计——与LoRA不同,强化学习并不要求每个问题都有“完美解决方案”,容错空间更大。右侧的直方图也展示了SVF在视觉领域的惊人表现。

未见过的任务

接着,研究团队将Transformer²的适应框架与LoRA在“未见过的任务”上进行了对比,重点包括MATH、HumanEval和ARC-Challenge。

下表左侧展示了,随着方法复杂度的提升,新架构在所有任务上都实现了逐步的性能提升。

左图:在未见任务上的自适应表现。右图:学习到的z向量插值权重分析。

更有趣的是右图的发现:当模型在处理MATH这种复杂推理问题时,它并不是只依赖于为GSM8K任务专门训练的z向量。相反,它组合了数学、编程和逻辑推理等多种能力。这说明复杂的任务,确实需要模型综合不同的专业知识才能达到最佳效果。

模型知识转移

最后,作者探索了一个颇具前瞻性的问题:能否把一个模型学到的知识,转移到另一个模型里?

答案是令人兴奋的。当把Llama学到的z向量转移到Mistral上时,后者的表现在大多数任务上都有提升。当然,这背后有一个重要前提:Llama和Mistral有着相似的结构,这可能是知识能够兼容的原因。

不同AI模型之间能否实现真正的知识共享,目前还悬而未决。但这些结果的确打开了一扇新的大门:特定任务技能的解耦与重用,似乎不再是天方夜谭。这为未来更大、更强的模型提供了一种全新的赋能方式。

「活体智能」

但这仅仅是开始。Transformer²为我们描绘了一个更激动人心的场景:AI系统不再是训练好就固化下来的静态实体。相反,它们开始向“活体智能”迈进——一个能不断学习、演化、适应新环境的模型。

像Transformer²这样的自适应系统,正在缩小静态AI与“活体智能”之间的鸿沟。它为更高效、更个性化、且真正能融入各个行业的AI工具铺平了道路。而这,或许才是AI走进我们日常生活的正确姿势。

来源:https://www.aiagiai.com/7912.html
上一篇MiniMax开源4560亿参数突破Transformer架构400万长上下文 下一篇大厂竞相布局3D生成,ChatGPT时刻近了?
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案
AI教程 · 2026-07-02

内网RPA离线部署从依赖打包到7×24无人值守踩坑与避坑方案

这三年,内网RPA项目接了不下二十个。每次开局都像闯关——断网、缺依赖、多机同步、定时执行、批量分发、源码保护、AI离线化,八个坑一个比一个深。今天把这些实战经验整理出来,希望能帮正在内网搞自动化的兄弟们少踩点雷。 一、内网无网络环境怎么部署RPA流程:先搞清楚什么叫“真离线” 很多工具宣传“支持本

水利工程师用WorkBuddy写洪水报告效率提升3倍
AI教程 · 2026-07-02

水利工程师用WorkBuddy写洪水报告效率提升3倍

WorkBuddy开发者分享季 水利工程师AI提效实战:用WorkBuddy撰写洪水影响评价报告,效率提升3倍 WorkBuddy 效率 人工智能 开发工具 一、我是谁,为什么需要AI 先介绍一下自己——我是一名水利工程师,在湖南长沙的一家小型水利设计公司任职。当前行业环境不太

日志服务数据加工规则洞察仪表盘使用指南
AI教程 · 2026-07-02

日志服务数据加工规则洞察仪表盘使用指南

数据加工诊断仪表盘 想实时掌握日志服务加工功能的运行状态?直接从加工列表页点击那个“规则洞察”按钮,仪表盘就会立刻呈现出来。入口就在那儿,不绕弯子。 跳转后,你可以按作业名称、实例ID或源LogStore来筛选任务状态。比如下边这张图,展示的是当前实例ID(90c9d47714dbb807d47c1

基于RFID的固定资产管理系统技术架构与工程实践
AI教程 · 2026-07-02

基于RFID的固定资产管理系统技术架构与工程实践

固定资产管理难题是众多企事业单位的普遍困扰,资产数量动辄数千件,且广泛分布于不同部门、楼层乃至园区。传统人工盘点方式在工程维度上始终面临三大关键瓶颈:采集效率低下、数据闭环中断、状态同步滞后。使用条码枪逐一扫描标签,识别距离通常不超过30厘米,操作人员需逐个寻找并扫描,盘点效率完全受限于人力。面对5

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效
AI教程 · 2026-07-02

WorkBuddy实战用AI搭建A股智能盯盘助手省心高效

炒股的朋友们想必都深有体会——每天重复盯盘、查行情、分析板块轮动,这一整套流程下来耗费大量精力。手动翻查数据不仅身心俱疲,还很容易错过关键买卖节点。今天我们就来聊聊如何打造一款趁手的盯盘工具,借助AI替你分担这些重复性工作。 背景:盯盘的核心痛点 股民都有同感——每天不只要查询单只股票的实时行情,还