首页 游戏 软件 资讯 排行榜 专题
首页
AI
MIT与苏黎世联邦理工团队提出SDFT方法:AI持续学习不忘旧技能

MIT与苏黎世联邦理工团队提出SDFT方法:AI持续学习不忘旧技能

热心网友
92
转载
2026-05-12

人工智能领域长期面临一个核心挑战:模型在学习新任务时,常常会丢失已习得的能力,这种现象被称为“灾难性遗忘”。这好比一位精通钢琴的音乐家,在转而学习小提琴后,却发现自己弹奏钢琴变得生疏。对于需要不断适应新数据和新环境的实际应用来说,这种遗忘特性构成了重大障碍。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

MIT与ETH Zurich团队推出SDFT方法:让AI在学新技能时不忘记旧本领

2025年1月,来自麻省理工学院(MIT)、Improbable AI实验室以及苏黎世联邦理工学院(ETH Zurich)的研究团队在预印本平台arXiv上发布了一项重要研究成果(论文编号:arXiv:2601.19897v1)。他们提出了一种名为“自我蒸馏微调”(Self-Distillation Fine-Tuning, SDFT)的创新技术,为克服灾难性遗忘问题提供了巧妙而有效的解决方案。

当AI成为自己的导师:SDFT的核心思路

传统的主流方法——监督微调(SFT)——虽然操作简便,但其机制类似于用新信息直接覆盖旧记忆,极易导致先前知识的丢失。研究团队从强化学习领域获得启发,注意到“在线策略学习”能有效减少遗忘。然而,该方法通常依赖于明确的奖励信号,这在许多仅有专家示范、缺乏量化评分规则的任务中难以获得。

因此,他们转换视角,提出了一个核心构想:为何不让AI模型自己指导自己?这一思路看似奇特,但其基础建立在大型语言模型一项已被广泛验证的强大能力之上——情境学习。模型无需更新其内部参数,仅通过观察少量示例就能理解并执行新任务。SDFT方法正是将这种“即学即用”的临时能力,转化为长期、稳固的参数化记忆的关键。

具体而言,SDFT让同一个模型在训练过程中扮演双重角色。面对一项新任务时,模型首先以“教师”身份启动。在此模式下,它可以访问完整的专家示范(包括问题陈述和详细的解答步骤),从而透彻理解任务目标与最优解决方案。随后,模型切换至“学生”模式,此时它仅能看到问题本身,并需要独立生成答案。

核心步骤在于后续的校准过程:“学生”生成的答案会与“教师”基于示范所理解的最优方向进行比较和调整。这种指导并非简单的对错判定,而是在输出概率分布层面进行一种温和的牵引。整个过程是“在线”实时进行的,即模型持续基于自己刚刚产生的回答来接收反馈并微调参数。这意味着学习是在模型自身当前认知的数据分布上发生的,新知识得以平滑地融入并扩展原有的知识体系,而非进行粗暴的覆盖或替换。

理论基石:隐含的强化学习

从数学理论的角度审视,SDFT的优雅之处在于,它被严格证明等价于一种特定形式的强化学习过程。研究团队发现,通过对比“学生”输出分布与“教师”指导分布之间的差异,SDFT实际上自动构建了一个隐含的“奖励函数”:当模型的回答越接近专家示范所体现的高质量思路时,它获得的隐含奖励就越高。

这一理论关联具有根本重要性。在强化学习的框架下,策略(即模型行为)的更新通常遵循“信任域”原则,确保新策略不会与旧策略产生过于剧烈的偏离。这类似于驾驶中的平稳变道,保证了学习过程的稳定性,从而从原理上规避了灾难性遗忘的发生。实验也验证了SDFT有效的两个核心前提:一是“教师”模型能够基于给定的示范生成高质量的输出;二是“教师”与当前“学生”模型的思维模式(以KL散度衡量)保持合理接近,这确保了指导目标既优质可行,又不会因为过于超前而难以学习。

实证检验:多领域表现卓越

为了全面评估SDFT的性能,研究团队设计了两大类实验:技能学习和知识获取。

在技能学习方面,测试涵盖了三个不同领域:需要复杂逻辑推理的本科级化学科学问答、模拟真实软件开发场景的工具使用与API调用,以及需要专业领域知识的医学诊断推理。结果显示,SDFT在所有新任务上的学习表现均显著优于传统的监督微调。更为关键的是,在成功学习新技能之后,模型在六个通用的能力基准测试(涵盖常识推理、事实性问答等)上的性能下降幅度远小于传统方法,这有力证明了其有效保留了原有的广泛能力。

知识获取实验则更具挑战性。团队构建了一个关于2025年虚构自然灾害的新知识库(包含约20万词汇),这些信息在模型的原始训练数据中并不存在。SDFT不仅在与新知识直接相关的事实性问题上取得了更高的准确率(89% vs 80%),在需要综合新旧知识进行推理的间接问题上表现更是接近完美(98%),这表明它真正理解并整合了新信息,而非进行浅层的机械记忆。

最有力的证据来自连续学习实验:让一个模型依次学习三项不同的技能。使用SDFT的模型能够稳定地积累所有技能,而使用传统方法的模型则出现了严重的“跷跷板”效应,即学习一项新技能时,先前掌握的技能迅速退化。

规模效应:越大越聪明

一个有趣的发现是,SDFT的优势与模型规模呈现出正相关关系。在参数量为30亿的小型模型上,其效果与传统方法基本持平甚至略有不足;但在70亿和140亿参数的中大型模型上,其性能优势分别扩大到4个和7个百分点。这背后的逻辑非常直观:模型规模越大,其情境学习(即看示例就能学会)的能力通常越强,因此当它扮演“教师”角色时,所能提供的指导质量就越高。这意味着,随着未来基础模型规模的持续增长,SDFT这类方法的潜力将更为可观。

守护思考深度:推理模型的福音

SDFT在一个特殊场景下价值尤为凸显:即训练复杂的推理模型。许多数据集只提供最终答案,缺乏详细的推理链条。如果直接用这些数据进行传统监督微调,一个原本能够生成长篇、深度推理过程的模型可能会“退化”,变得只输出简短的最终答案。

实验数据证实了这一点:一个原本能生成平均4612个词汇进行推理、准确率为31.2%的模型,经过传统微调后,其推理长度骤减至3273词,准确率也下降至23.5%。相反,使用SDFT训练的模型,不仅保持了4180词的平均推理长度,其准确率更是大幅提升至43.7%。这是因为SDFT中的“教师”看到了完整的示范,能够引导“学生”进行深度思考,而非机械地模仿最终答案的形式。

成功的关键:在线学习的魔力

深入的机制分析揭示了SDFT成功的核心:在线学习。研究团队比较了使用同一“教师”模型的三种不同方式:传统监督微调、离线蒸馏和在线蒸馏(即SDFT)。结果表明,只有在线蒸馏能达到最佳的综合性能。

根本原因在于“分布匹配”。离线方法使用一个固定的、预先收集的数据集进行训练,但模型在实际推理中面对的是自身动态生成的数据分布,两者之间可能存在偏差。在线学习则确保了训练环境与应用环境的高度一致性,模型直接在自身产生的数据分布上接受优化,从而避免了因分布偏移而导致的性能下降。这巧妙地将在强化学习中证明有效的在线策略学习优势,引入了无需人工设计复杂奖励函数的监督学习场景。

前景与挑战:从实验室到实际应用

当然,SDFT也并非没有代价。其主要限制在于计算成本:其计算量约为传统监督微调的2.5倍,训练时间约为4倍。不过,考虑到许多现有的缓解遗忘方案需要多阶段、更复杂的训练流程,SDFT的总体效率成本可能仍然具有竞争力。

此外,其效果高度依赖于模型本身的情境学习能力,因此对于小型模型的增益可能有限。该方法也更适用于技能的提升和知识的扩展,而非彻底、颠覆性地改变模型的基础行为模式。在实践中,研究者还可能观察到“学习伪影”,即模型可能会模仿示范数据中某些特定的格式性或风格化用语,不过已有一些简单的工程化方法可以缓解这一问题。

展望未来,有几个研究方向充满潜力:将SDFT作为强化学习训练的优质初始化起点;进一步降低模型中残余的微小遗忘;以及将学习的数据源从专家示范扩展到更广泛的用户对话等非专家数据。从理论意义上讲,SDFT为将大模型强大的情境学习能力,系统性地转化为长期、稳定的参数记忆,提供了一个通用且坚实的框架,其影响深远。

总而言之,这项研究为构建能够持续学习、稳健成长而不丢失根本的人工智能系统迈出了坚实的一步。它预示着,未来的AI助手有望在不断掌握新技能、吸收新知识的同时,依然保持其核心能力的稳定与可靠,成为用户更值得信赖的伙伴。

Q&A

Q1:什么是自我蒸馏微调(SDFT)方法?
A:自我蒸馏微调(SDFT)是一种创新的AI模型训练技术。它让同一个模型在训练中同时扮演“教师”和“学生”两个角色。“教师”可以参考完整的专家示范来深入理解任务,“学生”则需要独立解决问题,并通过与“教师”指导的对比来优化自身,从而实现在高效学习新任务的同时,最大程度地保留原有的知识和技能。

Q2:SDFT方法如何解决AI学新技能忘旧技能的问题?
A:SDFT通过其独特的“在线学习”机制来解决遗忘问题。它让模型基于自身实时生成的数据进行学习和优化,确保了训练分布与应用分布的一致性。这个过程类似于一种温和的引导和校准,而不是用新参数强行覆盖旧参数,使得新获得的能力能够在原有稳固的知识基础上自然地进行拓展和整合,从而有效避免了灾难性遗忘。

Q3:普通人能使用SDFT技术吗?
A:目前,SDFT仍然是一项处于学术研究前沿的技术,主要由人工智能领域的研究人员和专业开发者所使用。然而,随着该技术的不断成熟、优化以及工具链的简化,未来我们日常使用的各类AI产品和服务(如智能助手、内容生成工具等)很可能在底层集成此类持续学习方法。这将使得AI能够在使用中持续进化、变得越来越智能,同时保持其行为的一致性和可靠性,最终惠及广大普通用户。

来源:https://www.techwalker.com/2026/0202/3178302.shtml
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

王腾专注AI睡眠科技今日宜休再获新一轮融资
业界动态
王腾专注AI睡眠科技今日宜休再获新一轮融资

聚光灯亮起,王腾走到了舞台中央。 投资界消息显示,由王腾创立的睡眠健康公司“今日宜休”,近日完成了新一轮融资。本轮融资的领投方为CMC资本与弘晖基金,君礼资本也参与其中。值得注意的是,老股东高瓴创投、云九资本以及瓴智基金均选择了继续加码,超额追投。 这位前小米中国区市场部总经理、Redmi品牌总经理

热心网友
05.12
百度AI智能助手实现电脑手机屏幕拟人化操作
AI
百度AI智能助手实现电脑手机屏幕拟人化操作

想象一下,如果你的电脑或手机能像真人一样看懂屏幕上的内容,知道哪个按钮该点击,哪个输入框该填写,甚至还能帮你完成复杂的多步操作任务,那会是什么样的体验?这听起来像是科幻电影里的情节,但百度前沿研究部门的科学家们已经把这个想法变成了现实。他们开发出了一个名为OmegaUse的智能系统,这个系统能够像人

热心网友
05.12
香港科技大学AI动画技术让涂鸦秒变动画人人皆可创作
AI
香港科技大学AI动画技术让涂鸦秒变动画人人皆可创作

这项由香港科技大学艺术与机器创意学院、计算机科学与工程学院以及香港科技大学(广州)计算媒体与艺术学院联合开展的研究,发表于2026年CHI会议(CHI 26, April 13–17, 2026, Barcelona, Spain),论文编号为ACM ISBN 979-8-4007-2278-3

热心网友
05.12
韩国拟用AI产业超额利润发放全民红利 存储技术成关键
业界动态
韩国拟用AI产业超额利润发放全民红利 存储技术成关键

韩国政府拟设立“公民红利”机制,将人工智能产业超额利润以现金或消费券等形式分配给全体国民。政策室长金容范表示,AI收益依托国家产业基础,应由全民共享,避免过度集中于少数企业与个人。资金计划来自超额税收,而非直接抽取企业利润,旨在让民众直接获益。

热心网友
05.12
微软谷歌xAI安全测试详情遭美国政府网站删除
AI
微软谷歌xAI安全测试详情遭美国政府网站删除

美国商务部官网撤下了一份关键文件,该文件原本记录了其与谷歌、微软及xAI达成的协议,允许政府科学家在AI模型公开发布前进行安全漏洞测试。相关链接已失效或跳转,具体测试条款与删除原因均未获官方解释。

热心网友
05.12

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

Coinbase新手入门指南:分步详解登录认证与首单交易流程
web3.0
Coinbase新手入门指南:分步详解登录认证与首单交易流程

本文旨在为新用户提供一份循序渐进的Coinbase使用指南。建议将学习过程拆分为登录、身份认证和首次交易三个阶段。文章详细介绍了每个阶段的核心操作、注意事项及安全建议,帮助用户在不感到信息过载的情况下,逐步熟悉平台功能,从而更轻松、安全地开启数字资产之旅。

热心网友
05.12
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存
web3.0
Coinbase闪退问题解决指南:检查系统版本权限与清理缓存

Coinbase应用下载后出现闪退,通常与设备系统版本、应用权限或旧缓存文件有关。可先检查手机系统是否满足最低要求,并确保已授予应用必要的存储和通知权限。若问题依旧,尝试清除应用缓存或彻底卸载后重新安装。对于iOS设备,还需确认AppleID地区设置与账户匹配。

热心网友
05.12
红月传奇职业选择指南:哪个职业最强最好用
游戏资讯
红月传奇职业选择指南:哪个职业最强最好用

在《红月传奇》这款经典游戏中,职业选择是决定你游戏体验与成长路线的关键一步。是成为近战无敌的勇猛战士,还是掌控元素的远程法师,或是全能辅助的团队核心道士?不同的职业定位,将带来完全不同的战斗风格、团队职责与成长乐趣。本文将为你深度解析三大职业的核心玩法、技能特色与团队定位,助你精准选择最适合自己的传

热心网友
05.12
战锤40K战争黎明4机械教阵营玩法与兵种解析
游戏资讯
战锤40K战争黎明4机械教阵营玩法与兵种解析

《战锤40K:战争黎明4》的最新实机预告片已经发布,这次的主角是游戏中的全新派系——机械教阵营。没错,就是《战锤40K》宇宙里那个崇拜“万机之神”、痴迷于数据与技术的技术祭司派系。他们正式登场,意味着战场上的科技天平将发生显著倾斜。 从定位上看,机械教是一个高机动性、擅长远程打击的阵营。他们依靠各种

热心网友
05.12
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏
游戏资讯
索尼AI专利实现游戏精彩瞬间自动捕捉 告别手动录屏

对于广大游戏爱好者而言,记录并分享游戏中的精彩瞬间——无论是多人竞技中的极限操作,还是单人剧情中击败强大BOSS的激动时刻——已成为日常游戏体验的一部分。然而,传统的录屏、回放、剪辑与导出流程,往往操作繁琐、耗时费力。近日,索尼互动娱乐的一项新专利显示,他们正致力于利用人工智能技术,从根本上革新这一

热心网友
05.12