阿里与港科大突破AI绘图模型灾难性遗忘难题实现快速出图
这项由香港科技大学、阿里巴巴Z-Image团队、加州大学圣地亚哥分校和香港中文大学联合完成的研究,以技术报告形式发布于2026年5月,论文编号为arXiv:2605.05204。对于技术细节感兴趣的同行,可以通过这个编号在arXiv平台上查阅全文。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

一、当AI画师学了新技能,却忘了怎么快速出图
如今,像Z-Image-Turbo和FLUX.2-klein这类“快速出图模型”或“快速文生图模型”已经成了行业宠儿。它们经过特殊的“提速训练”或“蒸馏优化”后,只需四步或八步迭代,就能生成一张高质量的图像,效率远超过去需要几十甚至上百步的老式扩散模型,质量却毫不逊色。
但一个核心问题也随之而来。当你想让这些“快枪手”学习点新知识——比如记住某个特定玩偶的模样(即概念定制),或者掌握一种独特的艺术风格(即风格微调)——麻烦就出现了。沿用传统的微调方法给模型“补课”,往往会严重损害其快速出图的能力。原本四步就能勾勒出的清晰画面,学完新知识后,可能退化成一团模糊的涂鸦,需要更多步骤才能勉强成型,这被称为“灾难性遗忘”或“能力退化”。
这就好比一位能用寥寥数笔完成精准素描的画家,在上完一堂新技法课后,反而需要反复涂抹上百笔才能画出一幅像样的作品,原有的灵巧与效率荡然无存。
研究团队将这个问题称为“训练测试不一致”。其根源在于,常规的微调方法,是将加了噪声的目标图像塞给模型,让它学习从这些被污染的“错误起点”预测回干净图像。然而,这些人为构造的噪声状态,与模型在实际快速出图时经历的那几个关键步骤,根本不在同一条轨迹上。模型在“错误的道路”上学到的东西,自然无法在“正确的道路”上发挥作用,甚至会扰乱原有的出图节奏和采样动力学。
于是,核心挑战变得明确:必须找到一种方法,让快速出图模型能够持续学习新知识,同时绝不牺牲其赖以成名的“快准稳”天赋。
二、“强化学习”的路走不通,“普通补课”的路又太窄
在介绍最终方案前,不妨先看看那些被排除的选项,理解为什么看似合理的路径都行不通。
首先想到的是强化学习。既然普通微调会打乱节奏,那么让模型在自己真实的出图过程中,通过“试错-奖励”来学习,是否可行?理论上,这条路确实不会损伤快速出图能力,因为模型始终在自己实际行走的轨迹上学习。
但强化学习有个致命前提:你需要一个精准的“评分官”(即奖励模型),来告诉模型什么样的图是好图。这对于资源雄厚的大公司或许不是问题,但对于广大的开发者和创作者而言,他们通常只有一批图文配对数据,根本没有条件去训练一个复杂的奖励模型。
因此,一个更贴近现实的目标被提了出来:解决方案必须仅依赖普通的图文对数据,无需任何额外评分工具;同时,训练必须发生在模型真实的出图轨迹上,以避免路线偏差。这听起来像是“既要马儿跑,又要马儿不吃草”,但研究团队确实找到了一个巧妙的突破口。
三、一个意外发现:模型天生就有“参照临摹”的能力
转机来自对模型架构本身的深入观察。新一代快速出图模型与早期模型有一个关键区别:它们的文本编码器不再是单纯的T5或CLIP,而是换成了大语言模型或多模态大模型。这就好比早期的模型只有一个“文字秘书”,而新模型的秘书升级成了“图文通才”。
研究团队做了一个简单却关键的实验:他们将一张目标图像和一段文字描述同时输入这个“通才秘书”,得到一个融合了图文信息的“多模态特征”,再用这个特征去引导模型出图;同时,他们也测试了仅输入文字描述的“纯文本特征”情况。
对比结果令人惊喜。当模型接收到“多模态特征”时,即使未经任何额外训练,其生成的图像也会自发地保留目标图像的概念风格或视觉特征。例如,目标图是一只毛绒玩具狼,生成的图像就会出现造型相似的毛绒狼;目标图是某种港口色调,生成的图像也会呈现类似的色彩氛围。模型似乎天生就具备“参照临摹”的潜力,这为后续的“自蒸馏”训练提供了可能。
这个发现打开了新思路:既然模型可以通过“参照特征”获得更强的出图指导,那么何不利用这一点,构建一个“老师”,来教导同一个模型在仅使用“文字特征”时,如何学习新知识?
四、D-OPSD:让同一个模型同时扮演学生和老师
基于上述洞察,研究团队提出了D-OPSD(在线策略自蒸馏)方法。其核心思想可以用一个学画场景来类比。
想象一位画家,平时接单只收到文字描述(如“一只坐在木地板上的狼形玩具”),然后凭理解创作。而在培训时,教练会在旁边放一张参考照片,让他对照着画,自然能画得更像。D-OPSD的做法是:在训练期间,让这位画家“一人分饰两角”——一个是只看文字描述作画的“学生”(正常出图模式),一个是同时参照目标图片和文字描述作画的“老师”(增强模式)。学生按照自己平时的四步节奏画出一幅草稿,老师则在同样的这四个步骤上,基于更全面的信息做出自己的判断。最终,用老师的判断来纠正学生的判断,引导学生向老师靠拢。
关键在于,整个学习过程始终发生在学生自己真实的出图轨迹上。老师并没有从一个被噪声污染的、与正常出图完全不同的起点去指导学生;而是和学生站在同一条路的同一位置,只是手里多拿了一张“参考照片”,从而能给出更具指导性的建议。这就彻底避免了“训练路线”与“出图路线”的偏差,保住了快速出图的能力。
从技术实现看,模型在每个出图步骤都会预测一个“速度方向”,决定图像如何从噪声演变为清晰画面。D-OPSD让学生和老师在同一个步骤、同一个状态点上,分别预测速度方向,并通过最小化两者差异来训练学生。老师的参数通过指数移动平均技术从学生参数平滑更新而来,这保证了老师既能追踪学生的进步,又不会因学生的单次波动而剧烈变化,确保了训练稳定性。
这一机制在语言模型领域早有先例——“在线策略自蒸馏”已在大型语言模型的持续学习中验证有效。D-OPSD的贡献在于,成功地将这一思路迁移到图像生成领域,并解决了最关键的难题:如何在不破坏出图轨迹的前提下,将目标图像的信息有效引入训练过程。
五、实验验证:新知识学到了,老本领也没丢
研究团队在Z-Image-Turbo和FLUX.2-klein两个主流快速出图模型上,对D-OPSD进行了全面测试,涵盖小规模概念定制与大规模风格微调两种场景。
在小规模定制(约4张图)测试中,目标是让模型记住如特定毛绒玩具等概念,并在全新场景描述中生成它。评估指标包括概念相似度、文本跟随能力、图像质量与美感等。
结果显示,在Z-Image-Turbo上,D-OPSD在图像质量与美感分数上显著优于传统微调方法,证明其快速出图能力得到了完好保留。在概念学习上,D-OPSD与当时先进的PSO方法在相似度上持平,但在文本跟随能力上大幅领先,这表明D-OPSD学到的概念能更好地迁移到训练集未见过的新场景中,而PSO则出现了过拟合,换描述就不灵了。在FLUX.2-klein模型上也观察到高度一致的优势。
在大规模风格微调(2.5万张动漫图)测试中,目标是让模型偏向动漫风格,同时不忘旧识。除了风格相似度,还增加了FID指标以及Geneval、DPG等综合基准来评估模型原有知识的保留情况。
结果更具说服力。D-OPSD微调后的模型,其FID分数远优于其他方法,甚至接近未微调的基础模型,说明风格学习成功且分布自然。更重要的是,在Geneval和DPG基准上,D-OPSD模型的得分与基础模型差距很小,而传统微调方法得分则大幅下滑,意味着后者在学新风格时几乎遗忘了大量原有知识。这清晰地证明了D-OPSD在实现持续学习上的有效性。
六、消融实验:拆开每个零件,看看各自的贡献
为了厘清D-OPSD各个组件的作用,研究团队进行了一组“拆解”实验,对比了四种训练方案:1)传统目标图像流匹配训练;2)用“老师”生成的样本做流匹配训练;3)在固定数据集上让学生对齐老师预测;4)完整的D-OPSD(在学生自身轨迹上对齐老师)。
实验结果通过两条曲线清晰呈现。在图像质量曲线上,传统方法随着训练步数增加持续下滑,印证了“能力受损”问题;而三种涉及“老师”的蒸馏方案,质量均保持稳定甚至提升,说明蒸馏思路本身是保护出图能力的关键。在概念相似度曲线上,完整的D-OPSD收敛速度最快,学习效率最高。
此外,关于“老师”模型的构建方式也经过了精细调试。直接使用学生副本会导致训练崩溃;使用冻结的原始模型作为老师则效果有限;最终,采用高平滑系数的指数移动平均来更新老师参数,取得了最佳效果,能够在保持训练稳定的同时,有效追踪学生的学习进程。
七、技术细节:为什么直接换个VLM编码器行不通
在工程实现中,团队遇到了一个具体挑战。Z-Image-Turbo和FLUX.2-klein都使用Qwen3-4B作为文本编码器。为了让“老师”能处理多模态输入,最直接的想法是将编码器替换为对应的多模态版本Qwen3-VL-4B。
但测试发现,直接替换会导致生成图像出现高频噪点和过度锐化。问题根源在于“特征空间不一致”:Qwen3-VL虽然基于Qwen3-LM继续训练,增强了多模态能力,但其输出的特征分布已经与绘图模型最初训练时所适应的分布发生了偏离。
解决方案颇具创意:进行“参数拼接”。保留Qwen3-VL的视觉感知部分,但将其语言处理部分的参数替换回Qwen3-4B的参数。这样,模型保留了理解图像的能力,同时输出的特征分布又重新对齐了绘图模型的训练环境。这相当于将VLM“回退”到视觉能力已具备、但语言参数尚未大幅更新的一个中间状态,虽然多模态理解稍弱,但对绘图模型更为友好。
可以预见,随着“原生多模态”架构成为语言模型的主流,未来编码器从一开始就在统一框架内训练,这种特征空间偏离问题将自然消失,D-OPSD的实现也会更加简洁。
八、还有哪些事情做不到,以及未来能走向哪里
研究团队对方法的局限性保持了坦诚。
首先,D-OPSD的训练成本大约是普通微调的两倍(每次迭代需同时计算学生和老师的轨迹),计算量约为四倍。但这个代价被认为是值得的,因为若采用普通微调,之后通常需要额外的“提速蒸馏”来恢复快速出图能力,总体算来D-OPSD反而可能更经济。
其次,方法的有效性依赖于“老师”的能力。如果“老师”模式本身就无法根据给定的多模态特征生成有意义的图像变体(例如,目标是一个特定角色,老师却只生成了普通背景),那么整个训练就会失败,因为老师无法提供有效的指导信号。
展望未来,有几个方向值得探索:可以引入图像编辑或视频生成模型来构建更强的“老师”侧参考信号;可以将D-OPSD与其他训练约束相结合以提升效果;还有一个有趣的设想,即先训练多个不同领域的“专家模型”,再通过D-OPSD将它们的知识蒸馏回一个统一的“基础模型”,实现多能力聚合。
归根结底,这项研究解决了一个看似简单、实则棘手的难题:如何让一个已经掌握“快速出图”内功的AI画师,还能持续学习新题材而不伤及根本。答案的核心是:让模型在自己真实的出图道路上,接受一个“更强自己”的指导,步步为营,稳健进化。
对于开发者和使用者而言,这意味着未来定制专属的快速出图AI时,或许不再需要在新知识学习与速度质量保持之间做痛苦权衡。一个既快又好、还能持续成长的AI画师,正变得越来越触手可及。
Q&A
Q1:D-OPSD方法为什么不会损坏快速出图模型的出图能力?
A:根本原因在于,D-OPSD的训练始终锚定在模型自己真实的四步或八步出图轨迹上。老师和学生都在模型实际行走的路径上进行比较和优化,因此不会干扰其固有的高效采样节奏。相比之下,传统微调是在一条模型从未也不会经历的、由噪声图像构造的路径上学习,自然会破坏原有的出图动力学。
Q2:D-OPSD训练时老师和学生有什么区别?
A:老师和学生本质是同一套模型参数的不同“模式”。学生模式仅接收文本特征输入,与模型正常推理时完全一致;老师模式则接收融合了目标图像信息的“多模态特征”输入,因此能基于更全面的参考信息做出预测。训练的目标是让学生在自己出图的每一步上,其预测方向都逐渐向老师的预测方向对齐,从而将目标图像的信息内化到学生模型中。
Q3:PSO方法和D-OPSD有什么本质差异,为什么PSO会过拟合?
A:核心差异在于训练数据的来源。PSO方法的训练状态和监督信号仍然来源于由目标图像构造的固定数据集,这些状态并非模型当前出图策略所产生的。因此,模型学到的是如何复现训练集中那些特定状态,缺乏泛化性,遇到新的文本描述时表现就会下降。而D-OPSD始终基于模型自身当前出图策略所产生的实时轨迹进行学习,学到的知识更具普适性,能够更好地迁移到未见过的场景描述中。
相关攻略
阿里巴巴公布2025财年第四季度业绩,收入达2433 8亿元,同比增长3%;净利润为254 76亿元。淘天集团线上GMV实现双位数增长,用户活跃度提升。国际数字商业收入大幅增长45%,云智能收入小幅增长3%,菜鸟与本地生活服务也取得进展。全年总收入为9411 68亿元。公司将继续聚焦用户与AI战略,推动核心业务增长。
路线规划已成为现代生活的核心组成部分。无论是赶早班机时精准计算通勤时间,还是周末出游前规划避开拥堵的最佳路径,我们早已习惯依赖导航应用提供解决方案。如今,随着大语言模型技术的快速发展,一种更智能的出行助手正逐渐走进现实——它们不仅能理解用户的自然语言指令,还能主动调用各类地图工具,为用户量身定制个性
你是否曾在进行复杂信息搜集时,打开无数浏览器标签页,却很快迷失在信息的海洋中,忘记了自己已经找到了什么、还需要寻找什么?面对海量、零散的搜索结果,你是否感到无从下手、难以整理?这不仅是普通用户的困扰,也是当前AI信息搜索系统面临的普遍挑战——在应对长期、复杂的多步骤搜索任务时,AI同样会“迷失方向”
面对一道数学难题时,我们常常会本能地选择最有效的思考方式:有时需要画一张草图来辅助空间想象,有时则完全依赖严密的逻辑推演。这种在不同思维模式间无缝切换的能力,是人类认知的显著优势。然而,对于当前绝大多数人工智能模型而言,这种灵活性却是一个巨大的挑战。它们通常被限制在单一的“思维轨道”上,要么只能处理
这项由阿里巴巴云计算团队主导的创新研究于2026年1月正式发布,详细论文已收录于arXiv平台,编号为arXiv:2601 09088v1。对于希望深入探究技术细节的读者,可通过此编号查阅完整的学术论文。 提升人工智能的推理能力,核心在于培养其深层次的“思考力”。传统的主流方法类似于让学生机械背诵标
热门专题
热门推荐
以太坊网络交易活跃度是衡量其生态健康与市场流动性的关键指标。本文分析了影响ETH成交活跃度的核心因素,包括网络性能、Gas费用及用户行为。通过梳理当前主流交易平台的特点,展望了至2026年可能影响排名的技术趋势与市场格局,为参与者提供长期观察视角与决策参考。
欧易OKX是全球知名数字资产交易平台,提供现货、合约等多种交易模式及理财服务。用户可通过官方网站或官方应用商店下载正版App,确保访问安全。注册需完成手机或邮箱验证及身份认证。平台功能包括多元交易、专业行情工具、多重安全验证及跨平台数据同步,保障用户资产安全与操作便捷。
选择可靠平台是加密货币投资的关键。币安交易量领先,OKX衍生品突出,Gate io资产丰富。火币在亚洲市场稳定,Coinbase以合规安全著称。Bybit专注衍生品,Bitget提供复制交易功能。KuCoin资产种类多,Kraken安全体系完善,MEXC支持资产超2000种。各平台特色不同,需根据自身需求综合选择。
本文从BTC现货深度这一核心指标出发,探讨其对衡量交易平台综合实力的重要性。通过分析深度数据的构成与意义,并结合市场流动性、用户信任与平台生态等维度,对2026年主流数字资产交易所的潜在格局进行展望。深度不仅是交易体验的保障,更是平台技术、风控与长期运营能力的集中体现,是投资者选择平台时不可忽视的关键参考。
火币HTX全球站提供官方网址入口及安卓与iOS客户端安装指引。安卓用户需从官网下载安装包,并在系统设置中允许安装。iOS用户可直接通过AppStore下载安装。应用安装后需注册账户并完成邮箱验证,之后即可登录进行数字货币交易。





