首页 游戏 软件 资讯 排行榜 专题
首页
AI资讯
FlashAR高效微调技术:0.05%数据激活自回归图像模型

FlashAR高效微调技术:0.05%数据激活自回归图像模型

热心网友
53
转载
2026-05-24

大语言模型的突破性进展,使得“下一个词预测”这一核心范式成功扩展至图像生成领域。通过将图像编码为离散的视觉标记,并像预测文本序列一样逐个生成,自回归模型已成为图像生成的主流方法之一。从早期的PixelCNN、iGPT,到近期备受关注的Emu3.5、LlamaGen,自回归模型的图像生成质量已全面对标,甚至在部分细节和可控性上超越了扩散模型。

然而,自回归模型始终面临一个难以回避的性能瓶颈:生成速度过慢。传统的光栅扫描解码方式,严格遵循从左到右、从上到下的顺序,每一步仅能生成一个标记。生成一张512×512分辨率的图像,需要完成32×32=1024步的串行推理,单次生成耗时常常超过两分钟。其延迟与图像分辨率呈线性增长,使得GPU强大的并行计算能力无从发挥。在高分辨率生成和实时交互应用中,这种速度瓶颈严重制约了其实用价值。

为了攻克这一难题,研究社区提出了多种加速方案,但各自存在明显局限:

一是彻底重构生成范式,例如VAR的“下一尺度预测”或NAR的“近邻预测”。这类方法能大幅减少解码步数,但代价是需要从零开始预训练一个全新模型,无法迁移利用现有的大规模预训练权重,导致训练成本极其高昂。

二是通过离散扩散进行适配,如Emu3.5原论文采用的DiDA方法。它通过后训练将自回归模型转化为支持并行解码的离散扩散模型。但这种方法改变了模型原始的预测目标,导致预训练与推理阶段存在不一致性,通常会显著损害生成质量。在我们的复现测试中,Emu3.5经过Block Diffusion后训练后,其生成评估分数出现了较为明显的下滑。

三是采用推测解码等无需训练的加速插件,但其实际加速效果严重依赖于草稿模型的“接受率”,加速上限存在明显天花板。

这引出了一个关键的研究问题:是否存在一种方法,能够在不重新训练、也不改变模型原始学习目标的前提下,将已训练好的高性能自回归模型,高效地改造为高度并行的图像生成器,同时完整保留其强大的生成能力?

近期,来自浙江大学与阿德莱德大学的研究团队给出了一个令人瞩目的解决方案:FlashAR。这是一个极其轻量化的后训练加速框架。它无需从头训练,在拥有340亿参数的巨型模型Emu3.5-Image-34B上,仅使用了原始训练数据的0.05%(约8万张图像),便成功将预训练好的自回归模型改造为高度并行的生成器Emu3.5-34B-Flash,实现了最高22.9倍的端到端加速比。





核心原理:从“串行生成”到“对角线并行解码”

传统的自回归图像生成遵循严格的光栅扫描顺序,如同阅读文字,每一步只预测水平方向的下一个视觉标记。对于一张由H行W列标记构成的图像,生成需要H×W步。

FlashAR的巧妙创新在于,它深刻利用了图像的二维空间特性。如果能让模型同时具备预测“水平方向下一个标记”和“垂直方向下一个标记”的能力,那么在每一个解码步骤中,水平与垂直两个预测头便可并行工作。由此,总解码步数将从H×W急剧减少至H+W-1步。以512×512分辨率(标记化为32×32网格)为例,解码步数从1024步骤降至63步,实现了数量级的效率提升。

随之而来的核心挑战是:如何让一个仅经过“水平方向”预测训练的模型,快速学会“垂直方向”预测?FlashAR通过三个核心组件解决了这一问题。



1. 中间层分支设计

FlashAR并未将新增的垂直预测头直接连接到预训练模型的最终输出层,而是选择从模型的中间层“分叉”,引出一条全新的并行支路,使其与原有的水平预测头协同工作。

为何不直接使用最终层?原因在于:经过完整预训练后,最终层的特征表示已高度特化,完美适配了水平方向的光栅扫描预测任务。这种“专精化”虽然带来了强大的原始生成能力,但也意味着其表征空间可能不再适合直接学习一个全新的垂直预测任务。相比之下,模型中间层的特征通常保留了更丰富、更通用的二维空间结构信息,从此处引出新分支来适配垂直预测,学习效率更高、效果更好。

这一设计还带来了额外优势:从中间层分支后,垂直预测头的计算可与原有分支并行进行,这为模型整体的推理吞吐量提供了进一步的优化空间。消融实验也验证了该设计的合理性:通过对预训练模型不同层的特征进行线性探测评估,发现最终层特征确实不是垂直预测任务的最佳选择,从而支持了中间层分支的策略。



2. 可学习自适应融合门

水平与垂直方向的预测,分别建模了图像在二维空间上互补的依赖关系。它们的相对重要性,在不同图像区域和不同生成阶段很可能动态变化。基于此洞察,FlashAR引入了一个轻量级的多层感知机作为“自适应融合门”。该门控网络能够在每个空间位置的粒度上,智能地融合两个方向的预测结果,避免了固定权重平均可能导致的预测模糊,实现了更精准的生成控制。

3. 渐进式两阶段适配训练

为确保后训练过程的稳定性与数据利用的高效性,FlashAR采用了渐进式的两阶段训练策略:

第一阶段,冻结庞大的预训练骨干网络所有权重,仅优化新添加的垂直预测头,使其快速习得有意义的垂直方向预测能力。第二阶段,解冻骨干网络,联合微调垂直预测头及部分骨干参数,使整个模型更好地适应全新的“对角线并行”解码范式。

在推理部署阶段,FlashAR还集成了硬件感知的优化管线:利用FlexAttention动态编译稀疏的二维近邻注意力掩码,并配合批量化更新KV缓存技术,确保理论上的并行性能够切实转化为端到端的实际加速收益。

实验效果与性能评估

Emu3.5-Image-34B 加速表现

将FlashAR应用于340亿参数的“巨无霸”模型Emu3.5,是对其框架普适性与有效性的严格检验。



实验结果令人印象深刻:仅使用0.05%的原始训练数据(约8000万标记,对应8万张图像),FlashAR便将512×512图像的生成时间从130.10秒大幅缩短至5.68秒,实现了22.9倍的加速。更为关键的是,这种加速几乎未牺牲生成质量。在GenEval综合基准测试中,FlashAR的总分仅微降0.19分(从80.48降至80.29),而在颜色准确性与物体位置两个具体子项上,其分数甚至超过了原始模型。作为对比,BlockDiffusion方法在相同设置下,生成质量出现了显著下降。

ImageNet 类别条件生成基准测试

在ImageNet 256×256的标准条件生成测试中,FlashAR在四种不同模型规模上全面超越了现有的后训练加速方法BlockDiffusion。



其中几个亮点尤为突出:

FlashAR-L模型的Inception Score达到了289.0,甚至超过了需要从头训练的NAR-L模型(263.9),而FlashAR仅需轻量级后训练。FlashAR-B模型实现了每秒447.2张图像的吞吐量,超越了NAR-B模型(419.7 img/s)。FlashAR仅需25个训练周期,这仅为BlockDiffusion所需训练量的三分之一,数据效率极高。

FlashAR 高效性的关键因素

综上所述,FlashAR的成功源于多个核心优势的协同作用:

它完全复用现有的大规模预训练模型,避免了昂贵的从头训练,极大降低了计算成本与门槛。数据利用效率极高,仅需万分之五的原始数据即可完成有效适配。在实现惊人加速比的同时,生成质量保持近乎无损,部分评估指标还有所提升。框架通用性强,已在不同模型架构与规模上得到有效验证。最终实现了显著且可实际部署的端到端加速,推动自回归视觉模型走向实用化。

FlashAR的研究证明了一个重要结论:通过精心设计的、轻量级的后训练适配,完全可以在几乎不改变模型原始训练目标的前提下,将串行的自回归模型,高效地改造为高度并行的图像生成器,并完整继承其强大的预训练先验知识。这为大规模自回归视觉模型在实际场景中的高效部署与应用,开辟了一条极具前景的新路径。

来源:https://www.163.com/dy/article/KTNA7SNQ0511AQHO.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

FlashAR高效微调技术:0.05%数据激活自回归图像模型
AI资讯
FlashAR高效微调技术:0.05%数据激活自回归图像模型

自回归图像生成模型质量高但速度慢。FlashAR框架通过轻量级后训练,仅用0 05%数据即可将预训练模型改造为并行生成器。其核心是让模型同时预测水平和垂直方向标记,将解码步数从H×W降至H+W-1,实现最高22 9倍加速且生成质量几乎无损。该方法无需从头训练,显著提升了自回归模型的实用价值。

热心网友
05.24
ARB币强势回归:以太坊 Layer 2 红利加速新一轮上涨
web3.0
ARB币强势回归:以太坊 Layer 2 红利加速新一轮上涨

ARB币强势回归:深度解析以太坊 Layer 2 领跑者的上涨逻辑 2025年8月,加密市场迎来高光时刻。比特币历史性突破124,000美元,市值跻身全球资产前五,为整个赛道注入了强劲动能。在此背景下,以太坊Layer 2板块表现尤为突出,成为资金聚焦的核心。作为该赛道的绝对龙头,Arbitrum原

热心网友
04.03
女科学家生育后如何重返科研并获5万元资助
科技数码
女科学家生育后如何重返科研并获5万元资助

“生育不是科研一线工作道路的终点。”中国科学院上海微系统所研究员王茹雪近日在一场三八妇女节活动上这样分享道。在今年两会上发布的“十五五”规划中,尤其强调积极应对人口老龄化和建设生育友好型社会。作为为

热心网友
03.08
当生育撞上科研黄金期:“科嫦”计划如何为女性学者续航
科技数码
当生育撞上科研黄金期:“科嫦”计划如何为女性学者续航

她们习惯了凌晨五点半的闹钟也习惯了在孩子熟睡后深夜推敲数据……当创新活力爆发的黄金期,与生育期不可避免地“相遇”,如何不让优秀的科研女性因生育而掉队?在“科创之城·巾帼骐骥”——2026年上海市科技

热心网友
03.06
顶级IP回归:这部R级电影为何如此疯狂
娱乐
顶级IP回归:这部R级电影为何如此疯狂

一部《惊变28天》把末日恐慌拍出了新高度。去年,《惊变28年》上线,从28天沦陷到28年荒芜,依旧血腥狂暴。最近,这部R级邪典大片再度回归了!《惊变28年2:白骨圣殿》 病毒爆发已经过去整整二十八年

热心网友
02.24

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

香港Solana ETF即将上市 即时指数基金点燃加密市场投资热潮
web3.0
香港Solana ETF即将上市 即时指数基金点燃加密市场投资热潮

香港金融市场即将迎来备受瞩目的Solana现货ETF,这一举措预示着投资者将能通过传统证券交易所更便捷地参与到Solana的投资中。此举不仅为Solana生态系统注入了新的活力,也可能引发新一轮的数字资产投资热潮。 一、解读Solana ETF:连接传统与未来的桥梁 简单来说,Solana ETF是

热心网友
05.24
Solana币是什么在哪里买 2024年SOL币购买交易平台推荐
web3.0
Solana币是什么在哪里买 2024年SOL币购买交易平台推荐

高性能公链Solana(SOL)入门指南:技术解读与主流购买渠道 在区块链技术快速演进的今天,一个旨在解决可扩展性难题的公链脱颖而出,它就是Solana。本文将为您系统梳理Solana的核心技术特点,并介绍如何通过主流交易平台获取其原生代币SOL,助您全面认识这一高性能网络。 一、Solana(SO

热心网友
05.24
侠义神器属性详解第六期全攻略
游戏攻略
侠义神器属性详解第六期全攻略

本期介绍了《侠义OL》中扇、手、戟、刃四件神秘级别神器的属性。阴阳八卦扇与灭世龙牙刃攻击力均为1804点,玄武伏魔手为1255点,鬼神方天戟则以2039点居首。四者均需50级佩戴,且各附有25点待激活的神秘属性,潜力巨大,值得玩家深入探索与搭配。

热心网友
05.24
侠义OL龙魂熔炼系统详解与玩法攻略
游戏攻略
侠义OL龙魂熔炼系统详解与玩法攻略

龙魂是锻造顶级神兵“八神兵器”的核心。熔炼从基础龙魂碎片开始,逐步合成初级、中级、高级龙魂,需消耗游戏币与前置材料。龙魂之上可淬炼龙元与高级龙元,需特定材料。所有兑换均需寻找临安城的欧冶子传人完成。

热心网友
05.24
雷霆骑士团新手入门完全攻略指南
游戏攻略
雷霆骑士团新手入门完全攻略指南

《雷霆骑士团》新手需合理规划资源:前期优先培养橙色主力,紫色佣兵无需全员升阶。佣兵升级与装备强化可无损继承,可放心投入。卡关后使用快速探险与资源副本,收益更高。钻石优先用于快速探险和主城征收,46级后再投入英雄召唤。日常半价招募令及高折扣急需资源可酌情购买。

热心网友
05.24