FlashAR高效微调技术：0.05%数据实现22.9倍图像生成加速

首页

AI资讯

热心网友

转载

2026-05-24

大语言模型的突破性进展，使得“下一个词预测”这一核心范式成功地从文本领域扩展至图像生成领域。其基本原理是将图像编码为离散的视觉标记（token），然后以自回归的方式逐个预测，如同完成一幅视觉拼图。从早期的PixelCNN、iGPT，到近期的Emu3.5、LlamaGen，自回归图像生成模型的质量已大幅提升，在多项任务上甚至媲美或超越了当前主流的扩散模型。

然而，一个显著的性能瓶颈也随之凸显：生成速度过慢。传统的自回归模型采用光栅扫描顺序解码，即从左到右、从上到下逐token生成。这种串行方式导致生成一张512×512分辨率的图像（通常对应32×32=1024个视觉token）需要执行上千步顺序推理，单卡耗时往往超过两分钟。其延迟与图像分辨率呈线性增长，却无法充分利用GPU强大的并行计算能力。这严重制约了其在需要高分辨率输出或实时交互场景下的实际应用与部署。

现有加速方案及其局限

为了攻克这一效率难题，研究人员探索了多种技术路径，但各自存在明显短板：

重构生成范式：例如VAR的“下一尺度预测”、NAR的“近邻预测”或PAR的分组并行解码。这些方法能显著减少解码步数，但核心问题在于，它们通常需要从零开始预训练全新的模型，无法直接迁移和利用现有的大规模预训练自回归模型，导致训练成本极其高昂。
离散扩散适配：以Emu3.5中采用的DiDA（离散扩散适配）为代表。该方法通过后训练将自回归模型转换为支持并行采样的离散扩散模型。但其代价是改变了模型原始的预测目标函数，造成预训练任务与推理任务之间的不一致，往往导致生成图像质量出现可感知的下降。
推测解码：作为一种无需额外训练的“即插即用”加速技术，其实际加速效果高度依赖于草稿模型的预测准确率（接受率），加速上限相对有限，难以实现数量级的提升。

因此，一个关键的研究问题亟待解决：能否在不重新训练、也不改变模型原始学习目标的前提下，将已训练成熟的自回归模型，高效地改造为支持高度并行化的生成器，并完全保留其卓越的生成能力？

近期，来自浙江大学与阿德莱德大学的研究团队提出了一个突破性的解决方案：FlashAR。这是一个极其轻量化的后训练加速框架。无需从头预训练，仅需利用原始训练数据的极小部分（例如，在拥有340亿参数的Emu3.5-Image-34B模型上，仅使用约0.05%即8万张图片），即可将预训练好的自回归模型转化为并行生成器，实现最高达22.9倍的端到端生成加速。

核心原理：从“串行逐个”到“对角线并行”

理解FlashAR的巧妙设计，需从传统自回归模型的工作机制入手。它们严格遵循一维光栅扫描顺序，每一步仅预测当前token右侧的下一个token。对于一张由H行W列token构成的图像，总共需要H×W步才能完成生成。

FlashAR的关键洞见在于：图像本质是二维结构。如果能让模型同时具备预测“右侧”和“下方”相邻token的能力，那么在每一个解码步，模型就可以沿着图像的对角线方向，并行预测一整批token。如此一来，总解码步数将从H×W急剧减少至H+W-1步。以512×512分辨率（token网格为32×32）为例，解码步数从1024步降至仅63步，理论加速潜力巨大。

那么，如何让一个只学过“向右看”的模型，快速学会“向下看”？FlashAR通过三个精心设计的核心组件实现了这一目标。

1. 中间层特征分支

FlashAR并未简单地将新增的垂直预测头连接到预训练模型的最后一层。相反，它选择从模型的中间网络层引出分支，构建一条与原有水平预测头并行的新支路。

为何不直接使用最终层特征？原因在于，经过充分预训练后，模型最终层的特征表示已高度特化，专精于原始的水平方向预测任务，但其空间信息的通用性和灵活性可能有所减弱。相比之下，模型中间层的特征通常保留了更丰富、更通用的二维空间上下文信息，因此更适合作为学习新预测方向（垂直方向）的起点。

这一设计还带来额外优势：由于从中间层就开始分支，垂直预测头的计算可以与原有水平分支的计算并行执行，这为进一步提升整体推理吞吐量创造了条件。

2. 自适应融合门控机制

水平与垂直两个方向的预测，实际上分别建模了图像中互补的空间依赖关系。它们的相对重要性在不同图像区域、不同空间位置应是动态变化的。基于此，FlashAR引入了一个轻量级的多层感知机（MLP）作为可学习的融合门控。该模块能在每个token的位置上，自适应地学习如何加权融合两个方向的预测结果，从而避免了简单平均池化可能导致的细节模糊，实现了更精准的预测融合。

3. 渐进式两阶段适配训练

为确保后训练过程的稳定性与数据高效性，FlashAR采用了渐进式的两阶段训练策略：

第一阶段（垂直头训练）：完全冻结预训练好的骨干网络权重，仅训练新添加的垂直预测头，使其快速学习有意义的垂直方向预测能力。
第二阶段（联合微调）：解冻骨干网络的部分层（通常是靠近分支的层），与垂直预测头进行联合微调，使整个模型更好地协同适应新的并行解码范式。

在推理部署阶段，FlashAR还集成了硬件感知的优化技术。例如，利用FlexAttention动态编译稀疏的二维近邻注意力掩码，并结合批量化键值（KV）缓存更新策略，确保理论上的并行性能够高效转化为实际的端到端加速收益。

实验效果与性能评估

Emu3.5-Image-34B模型加速表现

将FlashAR应用于参数量高达340亿的Emu3.5模型，是对其扩展能力的严格检验。实验结果令人印象深刻：

仅使用0.05%的原始训练数据（约8万张图片）进行适配，FlashAR便将512×512图像的生成时间从130.10秒大幅缩短至5.68秒，实现了22.9倍的端到端加速。更为关键的是，这种加速几乎未牺牲生成质量。在综合评估基准GenEval上，FlashAR模型的总分仅比原始模型微降0.19分（从80.48降至80.29），且在“颜色准确性”和“物体位置”两个子项上，得分甚至超过了原始模型。作为对比，同样采用后训练方式的BlockDiffusion方法，在相同设置下性能下降显著，GenEval总分降至73.83。

ImageNet类别条件生成基准测试

在ImageNet 256×256类别条件生成标准测试中，FlashAR在四种不同模型规模（Base, Large, XL, XXL）上均全面超越了现有的后训练加速方法BlockDiffusion。

其中几个突出亮点包括：

FlashAR-L模型的Inception Score (IS)达到了289.0，这一分数甚至超过了需要从头开始训练的NAR-L模型（263.9），而FlashAR仅需轻量级后训练。
FlashAR-B模型的生成吞吐量高达447.2 img/s，超过了NAR-B模型的419.7 img/s。
FlashAR仅需25个训练周期即可收敛，这仅为BlockDiffusion所需训练周期的三分之一，数据效率极高。

FlashAR高效性的核心优势总结

综上所述，FlashAR的成功源于其以下几大核心优势：

免于从头训练：直接复用现有强大的预训练自回归模型，站在巨人肩膀上。
数据利用极致高效：仅需极少量数据（如0.05%）进行轻量适配，大幅降低计算成本。
生成质量无损保持：在实现数量级加速的同时，图像生成质量几乎无损，部分指标还有提升。
框架通用性强：其有效性已在从1.2亿到340亿参数的不同规模模型（如LlamaGen, Emu3.5）上得到广泛验证。
实际加速效果显著：最高22.9倍的端到端加速比，使得高分辨率自回归图像生成具备了实际应用价值。

FlashAR的研究工作证明了一个重要观点：通过精巧的后训练适配架构设计，我们完全可以在几乎不改变原始模型核心学习目标的前提下，将串行解码的自回归模型，高效地改造为支持高度并行的强大生成器。这为释放大规模预训练自回归视觉模型在实用场景中的巨大潜力，开辟了一条高效、可行且极具前景的新路径。

来源:https://www.jiqizhixin.com/articles/2026-05-23-8

免责声明：游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

上一篇：音视频智能综述大模型时代AVI研究全景解析下一篇：Bengio新研究突破递归推理瓶颈并行计算效率远超传统方法

热门推荐

AI资讯

AI Agent能力进化平台水产市场实用技能全解析

水产市场是什么在AI Agent的生态中，能力共享与协同进化是核心驱动力。水产市场（Seafood Market）正是为OpenClaw框架量身打造的AI Agent能力共享平台。你可以将其理解为AI领域的“应用商店”或“技能交易中心”，旨在实现AI能力的快速流通与组合创新。目前，平台已集成超过

热心网友

05.24

AI资讯

MeowTXT AI音视频转文字工具智能识别说话人

在信息爆炸的时代，高效地将音视频内容转化为可编辑、可检索的文字，已经成为内容创作者、研究者和职场人士的刚需。今天要聊的这款工具——MeowTXT，正是瞄准了这一痛点，它不仅仅是一个简单的转录工具，更是一个集成了智能识别、摘要和翻译的AI生产力平台。 MeowTXT是什么简单来说，MeowTXT是一

热心网友

05.24

AI资讯

开源AI Agent操作系统OpenFang自动执行完整工作流

OpenFang是什么在AI Agent领域，我们常常面临一个困境：大多数系统仍然停留在“你说一句，它动一下”的被动模式，离真正的自动化还有距离。今天要聊的OpenFang，正是在尝试打破这个局面。它是一个用Rust语言构建的开源Agent操作系统，其核心创新在于引入了“Hands”的概念——你可

热心网友

05.24

AI资讯

腾讯混元开源全模态大模型压缩工具包AngelSlim详解

AngelSlim是什么随着大模型参数规模不断增长，如何实现高效推理与低成本部署已成为开发者面临的核心挑战。腾讯混元团队推出的开源工具包AngelSlim，正是为解决这一难题而生。它是一个面向全模态大模型的综合压缩与加速解决方案，集成了量化、投机采样、稀疏化及知识蒸馏等前沿技术，旨在为各类大语言模

热心网友

05.24

AI资讯

AI音视频转录工具Transcript LOL 智能区分说话人

在信息过载的数字化时代，音频与视频内容已成为知识传递、创意表达与商业沟通的核心载体。然而，如何将这些宝贵的非结构化媒体资产，高效、精准地转化为可搜索、可分析、可编辑的文本格式，始终是内容创作者、市场研究人员、学者及商务人士的核心痛点。一款强大的AI转录工具，正是打通音视频内容价值闭环、释放生产力潜能

热心网友

05.24