这项由北京大学与DP Technology联合完成的科研成果,以预印本形式于2026年6月发布,论文编号为arXiv:2606.27978。感兴趣的读者可通过此编号查阅全文。
想象你正用手机拍摄一张照片,屏幕上那些红黄蓝绿的小光点,正是像素。一张256×256分辨率图片,包含超过六万五千个此类像素点。若一台AI试图从零开始“绘制”此图,它必须理解像素间错综复杂的关系——哪里应是天空的蓝,何处衔接草地的绿,猫毛的纹理又该如何呈现。此事听似简单,实则如同在暗室中用一根手指拼合一万块拼图,每放下一块,都需凭记忆猜测下一块的位置。
北京大学与DP Technology的科研团队,正致力于攻克这一看似不可能的挑战。他们提出了名为“并行展开近似”(Parallel Rollout Approximation,简称PRA)的全新框架,使仅含1.35亿参数的模型性能,便能媲美甚至超越拥有数十亿参数的竞争对手。这意味着,同等出色的图像生成能力,所需计算资源已大幅缩减。
一、什么是“自回归图像生成”,为何如此困难
要理解此项研究的价值,需先明确研究者们的探索方向。
生成图像的AI技术流派众多。其中,“扩散模型”的工作方式如同将一张图片先用噪声模糊成一团雪花,再逐步将雪花还原为清晰图像;整个过程全局同步,每一步均调整整图所有像素。另一类为“自回归模型”,其工作方式截然不同,类似一位画家从左上角起始,逐块向右向下绘制,每画一块皆需参考已画好部分,以决定下一步如何执行。
自回归模型在语言领域已获巨大成功——GPT系列即遵循此思路,逐词生成,每个新词皆参考此前所有词汇。将此思路应用于图像,便是将图片切割为多个小方块(称为“补丁”),让模型逐一生成补丁,每生成一块即将其纳入“已知区域”,作为后续生成的参考。
然而,此过程中潜藏着两大长期困扰研究者的难题,且两者相互加剧,形成恶性循环。
首个麻烦源于“输出端”:每个像素补丁的维度极高。以16×16补丁为例,每块含16×16×3=768个数值,模型须在一次预测中同时确定768个数字。这好比要求一个人在一次猜测中,同时答对768道题,出错概率极高,且每次误差均颇为显著。
第二个麻烦来自“输入端”:训练与推断时的条件不一致。训练阶段,模型每次均参考“真实、标准的”已知补丁来预测下一块,如同学生每道题皆可参考标准答案后再作答。但在实际应用中,模型只能参考自身先前生成的补丁,而这些补丁本身已包含误差。这类训练与应用间的脱节,学术上称为“训练-推断差距”,通俗而言便是“练习时使用真题标准答案,考试时却需依赖自己所做的错题来推断”。
更严峻的是,这两个问题相互放大:输出端误差大,导致生成补丁质量差;低质量补丁又成为下一块的输入参考,致使后续误差更大,如此循环,图像后期往往会严重崩坏。研究团队通过一系列精心设计的对比实验,清晰证实了这两个问题的存在。他们在两种分辨率下测试同一框架:64×64分辨率搭配4×4小补丁(补丁仅48维),以及256×256分辨率搭配16×16大补丁(补丁高达768维)。两种设置的生成步数完全一致,均为256步,唯一区别在于每步预测维度。结果显示,低维时自回归模型尚能与扩散模型持平,但一旦升至768维,自回归模型的图像质量指标(FID值,数值越低表示质量越好)便从4.06急剧攀升至7.68乃至更高,而扩散模型几乎未受影响。
二、已有方法为何治标不治本
面对上述两大困境,此前研究界也曾提出一些“打补丁”式解决方案,但研究团队指出,这些方案仅能部分缓解问题,无法根除症结。
针对输出端误差大的难题,有研究者借鉴扩散模型中的“x预测”技巧,让模型直接预测目标值本身,而非预测某种速度或方向。这一策略确实有所助益——FID从9.70降至7.68——但与扩散模型的4.56相比,差距依然明显,高维输出的根本困难并未得到解决。
针对输入端的训练-推断差距,有研究者提出在训练时向输入补丁加入随机噪声,使模型在训练中也能适应“不完美的输入”,从而增强鲁棒性。此方法同样有效,但存在一个根本缺陷:这些噪声是随机的、独立的,而推断时模型遇到的“不完美输入”却是有结构的,由模型自身之前的错误所决定。这好比在练习考试时,老师故意在标准答案中随机添加错别字——这种干扰,与真正考试时自己答题所产生的错误,性质截然不同。
最彻底的解决之道是“真正的展开训练”:在训练时就让模型实际运行一遍自回归生成,将生成的补丁作为输入继续训练,从而使训练条件与推断条件完全一致。理论上此方案堪称完美,但在实践中完全行不通——因为每个补丁的生成本身需要调用扩散头(diffusion head)进行多步采样,生成256个补丁就意味着需顺序执行数万步计算,训练成本高到令人无法承受。
三、PRA的核心思路:一套组合拳,双管齐下
PRA的设计思路是同时正面解决上述两个问题,而非各自打补丁。
核心思路可用一个烘焙比喻来理解。假设你要烘烤256个不同造型的蛋糕,每烤好一个,都需将其照片提供给下一步操作参考。问题是:第一,每个蛋糕造型过于复杂,一次成型误差极大;第二,练习时你参考的是理想状态下的蛋糕照片,但实际操作时只能参考自己已烤好的(可能形状略有歪斜的)蛋糕照片。
PRA的解决思路如下:与其直接烤出完整蛋糕,不如先制作一个“蛋糕胚子”(低维中间状态),这个胚子比完整蛋糕简单得多,更易做好;随后,用一台专门的“成型机”(像素解码器)将胚子转化为完整蛋糕。此外,在训练时,这台成型机不仅处理完美的胚子,还会处理故意弄歪的胚子,这样产出的“练习用蛋糕照片”就更接近实际操作时所见。
具体到技术层面,PRA包含四个互相配合的模块,全部端到端训练,不依赖任何预训练的外部工具。第一个是“因果自回归变换器”,作为整个系统的主干,负责根据已生成的像素补丁序列计算当前位置的隐藏状态;第二个是“中间状态编码器”,它将当前的真实补丁与主干隐藏状态合并,压缩成一个仅16维的低维向量,即中间状态;第三个是“像素解码器”,它将(可能含有噪声的)中间状态序列解码回768维的像素补丁;第四个是“扩散头”,它基于主干的隐藏状态,学习如何生成中间状态的概率分布。
这里有一个关键的设计细节,值得深入探讨。中间状态编码器并非简单地将当前补丁压缩至16维,它还同时参考主干已计算好的“前缀表示”,即对所有已知补丁的理解摘要。这使得中间状态不仅是当前补丁的局部压缩,更包含了上下文信息,更适合作为自回归预测的目标。为防止编码器过度依赖当前补丁(那样主干将学不到东西),训练时会以50%的概率随机将当前补丁替换为一个可学习的“掩码嵌入”,迫使中间状态更多利用前缀信息。实验表明,这种“前缀感知的中间目标”相比纯粹的局部压缩,能将FID从3.08进一步降至2.88。
中间状态的维度选择也经过了仔细调试。若太小(如8维),会导致信息不足,解码器无法还原出质量足够的像素补丁;若太大(如64维),则使扩散头再次陷入预测高维向量的困境,误差重新增大。16维恰是甜蜜点——既足够紧凑以降低生成难度,又足够丰富以支撑像素解码。
四、并行构建“类推断式”训练输入
解决了输出端问题后,研究团队还需应对输入端的训练-推断差距。PRA的解法颇为巧妙:既然推断时模型看到的是“由中间状态解码而来的像素补丁”,那么就在训练时也让它看到类似之物。
具体操作如下:对每个位置的目标中间状态,先故意加入一定噪声(按照扩散过程的插值方式),将其变为“略带模糊的中间状态”;随后,将此模糊状态送入像素解码器,得到一个“略显模糊的像素补丁”;最后,将此类补丁作为训练时的输入序列。由于该补丁经历了与推断时完全相同的“中间状态到像素”解码路径,其“模糊方式”与推断时模型看到的自身生成补丁极为接近,远胜于随机添加噪声。
更妙的是,这一构建过程可在所有位置同时并行完成——每个位置的“模糊中间状态”独立采样,无需等待前序结果。这就避免了“真正展开训练”那种昂贵的顺序采样,却仍能为模型提供接近展开训练的信号。因此,该方案得名“并行展开近似”,它是一种对完整展开训练的高效近似,而非完整展开训练本身。
训练时的噪声强度也需仔细控制。通过参数tmin设定噪声下界:该值越大,加入噪声越少,训练输入越接近干净的真实补丁;越小则噪声越多,训练输入越不可靠。实验发现,tmin=0.5为最优选择,过净或过噪均不如适中效果。
整个训练流程在每次迭代中包含两个并行的前向计算阶段。第一阶段为“教师强制阶段”:主干接受真实像素补丁序列,计算隐藏状态,编码器利用这些隐藏状态与真实补丁生成中间状态,然后加噪并用解码器生成“类推断的像素输入序列”。第二阶段为“AR训练阶段”:主干接受第一阶段生成的那批“类推断像素输入序列”(停止梯度,不反向传播),计算新的隐藏状态,扩散头学习从这些隐藏状态生成之前算好的干净中间状态。整个系统的训练损失结合了扩散头的流匹配损失、像素解码器的重建损失(包括像素级的L1损失和感知相似度LPIPS损失)以及一个辅助表示损失,所有权重均等,无需手动调优。
五、实验结果:小身材,大能量
研究团队在ImageNet-1K数据集上对PRA进行了系统评测,该数据集包含来自1000个类别的超过120万张训练图像,是图像生成领域公认的标准测试场。所有生成质量均以FID(弗雷歇感知距离)衡量,该指标衡量生成图像与真实图像在统计特征上的差距,数值越低代表生成质量越佳。
PRA提供了三种规模:PRA-S(1.35亿参数)、PRA-B(2.50亿参数)和PRA-L(5.11亿参数)。评测结果令人瞩目。此前最佳的像素空间自回归模型是FARMER-1.9B/8,拥有19亿参数,FID为3.60。而PRA-S仅用1.35亿参数,便实现2.58的FID,直接超越这位19亿参数的前辈。这相当于以约7%的参数量达到更优效果。随着模型规模增大,PRA-B达到2.21,PRA-L进一步降至1.94,在像素空间自回归模型中确立了新的最优水平。
若放眼更广阔的生成模型范畴,PRA-L的1.94已超越像素空间扩散模型中的JiT-L(FID为2.36)和PixNerd-L(FID为2.64),接近部分依赖预训练tokenizer的两阶段扩散模型(如PixelFlow-XL的1.98)。需要指出的是,PRA在此更宽泛的比较中尚未达到最优——顶尖的两阶段扩散模型如RAE-XL/2可实现1.13——但PRA是在完全不依赖预训练外部编码器、直接处理原始像素的约束下完成的,这一设定下的1.94成绩极具竞争力。
在训练效率方面,PRA-S在8块A100 GPU上训练400个epoch约需3.125天,PRA-B约需6天,PRA-L约需14.3天,计算开销处于合理范围。
六、消融实验:逐块验证,缺一不可
为令人信服地证明PRA每个设计选择的实际效用,研究团队进行了一系列“拆零件”式消融实验,系统验证各组件贡献。
在输出端实验中,他们对比了四种中间目标构建方式。第一种使用现成LDM编码器(来自Stable Diffusion的预训练模型)提取特征作为中间目标,结果FID为3.37;这说明为其他任务训练的通用特征空间,并不适合作为自回归预测的目标。第二种仅用当前补丁本身定义中间状态(纯局部编码),FID降至3.08,有所进步但有限。第三种加入前缀感知(同时参考主干隐藏状态),FID进一步降至2.88,这验证了中间目标应与自回归上下文对齐,而非仅仅是局部的自编码压缩。
在输入端实验中,对比结果更为戏剧化。使用干净真实像素作为训练输入时,FID高达42.36——这证明即便输出端已改用中间状态,输入端的训练-推断差距本身仍足以令模型崩坏。对真实像素加噪声,FID降至32.60,虽有帮助但仍显不足。使用真实中间状态作为输入(改变外部接口),FID降至3.21,说明中间状态空间对自回归建模更为友好;但这实际上将模型转变为一种潜在空间AR模型,失去了像素输入输出的统一接口。在真实中间状态上加噪,FID进一步降至3.05。最终,PRA的“解码像素输入”方案在保持像素输入输出接口的前提下,将FID做到2.88,是所有方案中最优的,也是唯一保留了完整像素接口的方案。
七、超越生成:像素级模型的理解能力
这项研究还有一个令人意外的发现:PRA训练出的模型不仅擅长图像生成,还擅长图像理解。
研究团队在PRA-L的主干上直接进行线性分类探测(linear probing)——即冻结所有模型参数,仅训练一个线性分类器,考察模型所学特征对图像分类的贡献。结果,PRA-L在ImageNet分类任务上达到68.80%的Top-1准确率,显著超越潜在空间AR模型SphereAR-L的52.19%,以及像素空间扩散模型JiT-L的42.76%,甚至远超DiT-XL/2的43.28%。
这一结果的意义在于,PRA直接在原始像素上建模,未经任何压缩或变换,因此模型被迫学习图像内容本身的语义信息,而非某个中间编码空间的统计规律。这种“贴近原始信号”的特性,或许正是其在理解任务上表现更佳的原因。
总而言之,PRA此项研究的核心贡献可用一句话概括:它识别出像素空间自回归图像生成的两大根本性瓶颈,并用一套统一框架同时化解了它们。
第一个瓶颈是每步预测维度过高、误差过大,PRA通过端到端学习16维低维中间状态来解决,用简单步骤替代困难直接预测。第二个瓶颈是训练条件与推断条件不匹配,PRA通过并行构建“解码像素输入”来解决,使训练输入条件尽可能贴近推断时模型真正遇到的条件,同时避免顺序展开带来的巨大开销。
这项研究表明,像素级自回归建模并非没有前途的死胡同,而是此前缺乏正确方法来攻克其内在困难。1.35亿参数超越19亿参数的结论,也说明模型质量更多依赖于方法设计是否对症,而不仅仅是规模堆砌。
当然,这项工作仍留有若干未完成方向。PRA在训练阶段需运行两次并行前向计算,相比标准教师强制训练略为昂贵。框架目前仅在256×256分辨率的ImageNet上得到验证,能否平滑迁移至更高分辨率、文本条件生成或视频等更广泛领域,仍有待未来探索。这些开放问题,或许正是后续研究者可接力探索的方向。有兴趣深入了解技术细节的读者,可通过arXiv编号2606.27978找到完整论文,代码也已在GitHub的MangataX/PRA仓库公开发布。
Q&A
Q1:PRA模型在训练时比普通自回归模型慢多少?
A:PRA在训练时需要执行两次并行前向计算(一次用于构建中间状态和解码像素输入,一次用于AR主干的实际训练),相比标准单次前向教师强制训练会增加一定开销。不过两次均为并行操作,无需顺序采样,因此训练成本仍属可接受范围。以PRA-S为例,在8块A100 GPU上训练400个epoch约需3.125天,PRA-L约需14.3天。
Q2:PRA中的像素解码器与常见VAE解码器有何区别?
A:最关键的区别在于,PRA的像素解码器与整个模型端到端联合训练,而非预训练后固定使用的外部组件。它是一个因果变换器结构,能利用当前位置之前所有已生成的中间状态序列来解码当前补丁,输出为标准768维像素补丁,因此整个系统保持了“像素输入、像素输出”的统一接口。VAE解码器通常独立预训练,针对重建质量优化,不考虑自回归生成的特殊需求。
Q3:PRA的中间状态维度为何选16,而非更小或更大?
A:这是通过消融实验确定的。当中间状态维度取8时,信息量不足,像素解码器无法还原出质量足够的补丁,FID为3.36;取16时FID最低为2.88;取32时FID反弹至3.50,取64时更是急剧恶化至7.03——这是因为维度变大后,扩散头再次面临预测高维向量的困难,单步误差重新变大,与最初不使用中间状态时遇到的问题如出一辙。16维恰好在“足够紧凑以降低预测难度”与“足够丰富以支持像素解码”之间取得了平衡。
