北大与DP Technology联手：135M参数模型击败十亿参数级竞争者

时间：2026-07-02 10:17

这项由北京大学与DP Technology联合完成的科研成果，以预印本形式于2026年6月发布，论文编号为arXiv:2606 27978。感兴趣的读者可通过此编号查阅全文。想象你正用手机拍摄一张照片，屏幕上那些红黄蓝绿的小光点，正是像素。一张256×256分辨率图片，包含超过六万五千个此类像素点

这项由北京大学与DP Technology联合完成的科研成果，以预印本形式于2026年6月发布，论文编号为arXiv:2606.27978。感兴趣的读者可通过此编号查阅全文。

想象你正用手机拍摄一张照片，屏幕上那些红黄蓝绿的小光点，正是像素。一张256×256分辨率图片，包含超过六万五千个此类像素点。若一台AI试图从零开始“绘制”此图，它必须理解像素间错综复杂的关系——哪里应是天空的蓝，何处衔接草地的绿，猫毛的纹理又该如何呈现。此事听似简单，实则如同在暗室中用一根手指拼合一万块拼图，每放下一块，都需凭记忆猜测下一块的位置。

北京大学与DP Technology的科研团队，正致力于攻克这一看似不可能的挑战。他们提出了名为“并行展开近似”（Parallel Rollout Approximation，简称PRA）的全新框架，使仅含1.35亿参数的模型性能，便能媲美甚至超越拥有数十亿参数的竞争对手。这意味着，同等出色的图像生成能力，所需计算资源已大幅缩减。

一、什么是“自回归图像生成”，为何如此困难

要理解此项研究的价值，需先明确研究者们的探索方向。

生成图像的AI技术流派众多。其中，“扩散模型”的工作方式如同将一张图片先用噪声模糊成一团雪花，再逐步将雪花还原为清晰图像；整个过程全局同步，每一步均调整整图所有像素。另一类为“自回归模型”，其工作方式截然不同，类似一位画家从左上角起始，逐块向右向下绘制，每画一块皆需参考已画好部分，以决定下一步如何执行。

自回归模型在语言领域已获巨大成功——GPT系列即遵循此思路，逐词生成，每个新词皆参考此前所有词汇。将此思路应用于图像，便是将图片切割为多个小方块（称为“补丁”），让模型逐一生成补丁，每生成一块即将其纳入“已知区域”，作为后续生成的参考。

然而，此过程中潜藏着两大长期困扰研究者的难题，且两者相互加剧，形成恶性循环。

首个麻烦源于“输出端”：每个像素补丁的维度极高。以16×16补丁为例，每块含16×16×3=768个数值，模型须在一次预测中同时确定768个数字。这好比要求一个人在一次猜测中，同时答对768道题，出错概率极高，且每次误差均颇为显著。

第二个麻烦来自“输入端”：训练与推断时的条件不一致。训练阶段，模型每次均参考“真实、标准的”已知补丁来预测下一块，如同学生每道题皆可参考标准答案后再作答。但在实际应用中，模型只能参考自身先前生成的补丁，而这些补丁本身已包含误差。这类训练与应用间的脱节，学术上称为“训练-推断差距”，通俗而言便是“练习时使用真题标准答案，考试时却需依赖自己所做的错题来推断”。

更严峻的是，这两个问题相互放大：输出端误差大，导致生成补丁质量差；低质量补丁又成为下一块的输入参考，致使后续误差更大，如此循环，图像后期往往会严重崩坏。研究团队通过一系列精心设计的对比实验，清晰证实了这两个问题的存在。他们在两种分辨率下测试同一框架：64×64分辨率搭配4×4小补丁（补丁仅48维），以及256×256分辨率搭配16×16大补丁（补丁高达768维）。两种设置的生成步数完全一致，均为256步，唯一区别在于每步预测维度。结果显示，低维时自回归模型尚能与扩散模型持平，但一旦升至768维，自回归模型的图像质量指标（FID值，数值越低表示质量越好）便从4.06急剧攀升至7.68乃至更高，而扩散模型几乎未受影响。

二、已有方法为何治标不治本

面对上述两大困境，此前研究界也曾提出一些“打补丁”式解决方案，但研究团队指出，这些方案仅能部分缓解问题，无法根除症结。

针对输出端误差大的难题，有研究者借鉴扩散模型中的“x预测”技巧，让模型直接预测目标值本身，而非预测某种速度或方向。这一策略确实有所助益——FID从9.70降至7.68——但与扩散模型的4.56相比，差距依然明显，高维输出的根本困难并未得到解决。

针对输入端的训练-推断差距，有研究者提出在训练时向输入补丁加入随机噪声，使模型在训练中也能适应“不完美的输入”，从而增强鲁棒性。此方法同样有效，但存在一个根本缺陷：这些噪声是随机的、独立的，而推断时模型遇到的“不完美输入”却是有结构的，由模型自身之前的错误所决定。这好比在练习考试时，老师故意在标准答案中随机添加错别字——这种干扰，与真正考试时自己答题所产生的错误，性质截然不同。

最彻底的解决之道是“真正的展开训练”：在训练时就让模型实际运行一遍自回归生成，将生成的补丁作为输入继续训练，从而使训练条件与推断条件完全一致。理论上此方案堪称完美，但在实践中完全行不通——因为每个补丁的生成本身需要调用扩散头（diffusion head）进行多步采样，生成256个补丁就意味着需顺序执行数万步计算，训练成本高到令人无法承受。

三、PRA的核心思路：一套组合拳，双管齐下

PRA的设计思路是同时正面解决上述两个问题，而非各自打补丁。

核心思路可用一个烘焙比喻来理解。假设你要烘烤256个不同造型的蛋糕，每烤好一个，都需将其照片提供给下一步操作参考。问题是：第一，每个蛋糕造型过于复杂，一次成型误差极大；第二，练习时你参考的是理想状态下的蛋糕照片，但实际操作时只能参考自己已烤好的（可能形状略有歪斜的）蛋糕照片。

PRA的解决思路如下：与其直接烤出完整蛋糕，不如先制作一个“蛋糕胚子”（低维中间状态），这个胚子比完整蛋糕简单得多，更易做好；随后，用一台专门的“成型机”（像素解码器）将胚子转化为完整蛋糕。此外，在训练时，这台成型机不仅处理完美的胚子，还会处理故意弄歪的胚子，这样产出的“练习用蛋糕照片”就更接近实际操作时所见。

具体到技术层面，PRA包含四个互相配合的模块，全部端到端训练，不依赖任何预训练的外部工具。第一个是“因果自回归变换器”，作为整个系统的主干，负责根据已生成的像素补丁序列计算当前位置的隐藏状态；第二个是“中间状态编码器”，它将当前的真实补丁与主干隐藏状态合并，压缩成一个仅16维的低维向量，即中间状态；第三个是“像素解码器”，它将（可能含有噪声的）中间状态序列解码回768维的像素补丁；第四个是“扩散头”，它基于主干的隐藏状态，学习如何生成中间状态的概率分布。

这里有一个关键的设计细节，值得深入探讨。中间状态编码器并非简单地将当前补丁压缩至16维，它还同时参考主干已计算好的“前缀表示”，即对所有已知补丁的理解摘要。这使得中间状态不仅是当前补丁的局部压缩，更包含了上下文信息，更适合作为自回归预测的目标。为防止编码器过度依赖当前补丁（那样主干将学不到东西），训练时会以50%的概率随机将当前补丁替换为一个可学习的“掩码嵌入”，迫使中间状态更多利用前缀信息。实验表明，这种“前缀感知的中间目标”相比纯粹的局部压缩，能将FID从3.08进一步降至2.88。

中间状态的维度选择也经过了仔细调试。若太小（如8维），会导致信息不足，解码器无法还原出质量足够的像素补丁；若太大（如64维），则使扩散头再次陷入预测高维向量的困境，误差重新增大。16维恰是甜蜜点——既足够紧凑以降低生成难度，又足够丰富以支撑像素解码。

四、并行构建“类推断式”训练输入

解决了输出端问题后，研究团队还需应对输入端的训练-推断差距。PRA的解法颇为巧妙：既然推断时模型看到的是“由中间状态解码而来的像素补丁”，那么就在训练时也让它看到类似之物。

具体操作如下：对每个位置的目标中间状态，先故意加入一定噪声（按照扩散过程的插值方式），将其变为“略带模糊的中间状态”；随后，将此模糊状态送入像素解码器，得到一个“略显模糊的像素补丁”；最后，将此类补丁作为训练时的输入序列。由于该补丁经历了与推断时完全相同的“中间状态到像素”解码路径，其“模糊方式”与推断时模型看到的自身生成补丁极为接近，远胜于随机添加噪声。

更妙的是，这一构建过程可在所有位置同时并行完成——每个位置的“模糊中间状态”独立采样，无需等待前序结果。这就避免了“真正展开训练”那种昂贵的顺序采样，却仍能为模型提供接近展开训练的信号。因此，该方案得名“并行展开近似”，它是一种对完整展开训练的高效近似，而非完整展开训练本身。

训练时的噪声强度也需仔细控制。通过参数tmin设定噪声下界：该值越大，加入噪声越少，训练输入越接近干净的真实补丁；越小则噪声越多，训练输入越不可靠。实验发现，tmin=0.5为最优选择，过净或过噪均不如适中效果。

整个训练流程在每次迭代中包含两个并行的前向计算阶段。第一阶段为“教师强制阶段”：主干接受真实像素补丁序列，计算隐藏状态，编码器利用这些隐藏状态与真实补丁生成中间状态，然后加噪并用解码器生成“类推断的像素输入序列”。第二阶段为“AR训练阶段”：主干接受第一阶段生成的那批“类推断像素输入序列”（停止梯度，不反向传播），计算新的隐藏状态，扩散头学习从这些隐藏状态生成之前算好的干净中间状态。整个系统的训练损失结合了扩散头的流匹配损失、像素解码器的重建损失（包括像素级的L1损失和感知相似度LPIPS损失）以及一个辅助表示损失，所有权重均等，无需手动调优。

五、实验结果：小身材，大能量

研究团队在ImageNet-1K数据集上对PRA进行了系统评测，该数据集包含来自1000个类别的超过120万张训练图像，是图像生成领域公认的标准测试场。所有生成质量均以FID（弗雷歇感知距离）衡量，该指标衡量生成图像与真实图像在统计特征上的差距，数值越低代表生成质量越佳。

PRA提供了三种规模：PRA-S（1.35亿参数）、PRA-B（2.50亿参数）和PRA-L（5.11亿参数）。评测结果令人瞩目。此前最佳的像素空间自回归模型是FARMER-1.9B/8，拥有19亿参数，FID为3.60。而PRA-S仅用1.35亿参数，便实现2.58的FID，直接超越这位19亿参数的前辈。这相当于以约7%的参数量达到更优效果。随着模型规模增大，PRA-B达到2.21，PRA-L进一步降至1.94，在像素空间自回归模型中确立了新的最优水平。

若放眼更广阔的生成模型范畴，PRA-L的1.94已超越像素空间扩散模型中的JiT-L（FID为2.36）和PixNerd-L（FID为2.64），接近部分依赖预训练tokenizer的两阶段扩散模型（如PixelFlow-XL的1.98）。需要指出的是，PRA在此更宽泛的比较中尚未达到最优——顶尖的两阶段扩散模型如RAE-XL/2可实现1.13——但PRA是在完全不依赖预训练外部编码器、直接处理原始像素的约束下完成的，这一设定下的1.94成绩极具竞争力。

在训练效率方面，PRA-S在8块A100 GPU上训练400个epoch约需3.125天，PRA-B约需6天，PRA-L约需14.3天，计算开销处于合理范围。

六、消融实验：逐块验证，缺一不可

为令人信服地证明PRA每个设计选择的实际效用，研究团队进行了一系列“拆零件”式消融实验，系统验证各组件贡献。

在输出端实验中，他们对比了四种中间目标构建方式。第一种使用现成LDM编码器（来自Stable Diffusion的预训练模型）提取特征作为中间目标，结果FID为3.37；这说明为其他任务训练的通用特征空间，并不适合作为自回归预测的目标。第二种仅用当前补丁本身定义中间状态（纯局部编码），FID降至3.08，有所进步但有限。第三种加入前缀感知（同时参考主干隐藏状态），FID进一步降至2.88，这验证了中间目标应与自回归上下文对齐，而非仅仅是局部的自编码压缩。

在输入端实验中，对比结果更为戏剧化。使用干净真实像素作为训练输入时，FID高达42.36——这证明即便输出端已改用中间状态，输入端的训练-推断差距本身仍足以令模型崩坏。对真实像素加噪声，FID降至32.60，虽有帮助但仍显不足。使用真实中间状态作为输入（改变外部接口），FID降至3.21，说明中间状态空间对自回归建模更为友好；但这实际上将模型转变为一种潜在空间AR模型，失去了像素输入输出的统一接口。在真实中间状态上加噪，FID进一步降至3.05。最终，PRA的“解码像素输入”方案在保持像素输入输出接口的前提下，将FID做到2.88，是所有方案中最优的，也是唯一保留了完整像素接口的方案。

七、超越生成：像素级模型的理解能力

这项研究还有一个令人意外的发现：PRA训练出的模型不仅擅长图像生成，还擅长图像理解。

研究团队在PRA-L的主干上直接进行线性分类探测（linear probing）——即冻结所有模型参数，仅训练一个线性分类器，考察模型所学特征对图像分类的贡献。结果，PRA-L在ImageNet分类任务上达到68.80%的Top-1准确率，显著超越潜在空间AR模型SphereAR-L的52.19%，以及像素空间扩散模型JiT-L的42.76%，甚至远超DiT-XL/2的43.28%。

这一结果的意义在于，PRA直接在原始像素上建模，未经任何压缩或变换，因此模型被迫学习图像内容本身的语义信息，而非某个中间编码空间的统计规律。这种“贴近原始信号”的特性，或许正是其在理解任务上表现更佳的原因。

总而言之，PRA此项研究的核心贡献可用一句话概括：它识别出像素空间自回归图像生成的两大根本性瓶颈，并用一套统一框架同时化解了它们。

第一个瓶颈是每步预测维度过高、误差过大，PRA通过端到端学习16维低维中间状态来解决，用简单步骤替代困难直接预测。第二个瓶颈是训练条件与推断条件不匹配，PRA通过并行构建“解码像素输入”来解决，使训练输入条件尽可能贴近推断时模型真正遇到的条件，同时避免顺序展开带来的巨大开销。

这项研究表明，像素级自回归建模并非没有前途的死胡同，而是此前缺乏正确方法来攻克其内在困难。1.35亿参数超越19亿参数的结论，也说明模型质量更多依赖于方法设计是否对症，而不仅仅是规模堆砌。

当然，这项工作仍留有若干未完成方向。PRA在训练阶段需运行两次并行前向计算，相比标准教师强制训练略为昂贵。框架目前仅在256×256分辨率的ImageNet上得到验证，能否平滑迁移至更高分辨率、文本条件生成或视频等更广泛领域，仍有待未来探索。这些开放问题，或许正是后续研究者可接力探索的方向。有兴趣深入了解技术细节的读者，可通过arXiv编号2606.27978找到完整论文，代码也已在GitHub的MangataX/PRA仓库公开发布。

Q&A

Q1：PRA模型在训练时比普通自回归模型慢多少？

A：PRA在训练时需要执行两次并行前向计算（一次用于构建中间状态和解码像素输入，一次用于AR主干的实际训练），相比标准单次前向教师强制训练会增加一定开销。不过两次均为并行操作，无需顺序采样，因此训练成本仍属可接受范围。以PRA-S为例，在8块A100 GPU上训练400个epoch约需3.125天，PRA-L约需14.3天。

Q2：PRA中的像素解码器与常见VAE解码器有何区别？

A：最关键的区别在于，PRA的像素解码器与整个模型端到端联合训练，而非预训练后固定使用的外部组件。它是一个因果变换器结构，能利用当前位置之前所有已生成的中间状态序列来解码当前补丁，输出为标准768维像素补丁，因此整个系统保持了“像素输入、像素输出”的统一接口。VAE解码器通常独立预训练，针对重建质量优化，不考虑自回归生成的特殊需求。

Q3：PRA的中间状态维度为何选16，而非更小或更大？

A：这是通过消融实验确定的。当中间状态维度取8时，信息量不足，像素解码器无法还原出质量足够的补丁，FID为3.36；取16时FID最低为2.88；取32时FID反弹至3.50，取64时更是急剧恶化至7.03——这是因为维度变大后，扩散头再次面临预测高维向量的困难，单步误差重新变大，与最初不使用中间状态时遇到的问题如出一辙。16维恰好在“足够紧凑以降低预测难度”与“足够丰富以支持像素解码”之间取得了平衡。

来源：https://www.163.com/dy/article/L0PKM6KF0511DTVV.html

像素