游乐游手机版
首页/科技数码/文章详情

北大与DP Technology联手:135M参数模型击败十亿参数级竞争者

时间:2026-07-02 10:17
这项由北京大学与DP Technology联合完成的科研成果,以预印本形式于2026年6月发布,论文编号为arXiv:2606 27978。感兴趣的读者可通过此编号查阅全文。 想象你正用手机拍摄一张照片,屏幕上那些红黄蓝绿的小光点,正是像素。一张256×256分辨率图片,包含超过六万五千个此类像素点

这项由北京大学与DP Technology联合完成的科研成果,以预印本形式于2026年6月发布,论文编号为arXiv:2606.27978。感兴趣的读者可通过此编号查阅全文。

想象你正用手机拍摄一张照片,屏幕上那些红黄蓝绿的小光点,正是像素。一张256×256分辨率图片,包含超过六万五千个此类像素点。若一台AI试图从零开始“绘制”此图,它必须理解像素间错综复杂的关系——哪里应是天空的蓝,何处衔接草地的绿,猫毛的纹理又该如何呈现。此事听似简单,实则如同在暗室中用一根手指拼合一万块拼图,每放下一块,都需凭记忆猜测下一块的位置。

北京大学与DP Technology的科研团队,正致力于攻克这一看似不可能的挑战。他们提出了名为“并行展开近似”(Parallel Rollout Approximation,简称PRA)的全新框架,使仅含1.35亿参数的模型性能,便能媲美甚至超越拥有数十亿参数的竞争对手。这意味着,同等出色的图像生成能力,所需计算资源已大幅缩减。

一、什么是“自回归图像生成”,为何如此困难

要理解此项研究的价值,需先明确研究者们的探索方向。

生成图像的AI技术流派众多。其中,“扩散模型”的工作方式如同将一张图片先用噪声模糊成一团雪花,再逐步将雪花还原为清晰图像;整个过程全局同步,每一步均调整整图所有像素。另一类为“自回归模型”,其工作方式截然不同,类似一位画家从左上角起始,逐块向右向下绘制,每画一块皆需参考已画好部分,以决定下一步如何执行。

自回归模型在语言领域已获巨大成功——GPT系列即遵循此思路,逐词生成,每个新词皆参考此前所有词汇。将此思路应用于图像,便是将图片切割为多个小方块(称为“补丁”),让模型逐一生成补丁,每生成一块即将其纳入“已知区域”,作为后续生成的参考。

然而,此过程中潜藏着两大长期困扰研究者的难题,且两者相互加剧,形成恶性循环。

首个麻烦源于“输出端”:每个像素补丁的维度极高。以16×16补丁为例,每块含16×16×3=768个数值,模型须在一次预测中同时确定768个数字。这好比要求一个人在一次猜测中,同时答对768道题,出错概率极高,且每次误差均颇为显著。

第二个麻烦来自“输入端”:训练与推断时的条件不一致。训练阶段,模型每次均参考“真实、标准的”已知补丁来预测下一块,如同学生每道题皆可参考标准答案后再作答。但在实际应用中,模型只能参考自身先前生成的补丁,而这些补丁本身已包含误差。这类训练与应用间的脱节,学术上称为“训练-推断差距”,通俗而言便是“练习时使用真题标准答案,考试时却需依赖自己所做的错题来推断”。

更严峻的是,这两个问题相互放大:输出端误差大,导致生成补丁质量差;低质量补丁又成为下一块的输入参考,致使后续误差更大,如此循环,图像后期往往会严重崩坏。研究团队通过一系列精心设计的对比实验,清晰证实了这两个问题的存在。他们在两种分辨率下测试同一框架:64×64分辨率搭配4×4小补丁(补丁仅48维),以及256×256分辨率搭配16×16大补丁(补丁高达768维)。两种设置的生成步数完全一致,均为256步,唯一区别在于每步预测维度。结果显示,低维时自回归模型尚能与扩散模型持平,但一旦升至768维,自回归模型的图像质量指标(FID值,数值越低表示质量越好)便从4.06急剧攀升至7.68乃至更高,而扩散模型几乎未受影响。

二、已有方法为何治标不治本

面对上述两大困境,此前研究界也曾提出一些“打补丁”式解决方案,但研究团队指出,这些方案仅能部分缓解问题,无法根除症结。

针对输出端误差大的难题,有研究者借鉴扩散模型中的“x预测”技巧,让模型直接预测目标值本身,而非预测某种速度或方向。这一策略确实有所助益——FID从9.70降至7.68——但与扩散模型的4.56相比,差距依然明显,高维输出的根本困难并未得到解决。

针对输入端的训练-推断差距,有研究者提出在训练时向输入补丁加入随机噪声,使模型在训练中也能适应“不完美的输入”,从而增强鲁棒性。此方法同样有效,但存在一个根本缺陷:这些噪声是随机的、独立的,而推断时模型遇到的“不完美输入”却是有结构的,由模型自身之前的错误所决定。这好比在练习考试时,老师故意在标准答案中随机添加错别字——这种干扰,与真正考试时自己答题所产生的错误,性质截然不同。

最彻底的解决之道是“真正的展开训练”:在训练时就让模型实际运行一遍自回归生成,将生成的补丁作为输入继续训练,从而使训练条件与推断条件完全一致。理论上此方案堪称完美,但在实践中完全行不通——因为每个补丁的生成本身需要调用扩散头(diffusion head)进行多步采样,生成256个补丁就意味着需顺序执行数万步计算,训练成本高到令人无法承受。

三、PRA的核心思路:一套组合拳,双管齐下

PRA的设计思路是同时正面解决上述两个问题,而非各自打补丁。

核心思路可用一个烘焙比喻来理解。假设你要烘烤256个不同造型的蛋糕,每烤好一个,都需将其照片提供给下一步操作参考。问题是:第一,每个蛋糕造型过于复杂,一次成型误差极大;第二,练习时你参考的是理想状态下的蛋糕照片,但实际操作时只能参考自己已烤好的(可能形状略有歪斜的)蛋糕照片。

PRA的解决思路如下:与其直接烤出完整蛋糕,不如先制作一个“蛋糕胚子”(低维中间状态),这个胚子比完整蛋糕简单得多,更易做好;随后,用一台专门的“成型机”(像素解码器)将胚子转化为完整蛋糕。此外,在训练时,这台成型机不仅处理完美的胚子,还会处理故意弄歪的胚子,这样产出的“练习用蛋糕照片”就更接近实际操作时所见。

具体到技术层面,PRA包含四个互相配合的模块,全部端到端训练,不依赖任何预训练的外部工具。第一个是“因果自回归变换器”,作为整个系统的主干,负责根据已生成的像素补丁序列计算当前位置的隐藏状态;第二个是“中间状态编码器”,它将当前的真实补丁与主干隐藏状态合并,压缩成一个仅16维的低维向量,即中间状态;第三个是“像素解码器”,它将(可能含有噪声的)中间状态序列解码回768维的像素补丁;第四个是“扩散头”,它基于主干的隐藏状态,学习如何生成中间状态的概率分布。

这里有一个关键的设计细节,值得深入探讨。中间状态编码器并非简单地将当前补丁压缩至16维,它还同时参考主干已计算好的“前缀表示”,即对所有已知补丁的理解摘要。这使得中间状态不仅是当前补丁的局部压缩,更包含了上下文信息,更适合作为自回归预测的目标。为防止编码器过度依赖当前补丁(那样主干将学不到东西),训练时会以50%的概率随机将当前补丁替换为一个可学习的“掩码嵌入”,迫使中间状态更多利用前缀信息。实验表明,这种“前缀感知的中间目标”相比纯粹的局部压缩,能将FID从3.08进一步降至2.88。

中间状态的维度选择也经过了仔细调试。若太小(如8维),会导致信息不足,解码器无法还原出质量足够的像素补丁;若太大(如64维),则使扩散头再次陷入预测高维向量的困境,误差重新增大。16维恰是甜蜜点——既足够紧凑以降低生成难度,又足够丰富以支撑像素解码。

四、并行构建“类推断式”训练输入

解决了输出端问题后,研究团队还需应对输入端的训练-推断差距。PRA的解法颇为巧妙:既然推断时模型看到的是“由中间状态解码而来的像素补丁”,那么就在训练时也让它看到类似之物。

具体操作如下:对每个位置的目标中间状态,先故意加入一定噪声(按照扩散过程的插值方式),将其变为“略带模糊的中间状态”;随后,将此模糊状态送入像素解码器,得到一个“略显模糊的像素补丁”;最后,将此类补丁作为训练时的输入序列。由于该补丁经历了与推断时完全相同的“中间状态到像素”解码路径,其“模糊方式”与推断时模型看到的自身生成补丁极为接近,远胜于随机添加噪声。

更妙的是,这一构建过程可在所有位置同时并行完成——每个位置的“模糊中间状态”独立采样,无需等待前序结果。这就避免了“真正展开训练”那种昂贵的顺序采样,却仍能为模型提供接近展开训练的信号。因此,该方案得名“并行展开近似”,它是一种对完整展开训练的高效近似,而非完整展开训练本身。

训练时的噪声强度也需仔细控制。通过参数tmin设定噪声下界:该值越大,加入噪声越少,训练输入越接近干净的真实补丁;越小则噪声越多,训练输入越不可靠。实验发现,tmin=0.5为最优选择,过净或过噪均不如适中效果。

整个训练流程在每次迭代中包含两个并行的前向计算阶段。第一阶段为“教师强制阶段”:主干接受真实像素补丁序列,计算隐藏状态,编码器利用这些隐藏状态与真实补丁生成中间状态,然后加噪并用解码器生成“类推断的像素输入序列”。第二阶段为“AR训练阶段”:主干接受第一阶段生成的那批“类推断像素输入序列”(停止梯度,不反向传播),计算新的隐藏状态,扩散头学习从这些隐藏状态生成之前算好的干净中间状态。整个系统的训练损失结合了扩散头的流匹配损失、像素解码器的重建损失(包括像素级的L1损失和感知相似度LPIPS损失)以及一个辅助表示损失,所有权重均等,无需手动调优。

五、实验结果:小身材,大能量

研究团队在ImageNet-1K数据集上对PRA进行了系统评测,该数据集包含来自1000个类别的超过120万张训练图像,是图像生成领域公认的标准测试场。所有生成质量均以FID(弗雷歇感知距离)衡量,该指标衡量生成图像与真实图像在统计特征上的差距,数值越低代表生成质量越佳。

PRA提供了三种规模:PRA-S(1.35亿参数)、PRA-B(2.50亿参数)和PRA-L(5.11亿参数)。评测结果令人瞩目。此前最佳的像素空间自回归模型是FARMER-1.9B/8,拥有19亿参数,FID为3.60。而PRA-S仅用1.35亿参数,便实现2.58的FID,直接超越这位19亿参数的前辈。这相当于以约7%的参数量达到更优效果。随着模型规模增大,PRA-B达到2.21,PRA-L进一步降至1.94,在像素空间自回归模型中确立了新的最优水平。

若放眼更广阔的生成模型范畴,PRA-L的1.94已超越像素空间扩散模型中的JiT-L(FID为2.36)和PixNerd-L(FID为2.64),接近部分依赖预训练tokenizer的两阶段扩散模型(如PixelFlow-XL的1.98)。需要指出的是,PRA在此更宽泛的比较中尚未达到最优——顶尖的两阶段扩散模型如RAE-XL/2可实现1.13——但PRA是在完全不依赖预训练外部编码器、直接处理原始像素的约束下完成的,这一设定下的1.94成绩极具竞争力。

在训练效率方面,PRA-S在8块A100 GPU上训练400个epoch约需3.125天,PRA-B约需6天,PRA-L约需14.3天,计算开销处于合理范围。

六、消融实验:逐块验证,缺一不可

为令人信服地证明PRA每个设计选择的实际效用,研究团队进行了一系列“拆零件”式消融实验,系统验证各组件贡献。

在输出端实验中,他们对比了四种中间目标构建方式。第一种使用现成LDM编码器(来自Stable Diffusion的预训练模型)提取特征作为中间目标,结果FID为3.37;这说明为其他任务训练的通用特征空间,并不适合作为自回归预测的目标。第二种仅用当前补丁本身定义中间状态(纯局部编码),FID降至3.08,有所进步但有限。第三种加入前缀感知(同时参考主干隐藏状态),FID进一步降至2.88,这验证了中间目标应与自回归上下文对齐,而非仅仅是局部的自编码压缩。

在输入端实验中,对比结果更为戏剧化。使用干净真实像素作为训练输入时,FID高达42.36——这证明即便输出端已改用中间状态,输入端的训练-推断差距本身仍足以令模型崩坏。对真实像素加噪声,FID降至32.60,虽有帮助但仍显不足。使用真实中间状态作为输入(改变外部接口),FID降至3.21,说明中间状态空间对自回归建模更为友好;但这实际上将模型转变为一种潜在空间AR模型,失去了像素输入输出的统一接口。在真实中间状态上加噪,FID进一步降至3.05。最终,PRA的“解码像素输入”方案在保持像素输入输出接口的前提下,将FID做到2.88,是所有方案中最优的,也是唯一保留了完整像素接口的方案。

七、超越生成:像素级模型的理解能力

这项研究还有一个令人意外的发现:PRA训练出的模型不仅擅长图像生成,还擅长图像理解。

研究团队在PRA-L的主干上直接进行线性分类探测(linear probing)——即冻结所有模型参数,仅训练一个线性分类器,考察模型所学特征对图像分类的贡献。结果,PRA-L在ImageNet分类任务上达到68.80%的Top-1准确率,显著超越潜在空间AR模型SphereAR-L的52.19%,以及像素空间扩散模型JiT-L的42.76%,甚至远超DiT-XL/2的43.28%。

这一结果的意义在于,PRA直接在原始像素上建模,未经任何压缩或变换,因此模型被迫学习图像内容本身的语义信息,而非某个中间编码空间的统计规律。这种“贴近原始信号”的特性,或许正是其在理解任务上表现更佳的原因。

总而言之,PRA此项研究的核心贡献可用一句话概括:它识别出像素空间自回归图像生成的两大根本性瓶颈,并用一套统一框架同时化解了它们。

第一个瓶颈是每步预测维度过高、误差过大,PRA通过端到端学习16维低维中间状态来解决,用简单步骤替代困难直接预测。第二个瓶颈是训练条件与推断条件不匹配,PRA通过并行构建“解码像素输入”来解决,使训练输入条件尽可能贴近推断时模型真正遇到的条件,同时避免顺序展开带来的巨大开销。

这项研究表明,像素级自回归建模并非没有前途的死胡同,而是此前缺乏正确方法来攻克其内在困难。1.35亿参数超越19亿参数的结论,也说明模型质量更多依赖于方法设计是否对症,而不仅仅是规模堆砌。

当然,这项工作仍留有若干未完成方向。PRA在训练阶段需运行两次并行前向计算,相比标准教师强制训练略为昂贵。框架目前仅在256×256分辨率的ImageNet上得到验证,能否平滑迁移至更高分辨率、文本条件生成或视频等更广泛领域,仍有待未来探索。这些开放问题,或许正是后续研究者可接力探索的方向。有兴趣深入了解技术细节的读者,可通过arXiv编号2606.27978找到完整论文,代码也已在GitHub的MangataX/PRA仓库公开发布。

Q&A

Q1:PRA模型在训练时比普通自回归模型慢多少?

A:PRA在训练时需要执行两次并行前向计算(一次用于构建中间状态和解码像素输入,一次用于AR主干的实际训练),相比标准单次前向教师强制训练会增加一定开销。不过两次均为并行操作,无需顺序采样,因此训练成本仍属可接受范围。以PRA-S为例,在8块A100 GPU上训练400个epoch约需3.125天,PRA-L约需14.3天。

Q2:PRA中的像素解码器与常见VAE解码器有何区别?

A:最关键的区别在于,PRA的像素解码器与整个模型端到端联合训练,而非预训练后固定使用的外部组件。它是一个因果变换器结构,能利用当前位置之前所有已生成的中间状态序列来解码当前补丁,输出为标准768维像素补丁,因此整个系统保持了“像素输入、像素输出”的统一接口。VAE解码器通常独立预训练,针对重建质量优化,不考虑自回归生成的特殊需求。

Q3:PRA的中间状态维度为何选16,而非更小或更大?

A:这是通过消融实验确定的。当中间状态维度取8时,信息量不足,像素解码器无法还原出质量足够的补丁,FID为3.36;取16时FID最低为2.88;取32时FID反弹至3.50,取64时更是急剧恶化至7.03——这是因为维度变大后,扩散头再次面临预测高维向量的困难,单步误差重新变大,与最初不使用中间状态时遇到的问题如出一辙。16维恰好在“足够紧凑以降低预测难度”与“足够丰富以支持像素解码”之间取得了平衡。

来源:https://www.163.com/dy/article/L0PKM6KF0511DTVV.html
上一篇哈佛联合研究揭示视频生成模型的致命缺陷 下一篇华盛顿大学AI语音助手新突破:小模型撑起大模型场面
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
LiblibAI云端WebUI降低AI绘画部署门槛
科技数码 · 2026-07-02

LiblibAI云端WebUI降低AI绘画部署门槛

LiblibAI在线WebUI的核心优势在于——只需通过浏览器即可流畅运行Stable Diffusion,无需自行搭建本地环境。云端直接处理运算,模型即选即试,大幅降低了AI绘画的创作门槛。对于轻量创作和模型快速测试来说,体验相当顺畅,但用户仍需重视数据隐私保护和版权合规等问题。 过去使用Stab

微软因用户不安叫停Edge浏览器AI历史搜索功能
科技数码 · 2026-07-02

微软因用户不安叫停Edge浏览器AI历史搜索功能

微软紧急暂停Edge浏览器AI历史搜索功能,该功能因被用户吐槽“令人不安”而暂缓部署。尽管微软强调所有AI处理在设备端完成且数据不上传云端,但用户仍不信任。此举与WindowsK2计划减少功能堆砌的理念一致。

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场
科技数码 · 2026-07-02

红魔游戏平板5 Pro发布 4999元起售将登陆全球市场

【CNMO科技消息】近日,红魔游戏平板5 Pro正式发布。这款平板从定位上就明确瞄准“极致游戏”体验,外观方面带来了一个重磅亮点——首次引入RGB水冷散热系统,背部那条可视化的水路通道,配合纯平透明背板设计,核心配置信息一览无余,科技感十足。 图源网络 屏幕方面同样表现突出。一块9 06英寸OLED

杭州全国首所机器人学校首批30台机器人入学
科技数码 · 2026-07-02

杭州全国首所机器人学校首批30台机器人入学

30台机器人整齐列队,有的刚从生产线卸下,机械零件还带着崭新的“工业气息”;有的已搭载运动控制模块,能稳健地小跑、跳跃几下。它们来自不同制造工厂,外形与功能各有千秋,但此刻都拥有了同一个身份——杭州机器人学校的第一批入学新生。 6月30日,杭州经信正式发布:由浙江大学机器人研究院、浙江省质量科学研究

美国计划发射航天器托举天文卫星
科技数码 · 2026-07-02

美国计划发射航天器托举天文卫星

就在最近,NASA公布了一项非常果断的干预计划——他们定于6月30日实施一次“卫星维修任务”,派遣一台名为“连接”号的机器人服务卫星,为一颗超期服役的天文卫星延长运行寿命。这颗卫星是“尼尔·格雷尔斯·斯威夫特天文台”,其轨道高度正在不断衰减,如果不进行干预,今年年底前很可能会坠入地球大气层并烧毁。