李飞飞团队新突破:简单调整生成顺序,显著提升图像生成质量

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
文章转载于量子位
作者:闻乐
长期以来,AI生图被一个经典矛盾困扰。
潜空间模型效率高,但细节有损耗;像素空间模型保真度高,却容易结构混乱、速度慢。
要么快要没准,大家几乎默认这是架构带来的取舍问题,没法彻底解决。
但扩散模型生图,顺序真的对吗?
李飞飞团队最新论文提出的Latent Forcing方法直接打破了这一共识,他们发现生成的质量瓶颈不在架构,而在顺序。

简单说就像画画必须先打草稿再填色,AI也需要一个「先定结构、后填细节」的强制逻辑。
Latent Forcing仅通过重排生成轨迹,像素扩散模型不仅找回了效率,更在多项指标上刷新SOTA。
1
传统方法瓶颈
在深入了解Latent Forcing之前,咱先来说说当前两大方法的瓶颈。
传统像素级扩散模型之所以画图会画歪,是因为它在降噪过程中,高频的纹理细节往往会干扰低频的语义结构。
模型常常在还没搞清楚物体的整体轮廓时,就被迫去预测局部的像素颜色,其实这在本质上就违背了视觉生成的自然逻辑。
为了解决这个问题,行业此前大多转向潜空间。
它通过预训练的tokenizer把图像压到低维空间,生成速度飞起。
但潜空间模型必须依赖一个预训练的解码器,但这不仅会引入重建误差,也让模型失去了端到端建模原始数据的能力。

于是李飞飞团队思考——
能不能既保留像素级的无损精度,又获得潜空间的结构引导?
1
先打个草稿
Latent Forcing的答案是——
对扩散轨迹重新排序。

怎么做的呢?
在不改变基础Transformer架构的前提下,引入了双时间变量机制。
在训练和生成过程中,模型会同时处理像素和潜变量。不同的是,团队为两者定制了独立的降噪节奏:
潜变量先行:在生成初期,潜变量会率先完成降噪,在大尺度上确立图像的语义骨架;
像素填色:在结构确定后,像素部分再跟进进行精细化降噪。

这么一看,潜变量就像是一个临时的草稿本。
生成结束时,这个草稿本直接丢弃,最终输出仍是100%无损的原始像素图像,没有任何decoder。
整个过程端到端、可扩展,几乎不增加计算量(token数量不变,速度接近原生DiT)。
这种先latent后pixel的细微调整,在ImageNet榜单上展现了出色的表现。
在相同计算规模,训练80个epochs的条件下,Latent Forcing在ImageNet-256任务中,条件生成的FID分数较此前最强的像素级模型JiT+REPA,从18.60降到9.76,接近腰斩。

在200个epoch的最终模型(ViT‑L 规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数。
创下像素空间扩散Transformer新的SOTA。

过去学术界普遍认为,必须通过更高倍率的有损压缩才能换取好的FID表现。
Latent Forcing则用数据反驳了这一观点——
在保持100%原始像素精度的情况下,我们依然能跑出超越有损模型的性能。
Latent Forcing项目由李飞飞领衔。
第一作者Alan Baade是李飞飞的学生,斯坦福计算机系博士生,在扩散模型和生成建模方向有深入研究。

其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。
此外,密歇根大学教授Justin Johnson作为合作作者参与其中。
论文地址:https://arxiv.org/abs/2602.11401
点个“爱心”,再走 吧
相关攻略
泰坦军团 G27T6T 显示器上架:三星 QD-OLED 2K 360Hz 面板,国补价 3298 5 元 最近,显示器市场又迎来一款值得关注的新品。泰坦军团的 G27T6T 显示器已在京东正式开售,核心卖点很明确:搭载了一块 26 5 英寸的三星 QD-OLED 面板,分辨率达到 2K,刷新率更是
构建自主可控的专利体系,掌握国际竞争主动权 作者 | 徐长卿 编辑丨高远山 来源 | 野马财经 你是否遇到过这样的烦恼:手机或手表屏幕不小心磕碰了一下,起初只是一个小点,随后黑斑却像墨水滴入清水般逐渐扩散开来,最终导致整块屏幕失灵?这个困扰用户多年的问题,其根源深植于OLED制造中一道名为精细金属掩
一加新品前瞻:天玑9500新机与影像旗舰在路上 最近数码圈又热闹起来了。综合各方消息来看,一加在接下来的几个月里,准备了好几款新品要和大家见面。 这不,知名爆料博主@数码闲聊站 又带来了一份新机情报。据称,这款新设备将搭载一块6 78英寸的1 5K分辨率屏幕,关键是刷新率直接拉到了165Hz,并且采
快科技4月6日消息,据博主 "智慧皮卡丘 "爆料,小米18系列将全系标配2亿像素长焦,影像能力大幅升级。尤其对于标准版来说,这还是第一次用上潜望长焦,补齐了远摄能力的最大短板,现在真正让小屏机也成为水桶
快科技4月7日消息,据博主爆料,尽管第一代产品的市场表现不尽如人意,苹果依然计划让iPhone Air系列正常迭代。无论目前的销量状况如何,苹果都将按部就班地推出第二代产品iPhone Air 2。
热门专题
热门推荐
实时掌握加密货币行情是每位投资者的必修课 精准的数据和强大的图表工具,是不是非得付费才能获得?其实不然。市面上有大量免费且功能卓越的网站,它们提供的数据深度和分析工具,完全能满足绝大多数投资者的看盘和研究需求。 免费好用的行情网站推荐 1 币安 (Binance) 作为全球交易量领先的交易所,币安
零跑D19正式上市:增程 纯电双版本共七款配置,首销权益详解 备受市场瞩目的零跑D19,其官方售价已于2026年4月16日正式公布。这款全新中大型SUV提供增程式与纯电动两种动力系统,共计七款车型配置。其中,增程版推出三款车型,售价区间为21 98万元至23 98万元;纯电版则提供四款车型,官方指导
龙之剑:觉醒Steam上线,2026年7月发售,虚幻5打造动画风开放世界 备受瞩目的动作角色扮演游戏《龙之剑:觉醒》现已正式登陆Steam平台,并公布将于2026年7月全球发售。游戏确认提供完整的官方中文支持,极大方便了华语区玩家获取信息与未来体验。 这款游戏的背景颇具渊源。它并非全新IP,而是基于
对于刚刚踏入加密货币世界的新手来说,找到一个信息准确、使用方便的免费行情网站至关重要 一个好的行情工具,远不止是看个价格那么简单。它就像你的市场雷达,既要能实时捕捉价格波动,又要能提供深度的图表和数据,帮你从纷繁的信息中理出头绪。那么,市面上有哪些公认好用的免费神器呢?下面就来盘点几个,助你轻松上手
TCOMAS钛钽幻世NEOX 360一体式水冷散热器正式上市发售 高端电脑散热领域迎来重磅新品。TCOMAS钛钽品牌推出的幻世NEOX 360一体式水冷CPU散热器,已于4月17日正式上市销售。目前,玩家已可通过京东平台直接购买。对于注重个性装机与极限性能的DIY用户来说,这款水冷散热器提供了经典黑





