首页 游戏 软件 资讯 排行榜 专题
首页
科技数码
李飞飞团队新突破:简单调整生成顺序,显著提升图像生成质量

李飞飞团队新突破:简单调整生成顺序,显著提升图像生成质量

热心网友
64
转载
2026-02-15


文章转载于量子位
作者:闻乐

长期以来,AI生图被一个经典矛盾困扰。

潜空间模型效率高,但细节有损耗;像素空间模型保真度高,却容易结构混乱、速度慢。

要么快要没准,大家几乎默认这是架构带来的取舍问题,没法彻底解决。

但扩散模型生图,顺序真的对吗?

李飞飞团队最新论文提出的Latent Forcing方法直接打破了这一共识,他们发现生成的质量瓶颈不在架构,而在顺序。


简单说就像画画必须先打草稿再填色,AI也需要一个「先定结构、后填细节」的强制逻辑。

Latent Forcing仅通过重排生成轨迹,像素扩散模型不仅找回了效率,更在多项指标上刷新SOTA。

1

传统方法瓶颈

在深入了解Latent Forcing之前,咱先来说说当前两大方法的瓶颈。

传统像素级扩散模型之所以画图会画歪,是因为它在降噪过程中,高频的纹理细节往往会干扰低频的语义结构。

模型常常在还没搞清楚物体的整体轮廓时,就被迫去预测局部的像素颜色,其实这在本质上就违背了视觉生成的自然逻辑。

为了解决这个问题,行业此前大多转向潜空间。

它通过预训练的tokenizer把图像压到低维空间,生成速度飞起。

但潜空间模型必须依赖一个预训练的解码器,但这不仅会引入重建误差,也让模型失去了端到端建模原始数据的能力。


于是李飞飞团队思考——

能不能既保留像素级的无损精度,又获得潜空间的结构引导?

1

先打个草稿

Latent Forcing的答案是——

对扩散轨迹重新排序。


怎么做的呢?

在不改变基础Transformer架构的前提下,引入了双时间变量机制。

在训练和生成过程中,模型会同时处理像素和潜变量。不同的是,团队为两者定制了独立的降噪节奏:

潜变量先行:在生成初期,潜变量会率先完成降噪,在大尺度上确立图像的语义骨架;

像素填色:在结构确定后,像素部分再跟进进行精细化降噪。


这么一看,潜变量就像是一个临时的草稿本。

生成结束时,这个草稿本直接丢弃,最终输出仍是100%无损的原始像素图像,没有任何decoder。

整个过程端到端、可扩展,几乎不增加计算量(token数量不变,速度接近原生DiT)。

这种先latent后pixel的细微调整,在ImageNet榜单上展现了出色的表现。

在相同计算规模,训练80个epochs的条件下,Latent Forcing在ImageNet-256任务中,条件生成的FID分数较此前最强的像素级模型JiT+REPA,从18.60降到9.76,接近腰斩。


在200个epoch的最终模型(ViT‑L 规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数。

创下像素空间扩散Transformer新的SOTA。


过去学术界普遍认为,必须通过更高倍率的有损压缩才能换取好的FID表现。

Latent Forcing则用数据反驳了这一观点——

在保持100%原始像素精度的情况下,我们依然能跑出超越有损模型的性能。

Latent Forcing项目由李飞飞领衔。

第一作者Alan Baade是李飞飞的学生,斯坦福计算机系博士生,在扩散模型和生成建模方向有深入研究。


其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。

此外,密歇根大学教授Justin Johnson作为合作作者参与其中。

论文地址:https://arxiv.org/abs/2602.11401

点个“爱心”,再走 吧

来源:https://www.163.com/dy/article/KLQ86U440511N33R.html
免责声明: 游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关攻略

华星光电发布5131PPI显示屏 创像素密度新高引领国产屏幕技术
业界动态
华星光电发布5131PPI显示屏 创像素密度新高引领国产屏幕技术

每年五月的Display Week盛会,堪称全球显示技术领域的风向标与竞技场。今年在洛杉矶,各大厂商纷纷亮出最新成果,而华星光电带来的一款“微缩”显示屏,成为了全场瞩目的焦点。 这款显示屏的尺寸仅为0 28英寸,小巧到足以无缝集成于任何追求极致轻薄的AR智能眼镜镜腿或镜框之中。其最令人惊叹之处在于像

热心网友
05.13
泰坦军团26.5英寸G27T6T显示器开售,国补价3298.5元
业界动态
泰坦军团26.5英寸G27T6T显示器开售,国补价3298.5元

泰坦军团 G27T6T 显示器上架:三星 QD-OLED 2K 360Hz 面板,国补价 3298 5 元 最近,显示器市场又迎来一款值得关注的新品。泰坦军团的 G27T6T 显示器已在京东正式开售,核心卖点很明确:搭载了一块 26 5 英寸的三星 QD-OLED 面板,分辨率达到 2K,刷新率更是

热心网友
04.22
维信诺智能像素技术量产出货,中国屏幕告别“金属网”束缚?
科技数码
维信诺智能像素技术量产出货,中国屏幕告别“金属网”束缚?

构建自主可控的专利体系,掌握国际竞争主动权 作者 | 徐长卿 编辑丨高远山 来源 | 野马财经 你是否遇到过这样的烦恼:手机或手表屏幕不小心磕碰了一下,起初只是一个小点,随后黑斑却像墨水滴入清水般逐渐扩散开来,最终导致整块屏幕失灵?这个困扰用户多年的问题,其根源深植于OLED制造中一道名为精细金属掩

热心网友
04.21
一加 Ace 6 至尊版再曝,搭载天玑9500旗舰芯
业界动态
一加 Ace 6 至尊版再曝,搭载天玑9500旗舰芯

一加新品前瞻:天玑9500新机与影像旗舰在路上 最近数码圈又热闹起来了。综合各方消息来看,一加在接下来的几个月里,准备了好几款新品要和大家见面。 这不,知名爆料博主@数码闲聊站 又带来了一份新机情报。据称,这款新设备将搭载一块6 78英寸的1 5K分辨率屏幕,关键是刷新率直接拉到了165Hz,并且采

热心网友
04.14
史诗升级!小米18全系标配2亿像素长焦
科技数码
史诗升级!小米18全系标配2亿像素长焦

快科技4月6日消息,据博主 "智慧皮卡丘 "爆料,小米18系列将全系标配2亿像素长焦,影像能力大幅升级。尤其对于标准版来说,这还是第一次用上潜望长焦,补齐了远摄能力的最大短板,现在真正让小屏机也成为水桶

热心网友
04.07

最新APP

宝宝过生日
宝宝过生日
应用辅助 04-07
台球世界
台球世界
体育竞技 04-07
解绳子
解绳子
休闲益智 04-07
骑兵冲突
骑兵冲突
棋牌策略 04-07
三国真龙传
三国真龙传
角色扮演 04-07

热门推荐

吉港航天科技合作成果丰硕 两地深度融合促发展
科技数码
吉港航天科技合作成果丰硕 两地深度融合促发展

香港科技大学牵头研制的“天韵相机”随天舟十号升空,该项目由内地与香港科研团队合作完成,体现了双方优势互补的高效能。香港科研正深度融入国家发展大局,从“参与”转变为“不可或缺”的一部分。项目不仅激励更多机构参与国家重大工程,还积极推动成果转化,相关企业正将监测数据转化。

热心网友
05.15
英伟达股价突破236美元创历史新高 市值接近6万亿美元
科技数码
英伟达股价突破236美元创历史新高 市值接近6万亿美元

英伟达股价5月14日创下236 54美元历史新高,收盘涨4 39%至235 74美元,盘后交易继续微涨,公司总市值攀升至约5 71万亿美元。

热心网友
05.15
PENGU代币机制解析:Pudgy Penguins生态亮点与赛道定位全攻略
web3.0
PENGU代币机制解析:Pudgy Penguins生态亮点与赛道定位全攻略

PudgyPenguins生态代币PENGU采用创新的质押与销毁机制,旨在平衡价值捕获与社区激励。其定位超越了传统NFT项目,致力于构建一个融合实体商品、游戏与社交的综合性IP生态。通过独特的“灵魂绑定”特质和多元化的应用场景,PENGU力图在竞争激烈的Web3赛道中,探索出一条可持续的IP价值实现路径。

热心网友
05.15
马斯克起诉OpenAI案最新进展结案陈词阶段
科技数码
马斯克起诉OpenAI案最新进展结案陈词阶段

马斯克起诉OpenAI案进入结案陈词阶段。马斯克指控OpenAI背离非营利初衷,违反信托义务并转向营利,其律师质疑奥特曼信誉并指责微软协助不当行为。OpenAI律师反驳称马斯克证词矛盾,且其本人也曾试图控制公司获利。诉讼结果可能取决于是否在法定时效内提起,并将影响OpenAI未来发展与IPO进程。

热心网友
05.15
苹果与OpenAI合作破裂或将面临法律诉讼
科技数码
苹果与OpenAI合作破裂或将面临法律诉讼

彭博社报道,OpenAI对与苹果的合作现状非常失望,ChatGPT集成未达预期增长。OpenAI正评估法律选项,可能向苹果发出违约通知。双方于2024年宣布深度合作,但功能入口较深、收入低于预期。苹果则关注OpenAI隐私标准及硬件动向。科技公司与苹果合作历来复杂,历史案例包括谷歌地图、AdobeFlash及Spotify纠纷。

热心网友
05.15