本次查询:Diffusion Model
中文解释:扩散模型
常见场景:AI图像生成 / AI绘画 / 内容创作 / 艺术设计 / 视频生成
一句话解释
Diffusion Model(扩散模型)是一种生成式AI模型,它通过模仿“从噪声中逐步恢复清晰图像”的过程,来创造出全新的、高质量的图片、音频甚至视频。
为什么会被关注
自2022年以来,以Stable Diffusion、Midjourney、DALL·E 2为代表的AI绘画工具席卷全球,其背后共同的核心技术正是扩散模型。它生成的图像质量高、细节丰富、可控性强,极大地降低了高质量视觉内容的创作门槛,引发了从艺术创作到商业设计的广泛变革,因此成为AI领域最受瞩目的技术之一。
核心逻辑
扩散模型的核心是一个“先破坏,再学习重建”的两阶段过程。第一阶段是“前向扩散”:将一张真实图片逐步添加高斯噪声,经过数百步后,图片会变成一张完全随机的噪声图。
第二阶段是“反向去噪”:模型的核心任务是学习如何从一张纯噪声图中,一步步地预测并去除噪声,最终还原成一张清晰的、符合要求的图片。通过在海量数据上训练,模型学会了“去噪”的规律,从而具备了从无到有的创造能力。
常见场景
AI绘画与图像生成:用户输入文字描述(提示词),模型生成对应图像,这是最主流的应用。
图像编辑与修复:包括图像补全(如修复老照片)、图像超分辨率(提升清晰度)、风格迁移(将照片转为特定画风)等。
跨模态生成:除了文生图,还包括图生文、音频生成、3D模型生成,以及在生物医药领域用于生成分子结构等前沿探索。
容易混淆的点
与GAN(生成对抗网络)的区别:两者都是生成模型。GAN通过生成器和判别器“对抗”训练,而扩散模型是“自回归”地逐步去噪。扩散模型通常训练更稳定,生成样本多样性更好,但生成速度相对较慢。
“扩散”的含义:这里的“扩散”并非指信息传播,而是借用了物理学中“粒子从高浓度向低浓度扩散”的概念,类比图像信息在添加噪声过程中逐渐“消散”成随机状态的过程。
