Stable Diffusion 3震撼发布，20亿参数Medium模型率先开源，开启图像生成新纪元_AI热点日报

Stable Diffusion 3震撼发布，20亿参数Medium模型率先开源，开启图像生成新纪元

类型：热点整理2026-05-30

StableDiffusion3Medium模型（20亿参数）发布，采用多模态扩散Transformer（MMDiT）架构和修正流公式，在图像质量、文本遵循度及排版能力上超越现有模型。未来还将开源40亿和80亿参数版本，适用于艺术创作、广告设计、游戏开发等场景。

前言

Stability AI 一直是开源图像生成领域的重要推动者，近期他们再次带来了突破性进展。2025年6月12日，Stable Diffusion 3 的 Medium 模型正式发布，参数量为20亿。从已公布的成果来看，它在图像质量、文本指令遵循度以及文字排版能力方面，均展现出超越现有模型的优异表现。可以确定的是，这并非终点——未来还将陆续开源40亿和80亿参数的版本，以满足不同应用场景的需求。

技术特点

Stable Diffusion 3 本次最突出的亮点在于采用了一套全新架构——多模态扩散Transformer，简称 MMDiT。与之前的版本相比，这套架构在设计思路上发生了根本性变化。

关键改进体现在两个方面：

独立的权重集。 通俗来说，就是为图像和文字分别配备了专属的“处理核心”。它们各自在独立空间中进行运算，同时又能够相互影响。这一设计直接提升了模型对复杂文本指令的理解能力，也让最终的图文匹配度更高。
双向信息流。 信息不再只是单向地从文本流向图像。MMDiT 允许图像与文本的 token 之间进行双向通信。模型不仅能根据文字生成图像，反过来也能理解图像中的信息，并据此微调生成过程。这种深度交互，正是提升图像质量和文本遵循度的关键因素。

除了架构创新，Stable Diffusion 3 还采用了名为 修正流 的公式。该方法在训练时将数据与噪声连接成一条直线轨迹，从而简化了推断路径。带来的好处非常直接：只需更少的采样步骤，就能生成高质量图像。配合新的 轨迹采样调度，模型在训练过程中对中间环节的预测能力也得到显著增强。

性能表现

Stability AI 进行了大量对比测试，对手包括 DALL·E 3、Midjourney v6、Ideogram v1 以及其他主流开源模型。结果充分说明，Stable Diffusion 3 在三个维度上表现尤为突出：

文本遵循度： 它能更精准地将文字描述转化为图像细节，生成的画面与提示词之间的匹配度非常高。
图像质量： 在视觉质感上更胜一筹，细节更丰富，艺术感更强。
排版能力： 这是一个许多模型都难以攻克的难点，但 Stable Diffusion 3 处理得相当出色，生成的文字图像美观且清晰易读。

在实际运行中，80亿参数的版本可以在 RTX 4090 上流畅运行，生成一张 1024x1024 的图像大约需要34秒。为了降低硬件门槛，Stability AI 计划后续推出 40亿和 80亿参数的多个版本，这确实照顾到了不同用户的实际需求。

应用场景

这套模型的适用范围非常广泛，几乎覆盖了所有需要图像生成的领域：

艺术创作： 艺术家可以借此快速探索各种风格，激发灵感，辅助创作实验。
广告设计： 设计师能根据创意需求，快速生成符合要求的广告素材，极大提升工作效率。
游戏开发： 从场景、人物到道具，游戏开发者可借助它快速填充视觉内容，增强作品的沉浸感。
影视制作： 在影视预可视化、场景设计等环节，它也能提供高效的视觉支撑。

总结

Stable Diffusion 3 的发布，确实在文本到图像生成领域迈出了坚实的一步。全新的 MMDiT 架构、扎实的生成效果，加上开源带来的生态潜力，使其毫无悬念地成为目前最值得关注的开源图像生成模型之一。随着技术演进和更多参数版本的释放，它能为各行业带来的价值，值得持续期待。

来源：https://www.53ai.com/news/LargeLanguageModel/2024061315368.html

ai 人工智能

延伸阅读

补充最近整理过的热点入口。