游乐游手机版
首页/AI热点日报/热点详情

Stable Diffusion 3震撼发布,20亿参数Medium模型率先开源,开启图像生成新纪元

类型:热点整理2026-05-30
StableDiffusion3Medium模型(20亿参数)发布,采用多模态扩散Transformer(MMDiT)架构和修正流公式,在图像质量、文本遵循度及排版能力上超越现有模型。未来还将开源40亿和80亿参数版本,适用于艺术创作、广告设计、游戏开发等场景。

前言

Stability AI 一直是开源图像生成领域的重要推动者,近期他们再次带来了突破性进展。2025年6月12日,Stable Diffusion 3 的 Medium 模型正式发布,参数量为20亿。从已公布的成果来看,它在图像质量、文本指令遵循度以及文字排版能力方面,均展现出超越现有模型的优异表现。可以确定的是,这并非终点——未来还将陆续开源40亿和80亿参数的版本,以满足不同应用场景的需求。

技术特点

Stable Diffusion 3 本次最突出的亮点在于采用了一套全新架构——多模态扩散Transformer,简称 MMDiT。与之前的版本相比,这套架构在设计思路上发生了根本性变化。

关键改进体现在两个方面:

  • 独立的权重集。 通俗来说,就是为图像和文字分别配备了专属的“处理核心”。它们各自在独立空间中进行运算,同时又能够相互影响。这一设计直接提升了模型对复杂文本指令的理解能力,也让最终的图文匹配度更高。
  • 双向信息流。 信息不再只是单向地从文本流向图像。MMDiT 允许图像与文本的 token 之间进行双向通信。模型不仅能根据文字生成图像,反过来也能理解图像中的信息,并据此微调生成过程。这种深度交互,正是提升图像质量和文本遵循度的关键因素。

除了架构创新,Stable Diffusion 3 还采用了名为 修正流 的公式。该方法在训练时将数据与噪声连接成一条直线轨迹,从而简化了推断路径。带来的好处非常直接:只需更少的采样步骤,就能生成高质量图像。配合新的 轨迹采样调度,模型在训练过程中对中间环节的预测能力也得到显著增强。

性能表现

Stability AI 进行了大量对比测试,对手包括 DALL·E 3、Midjourney v6、Ideogram v1 以及其他主流开源模型。结果充分说明,Stable Diffusion 3 在三个维度上表现尤为突出:

  • 文本遵循度: 它能更精准地将文字描述转化为图像细节,生成的画面与提示词之间的匹配度非常高。
  • 图像质量: 在视觉质感上更胜一筹,细节更丰富,艺术感更强。
  • 排版能力: 这是一个许多模型都难以攻克的难点,但 Stable Diffusion 3 处理得相当出色,生成的文字图像美观且清晰易读。

在实际运行中,80亿参数的版本可以在 RTX 4090 上流畅运行,生成一张 1024x1024 的图像大约需要34秒。为了降低硬件门槛,Stability AI 计划后续推出 40亿 和 80亿 参数的多个版本,这确实照顾到了不同用户的实际需求。

应用场景

这套模型的适用范围非常广泛,几乎覆盖了所有需要图像生成的领域:

  • 艺术创作: 艺术家可以借此快速探索各种风格,激发灵感,辅助创作实验。
  • 广告设计: 设计师能根据创意需求,快速生成符合要求的广告素材,极大提升工作效率。
  • 游戏开发: 从场景、人物到道具,游戏开发者可借助它快速填充视觉内容,增强作品的沉浸感。
  • 影视制作: 在影视预可视化、场景设计等环节,它也能提供高效的视觉支撑。

总结

Stable Diffusion 3 的发布,确实在文本到图像生成领域迈出了坚实的一步。全新的 MMDiT 架构、扎实的生成效果,加上开源带来的生态潜力,使其毫无悬念地成为目前最值得关注的开源图像生成模型之一。随着技术演进和更多参数版本的释放,它能为各行业带来的价值,值得持续期待。

来源:https://www.53ai.com/news/LargeLanguageModel/2024061315368.html

相关热点

继续查看同栏目近期热点。

延伸阅读

补充最近整理过的热点入口。