Stable Diffusion AI绘画保姆级教程

时间：2026-06-15 16:00

开始之前为什么入门AI绘画首选Stable Diffusion？当前主流的图片AIGC工具，主要是Stable Diffusion和Midjourney两大阵营在较量，有人将之比作iOS与Android之争，这个比喻颇为贴切。MJ生成的图像美观完整，普通人发朋友圈、换头像绰绰有余。但如果你追求“

开始之前

为什么入门AI绘画首选Stable Diffusion？

当前主流的图片AIGC工具，主要是Stable Diffusion和Midjourney两大阵营在较量，有人将之比作iOS与Android之争，这个比喻颇为贴切。MJ生成的图像美观完整，普通人发朋友圈、换头像绰绰有余。但如果你追求“心有所想，生而所得”，希望将创作控制权牢牢掌握在自己手中，SD才是那个值得投入时间深入钻研的AI绘画工具。

可控性。AI出图最大的痛点在于不可控——质量波动大、内容难以预期。MJ将控制权交给关键词，用户和开发者都在不断优化，但本质上仍是一个黑盒。SD则提供更多可调变量，从底层模型、采样器到各类扩展插件，每一步都能调整、修改、追溯源头，真正实现精细化控制。
开源生态，布局未来。不能说闭源不好，MJ降低使用门槛的思路值得肯定。但SD的开源生态正日益成熟，涌现出ControlNet、Tagger、DreamBooth等神级插件，将美术生产的效率与精度推向了全新高度，成为AI绘画进阶路上的核心优势。
灵活部署与隐私保障。SD既可以像MJ一样云端部署随时访问，也能本地部署利用自有算力跑图。对于游戏、影视等商业项目而言，数据隐私是刚需，不少团队只考虑SD本地部署方案。
MJ的订阅费用不低。咳，MJ操作简单缺乏挑战性。咳，SD的知识体系确实较为碎片化，更需要一个扎实的入门基础。

有个不算特别恰当但很形象的比喻：MJ是自动挡汽车，SD是手动挡。掌握了手动挡，大概率能轻松驾驭自动挡，而且更容易两者兼修、打出组合拳。

准备工作

决定用Stable Diffusion来解决AI生图需求后，在初步了解AI与扩散模型工作原理的基础上，就要开始准备第一部分了。这里有三个关键要素，直接决定了后续能达到的质量与效率高度：算力、工具、模型。

硬件

“算力”这个词听起来很互联网黑话，但说到底，就是需要一台性能足够的电脑。最好配备独立的英伟达显卡，显存12GB以上，操作系统使用Windows。如果这些参数让你感到陌生，可以先看看这篇了解显卡与你的设备能否加入AI绘画行列：你看我这算力如何（硬件篇）。如果连计算机基础知识都不太熟悉，后面可能还需要出一篇：攒一台AI跑图打游戏两不误的小钢炮（硬件篇）（挖坑1）。

工具

硬件准备就绪后，就要挑选软件工具。SD借助开源工具，既可以云端部署，也能本地部署，利用本地硬件跑图，更加“私有”，也更灵活可控。当然，代价是需要忍受较为糟糕的用户体验和凌乱的界面，大概长这样。

目前主流的开源工具有两个：

WebUI（Stable Diffusion WebUI）：基于Gradio库，由大神automatic1111开发，全球开发者共同贡献，已成为最主流的AI绘画生产工具（上图1）。
ComfyUI：采用流程图/模块化设计，连线式交互方式，更贴近游戏、影视行业的专业生产流程，学习门槛更高，但天花板也更高（上图2）。

我们主要使用WebUI作为入门工具，因为它生态更完善，学习门槛相对较低。ComfyUI解决了当前一些工作流的硬伤，未来潜力巨大。现在解压即用的懒人包是最推荐的入门方式，也可以自己搭建环境，如果是Mac系统，具体安装步骤可参考相关教程。

模型

模型是AIGC的灵魂，整个生态都围绕模型展开。模型在很大程度上决定了出图的风格、内容与画质。

Tips：因为先有扩散模型，才有如今大热的图像生成技术，后来才诞生了WebUI这些围绕模型服务的工具。模型在过去没有达到这样的高度，这里不追溯AI发展史以防杠。

模型获取主要靠自己训练和下载两种途径。由于SD开源，我们可以通过训练集微调（finetune）或融合（Mix）大模型，得到特定风格的模型，然后分享出来，让生态越来越丰富多元。

关于模型的更多格式与版本补充说明，可以看这篇。

准备完毕，尝试生成第一张图

你可以什么都不想，什么都不看，轻轻点击屏幕上那颗大大的、方方的、橘黄色的“生成”按钮。终端里会显示进度，右下角区域就会出现一张图，可能长这么个模样。

没有输入任何文字，没有调整任何参数，这张抽象的图好像还不错（如果你选的大模型比较写实，这张图可能更抽象）。看起来是一个不错的开始。

Step1. 先认参数

把大象装进冰箱，得先打开冰箱门。想要自己生成图片，就得先认识一张图片由哪些参数决定。刚才点击生成按钮后，在电脑右下角收获了一张图片，图片下方显示着一堆参数（每次生成都会展示）。

简单解释这些参数：

Steps：迭代步数，取值与采样方法有关。根据图片质量和内容复杂度，取15-30之间，太高影响较小，回报递减，具体取决于采样器。
Sampler：采样方法，不同方法效果和速度各异。Euler a就很好用，速度也快。其他采样器各有特点，需要耐心试试。
CFGscale：图像与提示的匹配程度。值越大越贴近提示（但取决于模型），也会降低图像质量，可以用更多采样步骤抵消。默认7，更小则AI更具创造力，太高容易过饱和和混乱，一般很少调整。
Seed：保持该值不变，可以多次生成相同（或相似）的图像。种子是决定生图结果的随机数。遇到不错的种子可以记住，下次继续使用。通常-1表示随机。
Size：图片尺寸。默认512x512。更大的图片需要更多显存和更长生成时间。
Model：选择的模型。Modelhash是模型的身份证。
ENSD：对图像质量无提升，只为ancestral采样方法产生不同结果，可以忽略。
Version：SD版本，不用关心。
Clip skip：原理复杂但使用频繁。简单理解：写实图设置1，二次元设置2。有些精良模型会给出推荐值。

Step2. 再次认识WebUI

把WebUI界面分成几个区域，按逻辑归类：

TAB功能模块：每个标签都是一个独立功能，如文生图、图生图、训练、设置，以及各种强大的插件。
关键词模块：两个大输入框，分别是正向关键词和反向关键词。这就是用文本控制出图的操作台。
设置模块：这些参数是不是很眼熟？就是生成图片后显示的那些参数，通过它们控制最终图片的样子（MJ策略性地隐藏了这部分）。
生成结果模块：预留空间实时预览生成过程和显示结果，多张图会罗列，底部还有参数信息和错误反馈。
插件脚本模块：用于放置生图前、中、后不同周期的插件。

Step3. 关键词和基础设置

在TAB功能模块找到“PNG图像信息”（PNG info），切换过去，导入一张AI生成的PNG图片，就会得到这样一组参数：

关键词

设置

复习一下上面的知识点：这只鞋子的参数是——采样步数20（默认）、采样器Euler a（默认）、CFG 7（默认）、种子balabala、尺寸512（默认）、Clip跳过2（默认）、模型deliberate_v2。除了模型，其他参数都和第一次生成一样。起到关键作用的是关键词+模型的组合。

关键词

Prompt：用文字描述你想要的内容。正向关键词可以用英文自然语言，单词、词组、颜文字、emoji都行，用逗号或空格分割。词汇顺序、重复、权重、在模型中的自带权重等都会影响生成结果。
Negative prompt：用文字描述你不想要的内容。格式语法与正向相同，两者互相影响。如果写了还出现，可以适当增加权重。格式：()、(())、(xxx:1.6)表示加重；[ ]、[ [ ] ]、[xxx:1.4]表示减轻。

模型

模型前面已经提过，WebUI的工作需要基于一个大模型，所以选模型放在最靠前的位置。这也是WebUI当前面临的问题：随着模型越来越多，开始变成条件因素而非唯一基础，模型串并联的工作流成为主要需求解法。与模型关联的还有一个参数VAE：它是一种学习潜在表示的深度学习技术，能影响出图色彩（模型篇有详细解释，这里简单理解即可）。

基础设置

是不是前面一大堆参数都默认不管就行了？在入门早期精力有限，确实可以都默认。但别小看它们——看看我调整了采样器和采样步数（仍然随机种子），又得到了下面这张图。

这些参数都会影响生图结果。具体每个参数的影响可以参考这篇。

再补充一个常用设置：Batch count / Batch size。前者决定生成几批图，后者每批生成几张图。如果显存足够，增加Batch Size；否则只增加Batch Count，得到的图片数量是两者之积（显存较小建议只改Batch Count）。

进阶部分

至此，恭喜你成功把大象装进了冰箱。至于再想装狮子老虎，就是进阶部分了。主要四个方向：图生图（包括局部重绘）、WebUI插件、小模型（LoRA、Embedding、Hypernetwork等）、大小模型的训练微调（俗称炼丹）。

图生图（img2img）&局部重绘（inpaint）

图生图本质仍是文生图，只是把参考图转成关键词信息，其他参数与文生图一致。掌握文生图后，图生图就很简单，只多了一个设置：Denoise strength。而局部重绘则是在图生图基础上多了一组蒙版设置。局部重绘在流程中能提供很好的解决方案：将生成图片导入局部重绘，对问题部分多次局部重绘，并可进行多次图生图。用一些第三方插件（如PS插件）会更自如，最新的PS官方也是相似的工作原理。利用好图生图和局部重绘是复杂工作流中的重要技能，后续实战篇会更多提及（挖坑2）。