开始之前

为什么入门AI绘画首选Stable Diffusion?
当前主流的图片AIGC工具,主要是Stable Diffusion和Midjourney两大阵营在较量,有人将之比作iOS与Android之争,这个比喻颇为贴切。MJ生成的图像美观完整,普通人发朋友圈、换头像绰绰有余。但如果你追求“心有所想,生而所得”,希望将创作控制权牢牢掌握在自己手中,SD才是那个值得投入时间深入钻研的AI绘画工具。
- 可控性。AI出图最大的痛点在于不可控——质量波动大、内容难以预期。MJ将控制权交给关键词,用户和开发者都在不断优化,但本质上仍是一个黑盒。SD则提供更多可调变量,从底层模型、采样器到各类扩展插件,每一步都能调整、修改、追溯源头,真正实现精细化控制。
- 开源生态,布局未来。不能说闭源不好,MJ降低使用门槛的思路值得肯定。但SD的开源生态正日益成熟,涌现出ControlNet、Tagger、DreamBooth等神级插件,将美术生产的效率与精度推向了全新高度,成为AI绘画进阶路上的核心优势。
- 灵活部署与隐私保障。SD既可以像MJ一样云端部署随时访问,也能本地部署利用自有算力跑图。对于游戏、影视等商业项目而言,数据隐私是刚需,不少团队只考虑SD本地部署方案。
- MJ的订阅费用不低。咳,MJ操作简单缺乏挑战性。咳,SD的知识体系确实较为碎片化,更需要一个扎实的入门基础。
有个不算特别恰当但很形象的比喻:MJ是自动挡汽车,SD是手动挡。掌握了手动挡,大概率能轻松驾驭自动挡,而且更容易两者兼修、打出组合拳。
准备工作
决定用Stable Diffusion来解决AI生图需求后,在初步了解AI与扩散模型工作原理的基础上,就要开始准备第一部分了。这里有三个关键要素,直接决定了后续能达到的质量与效率高度:算力、工具、模型。
硬件

“算力”这个词听起来很互联网黑话,但说到底,就是需要一台性能足够的电脑。最好配备独立的英伟达显卡,显存12GB以上,操作系统使用Windows。如果这些参数让你感到陌生,可以先看看这篇了解显卡与你的设备能否加入AI绘画行列:你看我这算力如何(硬件篇)。如果连计算机基础知识都不太熟悉,后面可能还需要出一篇:攒一台AI跑图打游戏两不误的小钢炮(硬件篇)(挖坑1)。
工具
硬件准备就绪后,就要挑选软件工具。SD借助开源工具,既可以云端部署,也能本地部署,利用本地硬件跑图,更加“私有”,也更灵活可控。当然,代价是需要忍受较为糟糕的用户体验和凌乱的界面,大概长这样。


目前主流的开源工具有两个:
- WebUI(Stable Diffusion WebUI):基于Gradio库,由大神automatic1111开发,全球开发者共同贡献,已成为最主流的AI绘画生产工具(上图1)。
- ComfyUI:采用流程图/模块化设计,连线式交互方式,更贴近游戏、影视行业的专业生产流程,学习门槛更高,但天花板也更高(上图2)。
我们主要使用WebUI作为入门工具,因为它生态更完善,学习门槛相对较低。ComfyUI解决了当前一些工作流的硬伤,未来潜力巨大。现在解压即用的懒人包是最推荐的入门方式,也可以自己搭建环境,如果是Mac系统,具体安装步骤可参考相关教程。

模型
模型是AIGC的灵魂,整个生态都围绕模型展开。模型在很大程度上决定了出图的风格、内容与画质。
Tips:因为先有扩散模型,才有如今大热的图像生成技术,后来才诞生了WebUI这些围绕模型服务的工具。模型在过去没有达到这样的高度,这里不追溯AI发展史以防杠。
模型获取主要靠自己训练和下载两种途径。由于SD开源,我们可以通过训练集微调(finetune)或融合(Mix)大模型,得到特定风格的模型,然后分享出来,让生态越来越丰富多元。


关于模型的更多格式与版本补充说明,可以看这篇。
准备完毕,尝试生成第一张图
你可以什么都不想,什么都不看,轻轻点击屏幕上那颗大大的、方方的、橘黄色的“生成”按钮。终端里会显示进度,右下角区域就会出现一张图,可能长这么个模样。

没有输入任何文字,没有调整任何参数,这张抽象的图好像还不错(如果你选的大模型比较写实,这张图可能更抽象)。看起来是一个不错的开始。
Step1. 先认参数
把大象装进冰箱,得先打开冰箱门。想要自己生成图片,就得先认识一张图片由哪些参数决定。刚才点击生成按钮后,在电脑右下角收获了一张图片,图片下方显示着一堆参数(每次生成都会展示)。


简单解释这些参数:
- Steps:迭代步数,取值与采样方法有关。根据图片质量和内容复杂度,取15-30之间,太高影响较小,回报递减,具体取决于采样器。
- Sampler:采样方法,不同方法效果和速度各异。Euler a就很好用,速度也快。其他采样器各有特点,需要耐心试试。
- CFGscale:图像与提示的匹配程度。值越大越贴近提示(但取决于模型),也会降低图像质量,可以用更多采样步骤抵消。默认7,更小则AI更具创造力,太高容易过饱和和混乱,一般很少调整。
- Seed:保持该值不变,可以多次生成相同(或相似)的图像。种子是决定生图结果的随机数。遇到不错的种子可以记住,下次继续使用。通常-1表示随机。
- Size:图片尺寸。默认512x512。更大的图片需要更多显存和更长生成时间。
- Model:选择的模型。Modelhash是模型的身份证。
- ENSD:对图像质量无提升,只为ancestral采样方法产生不同结果,可以忽略。
- Version:SD版本,不用关心。
- Clip skip:原理复杂但使用频繁。简单理解:写实图设置1,二次元设置2。有些精良模型会给出推荐值。

Step2. 再次认识WebUI

把WebUI界面分成几个区域,按逻辑归类:
- TAB功能模块:每个标签都是一个独立功能,如文生图、图生图、训练、设置,以及各种强大的插件。
- 关键词模块:两个大输入框,分别是正向关键词和反向关键词。这就是用文本控制出图的操作台。
- 设置模块:这些参数是不是很眼熟?就是生成图片后显示的那些参数,通过它们控制最终图片的样子(MJ策略性地隐藏了这部分)。
- 生成结果模块:预留空间实时预览生成过程和显示结果,多张图会罗列,底部还有参数信息和错误反馈。
- 插件脚本模块:用于放置生图前、中、后不同周期的插件。
Step3. 关键词和基础设置
在TAB功能模块找到“PNG图像信息”(PNG info),切换过去,导入一张AI生成的PNG图片,就会得到这样一组参数:


关键词

设置

复习一下上面的知识点:这只鞋子的参数是——采样步数20(默认)、采样器Euler a(默认)、CFG 7(默认)、种子balabala、尺寸512(默认)、Clip跳过2(默认)、模型deliberate_v2。除了模型,其他参数都和第一次生成一样。起到关键作用的是关键词+模型的组合。
关键词
- Prompt:用文字描述你想要的内容。正向关键词可以用英文自然语言,单词、词组、颜文字、emoji都行,用逗号或空格分割。词汇顺序、重复、权重、在模型中的自带权重等都会影响生成结果。
- Negative prompt:用文字描述你不想要的内容。格式语法与正向相同,两者互相影响。如果写了还出现,可以适当增加权重。格式:()、(())、(xxx:1.6)表示加重;[ ]、[ [ ] ]、[xxx:1.4]表示减轻。
模型
模型前面已经提过,WebUI的工作需要基于一个大模型,所以选模型放在最靠前的位置。这也是WebUI当前面临的问题:随着模型越来越多,开始变成条件因素而非唯一基础,模型串并联的工作流成为主要需求解法。与模型关联的还有一个参数VAE:它是一种学习潜在表示的深度学习技术,能影响出图色彩(模型篇有详细解释,这里简单理解即可)。
基础设置
是不是前面一大堆参数都默认不管就行了?在入门早期精力有限,确实可以都默认。但别小看它们——看看我调整了采样器和采样步数(仍然随机种子),又得到了下面这张图。


这些参数都会影响生图结果。具体每个参数的影响可以参考这篇。
再补充一个常用设置:Batch count / Batch size。前者决定生成几批图,后者每批生成几张图。如果显存足够,增加Batch Size;否则只增加Batch Count,得到的图片数量是两者之积(显存较小建议只改Batch Count)。
进阶部分
至此,恭喜你成功把大象装进了冰箱。至于再想装狮子老虎,就是进阶部分了。主要四个方向:图生图(包括局部重绘)、WebUI插件、小模型(LoRA、Embedding、Hypernetwork等)、大小模型的训练微调(俗称炼丹)。
图生图(img2img)&局部重绘(inpaint)
图生图本质仍是文生图,只是把参考图转成关键词信息,其他参数与文生图一致。掌握文生图后,图生图就很简单,只多了一个设置:Denoise strength。而局部重绘则是在图生图基础上多了一组蒙版设置。局部重绘在流程中能提供很好的解决方案:将生成图片导入局部重绘,对问题部分多次局部重绘,并可进行多次图生图。用一些第三方插件(如PS插件)会更自如,最新的PS官方也是相似的工作原理。利用好图生图和局部重绘是复杂工作流中的重要技能,后续实战篇会更多提及(挖坑2)。

插件
良好的开源生态让WebUI上有很多拓展工具。有些改变工作体验,有些实现革命性的问题解决。受篇幅影响不一一列举,先管中窥豹一下它们的强大。
很多整合包已经整合了好用的插件(这也是懒人包的亮点之一,大佬们的品味各有不同)。比如:
- ControlNet:用轮廓识别、动作识别、景深识别等预处理模型,让对应图片牢牢被控制住的神级插件!

- Tagger:通过图像识别反推关键词的插件。

还有DreamBooth训练插件、图片浏览插件、动画脚本等等,都是在已经很牛的工具上又提高了生产上限。WebUI本身提供了拓展功能,可以在拓展页面自己选择需要的插件工具:

更多插件的介绍和使用,会有专门的篇幅介绍,可以关注后续的更新。
