首先给出一个关键结论:想要Stable Diffusion在绘制赛博城市图之前主动询问你“霓虹灯密度多少”“是否添加飞行车”“要不要雨夜效果”——仅靠提示词本身无法实现。原生WebUI采用单向输入模式,用户输入什么AI就生成什么,不存在“AI主动提问”的机制。要实现真正的交互式追问,必须借助外部工具或插件。

那么具体如何实现?当前主要有三种主流方案,各有其特点和应用场景。
使用ComfyUI与Prompt Questioner节点实现追问机制
这种方法采用自定义节点方案,适合熟悉ComfyUI工作流的用户。具体操作步骤如下:
首先打开ComfyUI,在Manager中点击Install Custom Nodes,搜索“prompt-questioner”并安装。安装完成后,加载一个预设工作流(.json文件),确保其中包含Questioner节点。该节点会阻断整个执行流程——点击生成后不会立即出图,而是弹出一个浮动面板,其中包含多个输入框,用于填写“霓虹密度”“飞行车数量”“是否含雨夜反光”等结构化参数。
填写完毕后,不要急于提交。有一个常见陷阱:Questioner节点输出的提示词字符串必须进行格式清洗。如果不处理,空格或换行符会混入CLIP文本编码环节,导致报错中断。因此,务必在节点之间添加格式处理步骤。
最后一步,运行工作流。首次点击Queue时,界面不会直接开始采样,而是弹出一个浮动窗口,标题为“Describe your cyber city”,下方包含三个必填输入框和一个下拉选择。填写所有内容并点击Submit后,系统才会进入实际采样阶段。这才是真正的“追问”机制——AI在生成前先收集用户的详细需求。
借助AUTOMATIC1111 WebUI与Dynamic Prompts插件模拟追问效果
如果你不想迁移到ComfyUI,希望在WebUI中实现类似功能,Dynamic Prompts插件是一个可行的选择。不过它本质上只是模拟,并非真正的暂停和等待用户输入。
有两种常见玩法。第一种是启用插件的“Prompt Matrix”模式。在正向提示词栏里这样写:cyberpunk city, [neon:low|medium|high], [weather:dry|rainy|foggy], [time:day|dusk|night]。每次生成,系统会自动组合出9张图,相当于用网格穷举了你可能喜欢的各种搭配。简单来说,就是让AI先产生一批选项,你来查看并挑选。
第二种方法是手动分两轮操作。第一轮仅输入一个基础词cyber city wide shot,生成4张缩略图。从中选择最接近预期的一张,右键点击“Send to txt2img”,WebUI会自动将这张图的CLIP特征反推为补充描述,追加到原提示词末尾。然后进行微调,再次生成。这个流程类似“先试镜,再定稿”,但全程由用户决策,AI并未真正主动询问。
需要明确一点:Dynamic Prompts无法真正让生成过程暂停等待用户输入。它只是将多个选项压缩为一次批量任务,用户需要自行查看结果并判断,而非AI主动追问细节。
绕过界面限制,在提示词中设置人工触发开关
如果你既不想更换工具,也不想安装插件,还有一个偏方:在提示词中为自己设置一个“手动开关”。
方法很简单,在正向提示词开头添加一句指令型短语:[WAIT FOR USER CONFIRMATION: type 'go' after reading specs]。虽然AI不会识别这行文字,也不会因此暂停生成,但它能提醒你——每次粘贴提示词后,先不要急于生成,而是对照清单检查:【是否已明确主楼高度层级?是否已决定AI视角是俯拍还是第一人称?】。只有确认所有参数正确无误,再手动删除方括号内容,然后提交。
这种方法听起来有些原始,但确实有效。本质上是将“AI主动提问”转变为“自己设置确认环节”。虽然效率稍低,但对于单次高质量出图来说,比生成失败后重新绘制更加划算。
