Automatic1111 WebUI:Stable Diffusion 全能操作界面
Automatic1111 WebUI 完全指南:Stable Diffusion 全能操作界面
Automatic1111 WebUI(简称 A1111)是目前功能最丰富、社区最活跃的 Stable Diffusion 图形化操作界面。它整合了从文生图、图生图到模型训练、扩展管理的完整工作流,且完全免费开源。本教程将从零开始,带你完成安装、配置和深度使用,即使你是第一次接触 AI 绘画,也能快速上手并掌握高阶技巧。
1. 什么是 Automatic1111 WebUI?
Automatic1111 WebUI 是一个基于 Gradio 构建的 Stable Diffusion 操作界面,由开发者 AUTOMATIC1111 主导开发。它几乎涵盖了 SD 生态中的所有核心能力:
- 文生图(txt2img)与图生图(img2img)
- 局部重绘(inpainting/outpainting)
- 高清修复、面部修复、放大算法
- 多种采样器和调度器支持
- 提示词预设、负面提示词嵌入
- LoRA、ControlNet、AnimateDiff 等插件的便捷集成
- 采样过程实时预览与中断控制
- 模型管理与融合
相比其他 UI(如 ComfyUI),A1111 的学习路径更平滑,特别适合初学者快速获得高质量结果,同时为进阶用户保留了足够深的定制空间。
2. 环境要求与安装
2.1 Windows 系统本地安装(推荐)
Windows 是最友好的入门环境,A1111 提供了一键安装包。但为了彻底掌握,建议使用手动安装方式。
前置要求:
- 操作系统:Windows 10 或 11
- GPU:NVIDIA 显卡,显存 ≥ 4GB(6GB+ 更佳)
- Python 3.10.6(务必使用此版本,官方要求)
- Git 客户端
安装步骤:
-
安装 Python 3.10.6 前往 python.org 下载安装包。安装时务必勾选 “Add Python to PATH”。
-
安装 Git 从 git-scm.com 下载并安装,所有默认选项即可。
-
克隆代码仓库 在你想存放 WebUI 的目录(例如
D:\AI\)打开命令行窗口,执行:git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git这会创建一个
stable-diffusion-webui文件夹。 -
放置基础模型 将下载好的 Stable Diffusion 模型文件(
.ckpt或.safetensors)放入stable-diffusion-webui\models\Stable-diffusion内。若无模型,可先从 Hugging Face 下载v1-5-pruned-emaonly.safetensors或更流行的社区模型(如DreamShaper)。 -
运行 WebUI 在
stable-diffusion-webui目录下双击webui-user.bat,系统将自动创建虚拟环境、安装 PyTorch 等依赖。首次启动会耗费较长时间,等待命令行窗口出现Running on local URL: http://127.0.0.1:7860即为成功。
2.2 Linux 系统本地安装
Linux 安装步骤与 Windows 基本一致,但需注意 Python 版本和 CUDA 工具包。推荐使用 conda 管理环境:
conda create -n sdwebui python=3.10.6
conda activate sdwebui
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
python launch.py --listen
若使用远程服务器,添加 --listen 可允许局域网内其他设备访问。
2.3 通过 Google Colab 免费云端运行
如果你没有高性能显卡,可使用 Colab 体验。虽然官方 Colab 笔记本已停更,但社区维护版本依然可用。注意:免费版 Colab 有使用时长限制。
- 访问一个可用的 Colab 笔记本(搜索 “Automatic1111 Colab” 获取最新链接)。
- 连接前勾选 Runtime -> Change runtime type -> GPU。
- 点击播放按钮执行所有单元格,等待约 5-10 分钟。
- 当输出显示 Gradio 链接时,点击即可打开界面。
3. 界面全览与基础设置
启动后,浏览器打开 http://127.0.0.1:7860 即可看到主界面。顶部标签页对应所有工作模式,左侧是参数控制区,右侧是生成结果展示区。
3.1 顶栏关键功能
- txt2img:文生图,最核心的生成模式。
- img2img:图生图,基于参考图生成变体。
- Extras:单图后期处理,用于放大或优化。
- PNG Info:读取图片中隐藏的生成参数。
- Checkpoint Merger:模型融合工具。
- Train:嵌入式训练、超网络训练等。
- Settings:系统设置页面。
新手建议先保持默认参数,熟悉后再逐步调整。
3.2 快速调整性能与显存
在 Settings 标签页中,可以针对低显存进行优化:
- Cross attention optimization:选择
xformers(需安装)或sdp-no-mem,降低显存占用。 - Batch size 不要超过显存承受范围,4GB 显存建议设为 1。
- 勾选
Enable quantization in K-diffusion可进一步降低生成时的显存消耗。
如果遇到 CUDA out of memory,优先减小生成分辨率、关闭大模型并行加载。
4. 文生图(txt2img)深度讲解
文生图是整个 WebUI 的基石。写好一句提示词,AI 就能创作出惊人的画面。但高质量输出取决于你对各个参数的理解。
4.1 提示词(Prompt)与负面提示词(Negative Prompt)
正面提示词:描述画面内容,越精细越好。采用自然语言或标签堆叠均可,例如:
masterpiece, best quality, 1girl, long hair, floating hair, detailed eyes, cherry blossoms, soft lighting, trend on artstation
负面提示词:排除你不想要的东西,是提升质量的关键。常用负面词模板:
lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, jpeg artifacts, watermark, username, blurry
权重语法:
(word):增加 1.1 倍权重;((word))增加 1.21 倍,以此类推。[word]:降低权重。(word:1.5):自定义倍率,括号内写词和数值,无需逗号。- 提示词长度通常控制在 75 个 token 以内效果最好,超长提示词会被分段处理。
4.2 采样器与调度器(Sampler & Schedule)
采样器(Sampler)控制图像从噪声到清晰的过程。不同采样器收敛速度与画面风格略有差异:
- Euler a、DPM++ 2M Karras:温和稳定,适合大多数主题。
- DPM++ SDE Karras:细节更丰富,但生成速度较慢。
- DPM adaptive:无视步数设定,自动判断收敛,结果偏写实。
- PLMS:早期经典,现已不常用。
采样步数(Sampling steps):通常设置为 20 - 30 即可获得不错结果,过高步数不一定提升画质,且会增加时间。部分采样器(如 DPM++ 2M)对低步数也表现良好。
调度器(Schedule type):A1111 允许在同一采样器下选择不同噪声调度表,如 Karras、Exponential、SGM Uniform 等,影响收敛曲线。Karras 会稍微增加对比度,适合大多数情况。
4.3 分辨率与种子
宽度与高度:SD 1.5 标准训练分辨率为 512×512,大幅超出此值会导致结构错误(如多头、扭曲),推荐使用 Hires.fix(高清修复)生成高分辨率图。SDXL 模型原生支持 1024×1024。
种子(Seed):-1 表示随机。固定种子可以复现完全相同的图片;稍作改变种子可以微调构图。
4.4 Hires.fix(高清修复)
Hires.fix 是 A1111 至关重要的功能,它先生成低分辨率初稿,然后通过放大算法将细节重绘到目标分辨率,避免 AI 生成时产生混乱结构。
设置建议:
- 启用
Hires. fix - 放大算法:
R-ESRGAN 4x+或4x-UltraSharp(写实类)/Latent (bicubic antialiased)(艺术类) - 放大倍数:2x(512→1024)
- Hires steps:10 - 20
- 去噪强度:0.5 - 0.7(过高会严重改变构图)
Hires.fix 可有效解决远景模糊、细节缺失问题。
5. 图生图(img2img)与局部重绘
5.1 基本图生图
上传一张图片作为输入,AI 会模仿其构图并生成新图。关键参数是 去噪强度(Denoising strength):
- 0 ~ 0.3:细调颜色和细节,基本保持原图结构。
- 0.4 ~ 0.6:产生明显变化,但大体构图不变。
- 0.7 ~ 1.0:偏离原图,高值接近纯随机生成。
常用于风格迁移、图片优化或角色换装。
5.2 局部重绘(Inpaint)
勾选 img2img 标签下的 Inpaint 模式,可以擦除或更改图片特定区域。使用画笔涂抹蒙版区域,AI 将只在该区域内重新生成。
关键设置:
- Mask mode:
Inpaint masked(只重绘蒙版区域)或Inpaint not masked(重绘蒙版以外区域)。 - Mask blur:羽化边缘,通常设为 4 - 8 像素。
- Inpaint area:
Whole picture(全图参考,适合修改大范围) vsOnly masked(仅以蒙版区域裁剪后处理,更快但对周围上下文感知弱)。 - Denoising strength:0.6 - 0.8 通常效果较好,过高会破坏边界。
专用模型:部分模型有 -inpainting 后缀(如 SD1.5-inpainting),专为局部重绘优化,生成衔接更自然。
5.3 外扩重绘(Outpaint)
配合蒙版涂抹画面边缘,然后设置 Outpaint,可扩展画布。A1111 原版需要脚本或使用扩展(如 Poor Man’s Outpainting),也可以在 img2img 的 Resize mode 中调整画布尺寸,并在空白区域绘制蒙版实现。
6. 模型管理与扩展(Extensions)
6.1 放置与切换模型
所有基础模型(checkpoint)存放在 models/Stable-diffusion 文件夹。启动后单击界面左上角刷新按钮并下拉选择模型,即可切换。模型格式推荐 .safetensors,避免潜在的恶意代码风险。
VAE:变分自编码器,影响图片的色彩与细节。大部分模型已内置 VAE,但若生成图片发灰,可手动下载对应的 VAE 并放置到 models/VAE,在 Settings 中指定。
6.2 LoRA、Textual Inversion 与 Hypernetwork
这些小模型用于微调角色、风格或特定概念。
- LoRA 放在
models/Lora内,使用时在提示词中以<lora:模型名:权重>语法调用,如<lora:cute_girl:0.8>。 - Textual Inversion(又称 Embedding)放在
embeddings/下,调用方式为在提示词中直接输入对应文件名(如easynegative)。 - Hypernetwork 放入
models/hypernetworks/,在 Settings 中激活。
6.3 扩展商店
WebUI 内置扩展管理器,在 Extensions -> Available 标签页中点击 Load from: 获取官方列表,然后一键安装。必备扩展推荐:
- ControlNet:通过线稿、深度图、姿势等外部条件精确控制构图。
- AnimateDiff:生成短动画和视频。
- Tiled Diffusion & VAE:大幅降低高分辨率生成时的显存占用。
- Dynamic Prompts:随机组合提示词元素。
- Ultimate SD Upscale:将图片分段放大再拼接,实现超清输出。
安装后需重启 UI 生效。
7. 进阶实战:ControlNet 与姿势控制
ControlNet 是目前最强大的可控生成工具。安装后,在 txt2img 和 img2img 页面都会出现 ControlNet 面板。
经典应用示例:
- Canny 边缘控制:上传一张线稿或边缘提取图,选择
Canny预处理器和模型。AI 会严格按照边缘产生构图,适合设计稿上色。 - OpenPose 姿态控制:选择
OpenPose_face预处理器,上传包含人物的图片,提取骨骼。在新的生成中可以固定人物姿势。 - 深度图(Depth):保持原图的立体结构,适合重新渲染场景光照。
每个 ControlNet 单元可独立设置权重,并支持多个单元同时启用(Multi-ControlNet)。设置中建议勾选 Pixel Perfect 以自动适配分辨率。
8. 批量生成与自动化
8.1 批次数与批量大小
- Batch count:连续生成几批图片。
- Batch size:每批同时生成多少张(提高并行效率,但更耗显存)。
利用 XYZ plot 脚本(在 script 下拉菜单中)可系统比较不同参数下的生成结果,例如对比不同采样器、不同步数,自动输出对比网格。
8.2 API 与外部调用
A1111 提供了完整的 RESTful API 和 WebSocket 接口,可供其他程序调用。在启动参数中添加 --api 开启,然后通过 http://127.0.0.1:7860/docs 查看交互式文档。
9. 常见问题排查
Q:启动后报错 CUDA out of memory?
显卡显存不足。降低生成分辨率,关闭其他显存占用进程,在启动参数中添加
--medvram或--lowvram。也可以在 webui-user.bat 的COMMANDLINE_ARGS中加入--opt-split-attention。
Q:生成的图片很模糊、颜色灰暗?
检查是否使用了正确的 VAE,尝试在 Settings -> VAE 中选择
Automatic或指定对应 VAE 文件。同时确认负面提示词中包含low quality, blurry等词。
Q:LoRA 不生效?
确认 LoRA 文件放入了正确的文件夹,并已刷新模型列表。调用语法必须严格使用
<lora:filename:weight>,权重为数字,不能有额外空格。
Q:如何让面部更清晰?
在 txt2img 中勾选
Restore faces(面部修复),或使用 ADetailer 扩展(自动面部修补)。高分辨率下修复效果更佳。
Q:升级后扩展全部失效?
进入 Extensions -> Installed,点击
Check for updates并应用,或在命令行运行git pull更新主程序后重启。
10. 优化你的工作流
为了长期高效使用 A1111,建议建立以下习惯:
- 保存风格预设:在
Styles下拉框中创建正面和负面提示词模板,一键调用。 - 管理模型预览:为每个模型同目录放置一张同名
.png预览图,方便切换时辨识。 - 定期备份:重点备份
models、embeddings、extensions和config.json。 - 使用 VAE 自动选择:在 Settings 中开启
VAE 自动加载,让模型自动匹配对应的 VAE。 - 探索社区提示词:访问 Civitai 等社区,下载带有提示词元数据的图片,拖拽到 PNG Info 页面即可读取完整参数。
Automatic1111 WebUI 的魔力在于它既降低了 AI 绘画的门槛,又提供了无限扩展的可能。从学会第一条有效提示词,到利用 ControlNet 精密控制构图,再到将生成结果接入自动化流程,这套界面会伴随你整个创作旅程。现在,打开浏览器,输入你的第一组提示词,开始创造只属于你的视觉世界吧。