Automatic1111 WebUI：Stable Diffusion 全能操作界面

FreeGuideOnline 最新 2026-06-20

Automatic1111 WebUI 完全指南：Stable Diffusion 全能操作界面

Automatic1111 WebUI（简称 A1111）是目前功能最丰富、社区最活跃的 Stable Diffusion 图形化操作界面。它整合了从文生图、图生图到模型训练、扩展管理的完整工作流，且完全免费开源。本教程将从零开始，带你完成安装、配置和深度使用，即使你是第一次接触 AI 绘画，也能快速上手并掌握高阶技巧。

1. 什么是 Automatic1111 WebUI？

Automatic1111 WebUI 是一个基于 Gradio 构建的 Stable Diffusion 操作界面，由开发者 AUTOMATIC1111 主导开发。它几乎涵盖了 SD 生态中的所有核心能力：

文生图（txt2img）与图生图（img2img）
局部重绘（inpainting/outpainting）
高清修复、面部修复、放大算法
多种采样器和调度器支持
提示词预设、负面提示词嵌入
LoRA、ControlNet、AnimateDiff 等插件的便捷集成
采样过程实时预览与中断控制
模型管理与融合

相比其他 UI（如 ComfyUI），A1111 的学习路径更平滑，特别适合初学者快速获得高质量结果，同时为进阶用户保留了足够深的定制空间。

2. 环境要求与安装

2.1 Windows 系统本地安装（推荐）

Windows 是最友好的入门环境，A1111 提供了一键安装包。但为了彻底掌握，建议使用手动安装方式。

前置要求：

操作系统：Windows 10 或 11
GPU：NVIDIA 显卡，显存 ≥ 4GB（6GB+ 更佳）
Python 3.10.6（务必使用此版本，官方要求）
Git 客户端

安装步骤：

安装 Python 3.10.6 前往 python.org 下载安装包。安装时务必勾选 “Add Python to PATH”。
安装 Git 从 git-scm.com 下载并安装，所有默认选项即可。
克隆代码仓库 在你想存放 WebUI 的目录（例如 D:\AI\）打开命令行窗口，执行：
```
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
```
这会创建一个 stable-diffusion-webui 文件夹。
放置基础模型 将下载好的 Stable Diffusion 模型文件（.ckpt 或 .safetensors）放入 stable-diffusion-webui\models\Stable-diffusion 内。若无模型，可先从 Hugging Face 下载 v1-5-pruned-emaonly.safetensors 或更流行的社区模型（如 DreamShaper）。
运行 WebUI 在 stable-diffusion-webui 目录下双击 webui-user.bat，系统将自动创建虚拟环境、安装 PyTorch 等依赖。首次启动会耗费较长时间，等待命令行窗口出现 Running on local URL: http://127.0.0.1:7860 即为成功。

2.2 Linux 系统本地安装

Linux 安装步骤与 Windows 基本一致，但需注意 Python 版本和 CUDA 工具包。推荐使用 conda 管理环境：

conda create -n sdwebui python=3.10.6
conda activate sdwebui
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
python launch.py --listen

若使用远程服务器，添加 --listen 可允许局域网内其他设备访问。

2.3 通过 Google Colab 免费云端运行

如果你没有高性能显卡，可使用 Colab 体验。虽然官方 Colab 笔记本已停更，但社区维护版本依然可用。注意：免费版 Colab 有使用时长限制。

访问一个可用的 Colab 笔记本（搜索 “Automatic1111 Colab” 获取最新链接）。
连接前勾选 Runtime -> Change runtime type -> GPU。
点击播放按钮执行所有单元格，等待约 5-10 分钟。
当输出显示 Gradio 链接时，点击即可打开界面。

3. 界面全览与基础设置

启动后，浏览器打开 http://127.0.0.1:7860 即可看到主界面。顶部标签页对应所有工作模式，左侧是参数控制区，右侧是生成结果展示区。

3.1 顶栏关键功能

txt2img：文生图，最核心的生成模式。
img2img：图生图，基于参考图生成变体。
Extras：单图后期处理，用于放大或优化。
PNG Info：读取图片中隐藏的生成参数。
Checkpoint Merger：模型融合工具。
Train：嵌入式训练、超网络训练等。
Settings：系统设置页面。

新手建议先保持默认参数，熟悉后再逐步调整。

3.2 快速调整性能与显存

在 Settings 标签页中，可以针对低显存进行优化：

Cross attention optimization：选择 xformers（需安装）或 sdp-no-mem，降低显存占用。
Batch size 不要超过显存承受范围，4GB 显存建议设为 1。
勾选 Enable quantization in K-diffusion 可进一步降低生成时的显存消耗。

如果遇到 CUDA out of memory，优先减小生成分辨率、关闭大模型并行加载。

4. 文生图（txt2img）深度讲解

文生图是整个 WebUI 的基石。写好一句提示词，AI 就能创作出惊人的画面。但高质量输出取决于你对各个参数的理解。

4.1 提示词（Prompt）与负面提示词（Negative Prompt）

正面提示词：描述画面内容，越精细越好。采用自然语言或标签堆叠均可，例如：

masterpiece, best quality, 1girl, long hair, floating hair, detailed eyes, cherry blossoms, soft lighting, trend on artstation

负面提示词：排除你不想要的东西，是提升质量的关键。常用负面词模板：

lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, jpeg artifacts, watermark, username, blurry

权重语法：

(word)：增加 1.1 倍权重；((word)) 增加 1.21 倍，以此类推。
[word]：降低权重。
(word:1.5)：自定义倍率，括号内写词和数值，无需逗号。
提示词长度通常控制在 75 个 token 以内效果最好，超长提示词会被分段处理。

4.2 采样器与调度器（Sampler & Schedule）

采样器（Sampler）控制图像从噪声到清晰的过程。不同采样器收敛速度与画面风格略有差异：

Euler a、DPM++ 2M Karras：温和稳定，适合大多数主题。
DPM++ SDE Karras：细节更丰富，但生成速度较慢。
DPM adaptive：无视步数设定，自动判断收敛，结果偏写实。
PLMS：早期经典，现已不常用。

采样步数（Sampling steps）：通常设置为 20 - 30 即可获得不错结果，过高步数不一定提升画质，且会增加时间。部分采样器（如 DPM++ 2M）对低步数也表现良好。

调度器（Schedule type）：A1111 允许在同一采样器下选择不同噪声调度表，如 Karras、Exponential、SGM Uniform 等，影响收敛曲线。Karras 会稍微增加对比度，适合大多数情况。

4.3 分辨率与种子

宽度与高度：SD 1.5 标准训练分辨率为 512×512，大幅超出此值会导致结构错误（如多头、扭曲），推荐使用 Hires.fix（高清修复）生成高分辨率图。SDXL 模型原生支持 1024×1024。

种子（Seed）：-1 表示随机。固定种子可以复现完全相同的图片；稍作改变种子可以微调构图。

4.4 Hires.fix（高清修复）

Hires.fix 是 A1111 至关重要的功能，它先生成低分辨率初稿，然后通过放大算法将细节重绘到目标分辨率，避免 AI 生成时产生混乱结构。

设置建议：

启用 Hires. fix
放大算法：R-ESRGAN 4x+ 或 4x-UltraSharp（写实类）/ Latent (bicubic antialiased)（艺术类）
放大倍数：2x（512→1024）
Hires steps：10 - 20
去噪强度：0.5 - 0.7（过高会严重改变构图）

Hires.fix 可有效解决远景模糊、细节缺失问题。

5. 图生图（img2img）与局部重绘

5.1 基本图生图

上传一张图片作为输入，AI 会模仿其构图并生成新图。关键参数是 去噪强度（Denoising strength）：

0 ~ 0.3：细调颜色和细节，基本保持原图结构。
0.4 ~ 0.6：产生明显变化，但大体构图不变。
0.7 ~ 1.0：偏离原图，高值接近纯随机生成。

常用于风格迁移、图片优化或角色换装。

5.2 局部重绘（Inpaint）

勾选 img2img 标签下的 Inpaint 模式，可以擦除或更改图片特定区域。使用画笔涂抹蒙版区域，AI 将只在该区域内重新生成。

关键设置：

Mask mode：Inpaint masked（只重绘蒙版区域）或 Inpaint not masked（重绘蒙版以外区域）。
Mask blur：羽化边缘，通常设为 4 - 8 像素。
Inpaint area：Whole picture（全图参考，适合修改大范围） vs Only masked（仅以蒙版区域裁剪后处理，更快但对周围上下文感知弱）。
Denoising strength：0.6 - 0.8 通常效果较好，过高会破坏边界。

专用模型：部分模型有 -inpainting 后缀（如 SD1.5-inpainting），专为局部重绘优化，生成衔接更自然。

5.3 外扩重绘（Outpaint）

配合蒙版涂抹画面边缘，然后设置 Outpaint，可扩展画布。A1111 原版需要脚本或使用扩展（如 Poor Man’s Outpainting），也可以在 img2img 的 Resize mode 中调整画布尺寸，并在空白区域绘制蒙版实现。

6. 模型管理与扩展（Extensions）

6.1 放置与切换模型

所有基础模型（checkpoint）存放在 models/Stable-diffusion 文件夹。启动后单击界面左上角刷新按钮并下拉选择模型，即可切换。模型格式推荐 .safetensors，避免潜在的恶意代码风险。

VAE：变分自编码器，影响图片的色彩与细节。大部分模型已内置 VAE，但若生成图片发灰，可手动下载对应的 VAE 并放置到 models/VAE，在 Settings 中指定。

6.2 LoRA、Textual Inversion 与 Hypernetwork

这些小模型用于微调角色、风格或特定概念。

LoRA 放在 models/Lora 内，使用时在提示词中以 <lora:模型名:权重> 语法调用，如 <lora:cute_girl:0.8>。
Textual Inversion（又称 Embedding）放在 embeddings/ 下，调用方式为在提示词中直接输入对应文件名（如 easynegative）。
Hypernetwork 放入 models/hypernetworks/，在 Settings 中激活。

6.3 扩展商店

WebUI 内置扩展管理器，在 Extensions -> Available 标签页中点击 Load from: 获取官方列表，然后一键安装。必备扩展推荐：

ControlNet：通过线稿、深度图、姿势等外部条件精确控制构图。
AnimateDiff：生成短动画和视频。
Tiled Diffusion & VAE：大幅降低高分辨率生成时的显存占用。
Dynamic Prompts：随机组合提示词元素。
Ultimate SD Upscale：将图片分段放大再拼接，实现超清输出。

安装后需重启 UI 生效。

7. 进阶实战：ControlNet 与姿势控制

ControlNet 是目前最强大的可控生成工具。安装后，在 txt2img 和 img2img 页面都会出现 ControlNet 面板。

经典应用示例：

Canny 边缘控制：上传一张线稿或边缘提取图，选择 Canny 预处理器和模型。AI 会严格按照边缘产生构图，适合设计稿上色。
OpenPose 姿态控制：选择 OpenPose_face 预处理器，上传包含人物的图片，提取骨骼。在新的生成中可以固定人物姿势。
深度图（Depth）：保持原图的立体结构，适合重新渲染场景光照。

每个 ControlNet 单元可独立设置权重，并支持多个单元同时启用（Multi-ControlNet）。设置中建议勾选 Pixel Perfect 以自动适配分辨率。

8. 批量生成与自动化

8.1 批次数与批量大小

Batch count：连续生成几批图片。
Batch size：每批同时生成多少张（提高并行效率，但更耗显存）。

利用 XYZ plot 脚本（在 script 下拉菜单中）可系统比较不同参数下的生成结果，例如对比不同采样器、不同步数，自动输出对比网格。

8.2 API 与外部调用

A1111 提供了完整的 RESTful API 和 WebSocket 接口，可供其他程序调用。在启动参数中添加 --api 开启，然后通过 http://127.0.0.1:7860/docs 查看交互式文档。

9. 常见问题排查

Q：启动后报错 CUDA out of memory？

显卡显存不足。降低生成分辨率，关闭其他显存占用进程，在启动参数中添加 --medvram 或 --lowvram。也可以在 webui-user.bat 的 COMMANDLINE_ARGS 中加入 --opt-split-attention。

Q：生成的图片很模糊、颜色灰暗？

检查是否使用了正确的 VAE，尝试在 Settings -> VAE 中选择 Automatic 或指定对应 VAE 文件。同时确认负面提示词中包含 low quality, blurry 等词。

Q：LoRA 不生效？

确认 LoRA 文件放入了正确的文件夹，并已刷新模型列表。调用语法必须严格使用 <lora:filename:weight>，权重为数字，不能有额外空格。

Q：如何让面部更清晰？

在 txt2img 中勾选 Restore faces（面部修复），或使用 ADetailer 扩展（自动面部修补）。高分辨率下修复效果更佳。

Q：升级后扩展全部失效？

进入 Extensions -> Installed，点击 Check for updates 并应用，或在命令行运行 git pull 更新主程序后重启。

10. 优化你的工作流

为了长期高效使用 A1111，建议建立以下习惯：

保存风格预设：在 Styles 下拉框中创建正面和负面提示词模板，一键调用。
管理模型预览：为每个模型同目录放置一张同名 .png 预览图，方便切换时辨识。
定期备份：重点备份 models、embeddings、extensions 和 config.json。
使用 VAE 自动选择：在 Settings 中开启 VAE 自动加载，让模型自动匹配对应的 VAE。
探索社区提示词：访问 Civitai 等社区，下载带有提示词元数据的图片，拖拽到 PNG Info 页面即可读取完整参数。

Automatic1111 WebUI 的魔力在于它既降低了 AI 绘画的门槛，又提供了无限扩展的可能。从学会第一条有效提示词，到利用 ControlNet 精密控制构图，再到将生成结果接入自动化流程，这套界面会伴随你整个创作旅程。现在，打开浏览器，输入你的第一组提示词，开始创造只属于你的视觉世界吧。