Automatic1111 WebUI:Stable Diffusion 全能操作界面

FreeGuideOnline 最新 2026-06-20

Automatic1111 WebUI 完全指南:Stable Diffusion 全能操作界面

Automatic1111 WebUI(简称 A1111)是目前功能最丰富、社区最活跃的 Stable Diffusion 图形化操作界面。它整合了从文生图、图生图到模型训练、扩展管理的完整工作流,且完全免费开源。本教程将从零开始,带你完成安装、配置和深度使用,即使你是第一次接触 AI 绘画,也能快速上手并掌握高阶技巧。


1. 什么是 Automatic1111 WebUI?

Automatic1111 WebUI 是一个基于 Gradio 构建的 Stable Diffusion 操作界面,由开发者 AUTOMATIC1111 主导开发。它几乎涵盖了 SD 生态中的所有核心能力:

  • 文生图(txt2img)与图生图(img2img)
  • 局部重绘(inpainting/outpainting)
  • 高清修复、面部修复、放大算法
  • 多种采样器和调度器支持
  • 提示词预设、负面提示词嵌入
  • LoRA、ControlNet、AnimateDiff 等插件的便捷集成
  • 采样过程实时预览与中断控制
  • 模型管理与融合

相比其他 UI(如 ComfyUI),A1111 的学习路径更平滑,特别适合初学者快速获得高质量结果,同时为进阶用户保留了足够深的定制空间。


2. 环境要求与安装

2.1 Windows 系统本地安装(推荐)

Windows 是最友好的入门环境,A1111 提供了一键安装包。但为了彻底掌握,建议使用手动安装方式。

前置要求:

  • 操作系统:Windows 10 或 11
  • GPU:NVIDIA 显卡,显存 ≥ 4GB(6GB+ 更佳)
  • Python 3.10.6(务必使用此版本,官方要求)
  • Git 客户端

安装步骤:

  1. 安装 Python 3.10.6 前往 python.org 下载安装包。安装时务必勾选 “Add Python to PATH”。

  2. 安装 Gitgit-scm.com 下载并安装,所有默认选项即可。

  3. 克隆代码仓库 在你想存放 WebUI 的目录(例如 D:\AI\)打开命令行窗口,执行:

    git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
    

    这会创建一个 stable-diffusion-webui 文件夹。

  4. 放置基础模型 将下载好的 Stable Diffusion 模型文件(.ckpt.safetensors)放入 stable-diffusion-webui\models\Stable-diffusion 内。若无模型,可先从 Hugging Face 下载 v1-5-pruned-emaonly.safetensors 或更流行的社区模型(如 DreamShaper)。

  5. 运行 WebUIstable-diffusion-webui 目录下双击 webui-user.bat,系统将自动创建虚拟环境、安装 PyTorch 等依赖。首次启动会耗费较长时间,等待命令行窗口出现 Running on local URL: http://127.0.0.1:7860 即为成功。

2.2 Linux 系统本地安装

Linux 安装步骤与 Windows 基本一致,但需注意 Python 版本和 CUDA 工具包。推荐使用 conda 管理环境:

conda create -n sdwebui python=3.10.6
conda activate sdwebui
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
python launch.py --listen

若使用远程服务器,添加 --listen 可允许局域网内其他设备访问。

2.3 通过 Google Colab 免费云端运行

如果你没有高性能显卡,可使用 Colab 体验。虽然官方 Colab 笔记本已停更,但社区维护版本依然可用。注意:免费版 Colab 有使用时长限制。

  1. 访问一个可用的 Colab 笔记本(搜索 “Automatic1111 Colab” 获取最新链接)。
  2. 连接前勾选 Runtime -> Change runtime type -> GPU。
  3. 点击播放按钮执行所有单元格,等待约 5-10 分钟。
  4. 当输出显示 Gradio 链接时,点击即可打开界面。

3. 界面全览与基础设置

启动后,浏览器打开 http://127.0.0.1:7860 即可看到主界面。顶部标签页对应所有工作模式,左侧是参数控制区,右侧是生成结果展示区。

3.1 顶栏关键功能

  • txt2img:文生图,最核心的生成模式。
  • img2img:图生图,基于参考图生成变体。
  • Extras:单图后期处理,用于放大或优化。
  • PNG Info:读取图片中隐藏的生成参数。
  • Checkpoint Merger:模型融合工具。
  • Train:嵌入式训练、超网络训练等。
  • Settings:系统设置页面。

新手建议先保持默认参数,熟悉后再逐步调整。

3.2 快速调整性能与显存

Settings 标签页中,可以针对低显存进行优化:

  • Cross attention optimization:选择 xformers(需安装)或 sdp-no-mem,降低显存占用。
  • Batch size 不要超过显存承受范围,4GB 显存建议设为 1。
  • 勾选 Enable quantization in K-diffusion 可进一步降低生成时的显存消耗。

如果遇到 CUDA out of memory,优先减小生成分辨率、关闭大模型并行加载。


4. 文生图(txt2img)深度讲解

文生图是整个 WebUI 的基石。写好一句提示词,AI 就能创作出惊人的画面。但高质量输出取决于你对各个参数的理解。

4.1 提示词(Prompt)与负面提示词(Negative Prompt)

正面提示词:描述画面内容,越精细越好。采用自然语言或标签堆叠均可,例如:

masterpiece, best quality, 1girl, long hair, floating hair, detailed eyes, cherry blossoms, soft lighting, trend on artstation

负面提示词:排除你不想要的东西,是提升质量的关键。常用负面词模板:

lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, jpeg artifacts, watermark, username, blurry

权重语法

  • (word):增加 1.1 倍权重;((word)) 增加 1.21 倍,以此类推。
  • [word]:降低权重。
  • (word:1.5):自定义倍率,括号内写词和数值,无需逗号。
  • 提示词长度通常控制在 75 个 token 以内效果最好,超长提示词会被分段处理。

4.2 采样器与调度器(Sampler & Schedule)

采样器(Sampler)控制图像从噪声到清晰的过程。不同采样器收敛速度与画面风格略有差异:

  • Euler a、DPM++ 2M Karras:温和稳定,适合大多数主题。
  • DPM++ SDE Karras:细节更丰富,但生成速度较慢。
  • DPM adaptive:无视步数设定,自动判断收敛,结果偏写实。
  • PLMS:早期经典,现已不常用。

采样步数(Sampling steps):通常设置为 20 - 30 即可获得不错结果,过高步数不一定提升画质,且会增加时间。部分采样器(如 DPM++ 2M)对低步数也表现良好。

调度器(Schedule type):A1111 允许在同一采样器下选择不同噪声调度表,如 Karras、Exponential、SGM Uniform 等,影响收敛曲线。Karras 会稍微增加对比度,适合大多数情况。

4.3 分辨率与种子

宽度与高度:SD 1.5 标准训练分辨率为 512×512,大幅超出此值会导致结构错误(如多头、扭曲),推荐使用 Hires.fix(高清修复)生成高分辨率图。SDXL 模型原生支持 1024×1024。

种子(Seed):-1 表示随机。固定种子可以复现完全相同的图片;稍作改变种子可以微调构图。

4.4 Hires.fix(高清修复)

Hires.fix 是 A1111 至关重要的功能,它先生成低分辨率初稿,然后通过放大算法将细节重绘到目标分辨率,避免 AI 生成时产生混乱结构。

设置建议

  • 启用 Hires. fix
  • 放大算法:R-ESRGAN 4x+4x-UltraSharp(写实类)/ Latent (bicubic antialiased)(艺术类)
  • 放大倍数:2x(512→1024)
  • Hires steps:10 - 20
  • 去噪强度:0.5 - 0.7(过高会严重改变构图)

Hires.fix 可有效解决远景模糊、细节缺失问题。


5. 图生图(img2img)与局部重绘

5.1 基本图生图

上传一张图片作为输入,AI 会模仿其构图并生成新图。关键参数是 去噪强度(Denoising strength)

  • 0 ~ 0.3:细调颜色和细节,基本保持原图结构。
  • 0.4 ~ 0.6:产生明显变化,但大体构图不变。
  • 0.7 ~ 1.0:偏离原图,高值接近纯随机生成。

常用于风格迁移、图片优化或角色换装。

5.2 局部重绘(Inpaint)

勾选 img2img 标签下的 Inpaint 模式,可以擦除或更改图片特定区域。使用画笔涂抹蒙版区域,AI 将只在该区域内重新生成。

关键设置

  • Mask modeInpaint masked(只重绘蒙版区域)或 Inpaint not masked(重绘蒙版以外区域)。
  • Mask blur:羽化边缘,通常设为 4 - 8 像素。
  • Inpaint areaWhole picture(全图参考,适合修改大范围) vs Only masked(仅以蒙版区域裁剪后处理,更快但对周围上下文感知弱)。
  • Denoising strength:0.6 - 0.8 通常效果较好,过高会破坏边界。

专用模型:部分模型有 -inpainting 后缀(如 SD1.5-inpainting),专为局部重绘优化,生成衔接更自然。

5.3 外扩重绘(Outpaint)

配合蒙版涂抹画面边缘,然后设置 Outpaint,可扩展画布。A1111 原版需要脚本或使用扩展(如 Poor Man’s Outpainting),也可以在 img2img 的 Resize mode 中调整画布尺寸,并在空白区域绘制蒙版实现。


6. 模型管理与扩展(Extensions)

6.1 放置与切换模型

所有基础模型(checkpoint)存放在 models/Stable-diffusion 文件夹。启动后单击界面左上角刷新按钮并下拉选择模型,即可切换。模型格式推荐 .safetensors,避免潜在的恶意代码风险。

VAE:变分自编码器,影响图片的色彩与细节。大部分模型已内置 VAE,但若生成图片发灰,可手动下载对应的 VAE 并放置到 models/VAE,在 Settings 中指定。

6.2 LoRA、Textual Inversion 与 Hypernetwork

这些小模型用于微调角色、风格或特定概念。

  • LoRA 放在 models/Lora 内,使用时在提示词中以 <lora:模型名:权重> 语法调用,如 <lora:cute_girl:0.8>
  • Textual Inversion(又称 Embedding)放在 embeddings/ 下,调用方式为在提示词中直接输入对应文件名(如 easynegative)。
  • Hypernetwork 放入 models/hypernetworks/,在 Settings 中激活。

6.3 扩展商店

WebUI 内置扩展管理器,在 Extensions -> Available 标签页中点击 Load from: 获取官方列表,然后一键安装。必备扩展推荐:

  • ControlNet:通过线稿、深度图、姿势等外部条件精确控制构图。
  • AnimateDiff:生成短动画和视频。
  • Tiled Diffusion & VAE:大幅降低高分辨率生成时的显存占用。
  • Dynamic Prompts:随机组合提示词元素。
  • Ultimate SD Upscale:将图片分段放大再拼接,实现超清输出。

安装后需重启 UI 生效。


7. 进阶实战:ControlNet 与姿势控制

ControlNet 是目前最强大的可控生成工具。安装后,在 txt2img 和 img2img 页面都会出现 ControlNet 面板。

经典应用示例:

  1. Canny 边缘控制:上传一张线稿或边缘提取图,选择 Canny 预处理器和模型。AI 会严格按照边缘产生构图,适合设计稿上色。
  2. OpenPose 姿态控制:选择 OpenPose_face 预处理器,上传包含人物的图片,提取骨骼。在新的生成中可以固定人物姿势。
  3. 深度图(Depth):保持原图的立体结构,适合重新渲染场景光照。

每个 ControlNet 单元可独立设置权重,并支持多个单元同时启用(Multi-ControlNet)。设置中建议勾选 Pixel Perfect 以自动适配分辨率。


8. 批量生成与自动化

8.1 批次数与批量大小

  • Batch count:连续生成几批图片。
  • Batch size:每批同时生成多少张(提高并行效率,但更耗显存)。

利用 XYZ plot 脚本(在 script 下拉菜单中)可系统比较不同参数下的生成结果,例如对比不同采样器、不同步数,自动输出对比网格。

8.2 API 与外部调用

A1111 提供了完整的 RESTful API 和 WebSocket 接口,可供其他程序调用。在启动参数中添加 --api 开启,然后通过 http://127.0.0.1:7860/docs 查看交互式文档。


9. 常见问题排查

Q:启动后报错 CUDA out of memory

显卡显存不足。降低生成分辨率,关闭其他显存占用进程,在启动参数中添加 --medvram--lowvram。也可以在 webui-user.bat 的 COMMANDLINE_ARGS 中加入 --opt-split-attention

Q:生成的图片很模糊、颜色灰暗?

检查是否使用了正确的 VAE,尝试在 Settings -> VAE 中选择 Automatic 或指定对应 VAE 文件。同时确认负面提示词中包含 low quality, blurry 等词。

Q:LoRA 不生效?

确认 LoRA 文件放入了正确的文件夹,并已刷新模型列表。调用语法必须严格使用 <lora:filename:weight>,权重为数字,不能有额外空格。

Q:如何让面部更清晰?

在 txt2img 中勾选 Restore faces(面部修复),或使用 ADetailer 扩展(自动面部修补)。高分辨率下修复效果更佳。

Q:升级后扩展全部失效?

进入 Extensions -> Installed,点击 Check for updates 并应用,或在命令行运行 git pull 更新主程序后重启。


10. 优化你的工作流

为了长期高效使用 A1111,建议建立以下习惯:

  • 保存风格预设:在 Styles 下拉框中创建正面和负面提示词模板,一键调用。
  • 管理模型预览:为每个模型同目录放置一张同名 .png 预览图,方便切换时辨识。
  • 定期备份:重点备份 modelsembeddingsextensionsconfig.json
  • 使用 VAE 自动选择:在 Settings 中开启 VAE 自动加载,让模型自动匹配对应的 VAE。
  • 探索社区提示词:访问 Civitai 等社区,下载带有提示词元数据的图片,拖拽到 PNG Info 页面即可读取完整参数。

Automatic1111 WebUI 的魔力在于它既降低了 AI 绘画的门槛,又提供了无限扩展的可能。从学会第一条有效提示词,到利用 ControlNet 精密控制构图,再到将生成结果接入自动化流程,这套界面会伴随你整个创作旅程。现在,打开浏览器,输入你的第一组提示词,开始创造只属于你的视觉世界吧。