Deepfake 视频换脸：自编码器与 GAN 的人脸替换

FreeGuideOnline 最新 2026-06-25

什么是 Deepfake 视频换脸？

Deepfake 是一种利用深度学习技术将视频中一个人的人脸替换为另一张人脸的方法。它并非单一算法，而是一系列基于深度神经网络的图像合成技术的统称。最经典的实现方式结合了自编码器对身份特征的分离与重建，以及生成对抗网络对真实感的增强。

本教程将带你从零开始，理解 Deepfake 的核心技术原理，了解主流工具，并动手实现一个基础的换脸视频。

早期的 Deepfake（如 Reddit 用户 deepfakes 的开源实现）核心是一个共享编码器的双解码器结构。

在训练之前，需要从源视频和目标视频中抽取每一帧，并使用人脸检测算法（如 dlib、MTCNN）裁剪出人脸区域，同时将其对齐到同一尺度（如 64×64 或 256×256 像素）。这一步骤确保了输入数据的一致性。

自编码器包含一个编码器和两个解码器：

训练时，所有人脸图像（来自 A 和 B）都通入同一个编码器，但 A 的图像用解码器 A 重建，B 的图像用解码器 B 重建。损失函数通常是像素级的均方误差，迫使编码器学会提取通用人脸特征（表情、角度），而两个解码器各自学会添加对应的身份细节。

当想要将 A 的脸换成 B 时，输入 A 的人脸图像，先由编码器提取其特征，然后直接送入解码器 B。由于特征向量只包含非身份细节，解码器 B 会利用 B 的身份知识重建出一张带有 A 表情和角度的 B 的脸。最后将生成的人脸缝合回原视频帧。

基础的自动编码器重建出的图像往往模糊，缺乏皮肤纹理、牙齿细节等高频信息。为此，现代 Deepfake 方法加入了生成对抗网络的思想。

在训练时，除了解码器的重建损失，我们增加一个 PatchGAN 判别器，它尝试区分解码器生成的人脸与真实人脸。解码器（生成器）需要骗过判别器，从而生成更锐利、更真实的纹理。

以下步骤以 DeepFaceLab 为例，展示一个完整的换脸流程。请确保拥有一块显存至少 6GB 的 NVIDIA GPU，并安装 CUDA。

从官方仓库下载 DeepFaceLab 的预编译版本（Windows 用户建议直接下载整合包），解压即用。目录中包含 workspace 文件夹，所有素材和模型都将存放于此。

将源视频（要被换脸的人脸来源，如演员 A）和目标视频（要替换人脸的视频，如演员 B）分别放入 workspace/data_src.mp4 和 workspace/data_dst.mp4。
执行数据提取流程：
1. 2) extract images from video data_src.bat：将源视频切帧为图片。
2. 3) extract images from video data_dst.bat：目标视频切帧。
3. 4) data_src faceset extract.bat：从源图片中提取人脸，并自动对齐、去重。
4. 5) data_dst faceset extract.bat：从目标图片提取人脸。
人工检查提取的人脸集，删除模糊、遮挡严重或错误检测的样本。

选择训练架构：初学者推荐使用 SAEHD 模型，它在速度与质量间取得了良好平衡。
运行 6) train SAEHD.bat，按提示设置参数（如分辨率 128，启用 GAN 可在后期开启）。训练会持续迭代，直到预览窗口中的生成人脸清晰逼真。
训练会自动保存进度，可随时停止。通常需要数小时至数天的训练，取决于数据量和显卡性能。

技术是双刃剑。在进行任何换脸操作前，必须明确：

最新的 face swapping 模型不再直接使用“共享编码器”，而是借助风格化生成网络（如 StyleGAN）的隐空间，将身份、表情、姿态分别编码，再通过调制解调方式融合。这使得换脸可以做到光照重定向、任意表情驱动，甚至仅靠一张照片完成换脸。

随着轻量化模型和硬件加速，实时 Deepfake 已成为现实。与此同时，检测技术也在进化，利用生理信号（如心跳引起的肤色变化）、时空不一致性等进行反制，形成算法间的持续对抗。

学习 Deepfake 的过程，能加深你对生成模型、计算机视觉和人脸生物特征的理解。请在法律和道德允许的范围内探索，让技术服务于创造与教育，而非欺骗。