医疗图像分割 nnUNet
学习 nnUNet 如何根据数据集特性自动调整预处理、网络拓扑和后处理策略,成为多种医疗图像分割任务的首选基准。
FastSAM 快速分割
学习 FastSAM 如何基于 YOLOv8-seg 架构实现接近 SAM 的分割能力,同时获得显著更快的实时推理速度。
SAM 分割一切模型
深入 SAM 架构,学习其图像编码器、提示编码器和掩码解码器,如何根据点、框或网格提示对任何图像进行灵活分割。
RT-DETR 实时检测
学习 RT-DETR 如何设计高效的混合编码器和不确定性最小查询选择,成为首个无需后处理的实时 Transformer 检测器。
YOLO-NAS 目标检测
学习 YOLO-NAS 如何通过 AutoNAC 神经架构搜索和量化感知训练,在精度与延迟间取得最优平衡,并支持 INT8 量化。
新范式 DETR
学习 DETR 如何将目标检测转化为集合预测问题,使用 Transformer 编码器-解码器和匈牙利匹配,去除锚点与非极大抑制。
实例分割 Mask R-CNN
掌握 Mask R-CNN 如何通过添加掩码分支和 ROIAlign 实现高质量的实例分割,既定位物体又给出像素级轮廓。
语义分割 DeepLab
深入 DeepLab 系列,理解空洞卷积对感受野的控制、空间金字塔池化 ASPP 以及条件随机场后处理的像素级分类。
点云处理 PointNet
学习 PointNet 如何使用对称函数和空间变换网络直接处理原始点云,实现置换不变性的 3D 物体分类与分割。
3D Gaussian Splatting 深入
学习显式 3D 高斯点的优化与可微飞溅渲染技术,替代隐式 NeRF 实现超快速和高质量的新视图合成。
NeRF 神经辐射场深入
深入理解 Neural Radiance Fields,使用多层感知机隐式表示场景,通过体渲染合成任意视角的高清图像,开启 3D 重建新范式。
Real-ESRGAN 实战
使用 Real-ESRGAN 处理真实世界低质量图像,理解其高阶退化建模如何提升修复鲁棒性,实现老照片、动漫的清晰化。
超分辨率重建 SRGAN
学习 SRGAN 如何通过感知损失和对抗训练恢复逼真的高频纹理,超越 MSE 优化带来的模糊感,生成高清细节。
Automatic1111 WebUI
学习使用最流行的 Stable Diffusion Web 界面,掌握文生图、图生图、训练与扩展安装,极大降低 AI 绘画门槛。
AI 绘画 ComfyUI 工作流
使用 ComfyUI 的节点图搭建复杂的文生图、图生图与控图工作流,灵活组合模型、提示与 ControlNet 实现高级生成管道。
LoRA 视觉风格学习
将 LoRA 技术用于扩散模型,通过训练低秩矩阵学习特定画风、角色或概念,生成高度定制化的图像且文件极小。
DreamBooth 定制生成
掌握 DreamBooth 如何微调扩散模型,将特定物体或宠物绑定到唯一标识符,并利用先验保留损失防止灾难性遗忘。
文本反演 Textual Inversion
学习如何用少量样本教模型一个新“伪词”,将该词的嵌入优化到代表特定物体或风格,实现个性化文本到图像生成。
IP-Adapter 图像提示
学习 IP-Adapter 如何通过解耦的交叉注意力将图像特征作为提示注入扩散模型,实现图像风格或内容的条件生成。
T2I-Adapter 条件控制
对比 ControlNet,学习 T2I-Adapter 如何用轻量适配器将多种条件引导特征直接注入扩散模型,降低计算开销。
控制网 ControlNet
学习 ControlNet 如何复制可训练副本连接到预训练扩散模型,根据姿态、深度图、线稿等条件精准控制生成内容。
稳定扩散 Stable Diffusion 深入
剖析 Stable Diffusion 架构,理解其在压缩潜在空间进行去噪的原理,以及通过交叉注意力注入文本条件实现文生图。
Pix2Pix 图像翻译
掌握 Pix2Pix 框架,使用 U-Net 生成器和 PatchGAN 判别器,在成对数据监督下实现草图到图像、分割图到照片等转换。
CycleGAN 域迁移
学习 CycleGAN 如何利用循环一致性损失,在没有配对样本的情况下实现照片风格转换、季节变换等图像到图像的翻译。
StyleGAN 系列
深入 StyleGAN 的映射网络与自适应实例归一化,理解如何控制不同层级的视觉风格,生成逼真且可编辑的高分辨率人脸等图像。
图像生成 GAN 进阶
拓展 GAN 应用,学习条件 GAN、InfoGAN、ProGAN 等进阶架构,实现可控的图像生成与高分辨率合成。
ArcFace 人脸识别
深入 ArcFace 的角边距损失,通过在角度空间增加判别性约束,训练出类间更分散、类内更紧凑的人脸特征嵌入。
面部识别 FaceNet
学习 FaceNet 如何使用三元组损失将面部图像映射到欧氏距离对应相似度的嵌入空间,实现面验证、识别与聚类。
HRNet 高分辨率网络
学习 HRNet 如何通过并行保持高分辨率分支并进行多尺度融合,取代编-解码器,在姿态估计和语义分割中达到精准空间定位。
姿态估计 OpenPose
深入 OpenPose 的部件置信度图与亲和力场架构,实现自底向上的实时多人人体关键点检测与骨架组装。
FairMOT 跟踪
分析 FairMOT 如何通过无锚检测与同质分支平衡检测与重识别任务,避免偏向其中一个,实现高精度的多目标跟踪。
JDE 一体化检测嵌入
学习 JDE 如何将目标检测和外观嵌入学习融合在一个网络中,单次前向即可同时输出检测框与特征,实现准确实时的跟踪。
DeepSORT 多目标跟踪
在 SORT 基础上引入深度外观描述子,解决长时间遮挡下的 ID 切换问题,学习 DeepSORT 的匹配级联与度量学习模块。
视频 Transformer ViViT
探索 ViViT 如何将 Transformer 直接应用于视频,利用时空注意力及其因子化变体高效提取视频特征,取代 3D CNN。
动作识别 TSN/TSM
学习时间片段网络 TSN 的稀疏采样策略,以及时间移位模块 TSM 如何用零参数实现高效时序交互,大幅提升动作识别速度。
视频分类 3D CNN
学习用 3D 卷积捕获视频片段的时间与空间维度,对比 C3D、I3D 与双流网络架构,实现动作与事件分类。