面部识别 FaceNet
学习 FaceNet 如何使用三元组损失将面部图像映射到欧氏距离对应相似度的嵌入空间,实现面验证、识别与聚类。
HRNet 高分辨率网络
学习 HRNet 如何通过并行保持高分辨率分支并进行多尺度融合,取代编-解码器,在姿态估计和语义分割中达到精准空间定位。
姿态估计 OpenPose
深入 OpenPose 的部件置信度图与亲和力场架构,实现自底向上的实时多人人体关键点检测与骨架组装。
FairMOT 跟踪
分析 FairMOT 如何通过无锚检测与同质分支平衡检测与重识别任务,避免偏向其中一个,实现高精度的多目标跟踪。
JDE 一体化检测嵌入
学习 JDE 如何将目标检测和外观嵌入学习融合在一个网络中,单次前向即可同时输出检测框与特征,实现准确实时的跟踪。
DeepSORT 多目标跟踪
在 SORT 基础上引入深度外观描述子,解决长时间遮挡下的 ID 切换问题,学习 DeepSORT 的匹配级联与度量学习模块。
视频 Transformer ViViT
探索 ViViT 如何将 Transformer 直接应用于视频,利用时空注意力及其因子化变体高效提取视频特征,取代 3D CNN。
动作识别 TSN/TSM
学习时间片段网络 TSN 的稀疏采样策略,以及时间移位模块 TSM 如何用零参数实现高效时序交互,大幅提升动作识别速度。
视频分类 3D CNN
学习用 3D 卷积捕获视频片段的时间与空间维度,对比 C3D、I3D 与双流网络架构,实现动作与事件分类。
图像字幕 Image Captioning
掌握为图像自动生成文字描述的技术,涵盖 CNN-RNN 基础架构、注意力机制和最新的 Transformer 与多模态预训练模型。
MiniGPT-4 多模态
学习 MiniGPT-4 如何仅通过一个线性投影层连接冻结的视觉编码器和大语言模型,实现图文理解与多轮对话,并降低多模态对齐成本。
LLaVA 多模态对话
使用 GPT-4 生成多模态指令数据,微调大语言模型连接视觉编码器,构建能看图聊天并完成复杂指令的多模态助手。
BLIP-2 多模态模型
学习 BLIP-2 如何用轻量 Q-Former 对齐冻结的视觉编码器和大语言模型,高效完成图像描述、问答等任务。
CLIP 对比语言图像预训练
深入 OpenAI CLIP 模型,学习其对偶编码器架构和对比损失,实现强大的零样本图像分类和图文检索。
音乐生成 MusicLM
了解 Google 的 MusicLM 如何通过分层声学模型从文字描述生成长且连贯的高保真音乐片段。
声纹识别 Speaker Diarization
学习 Speaker Diarization 技术,将多人会议音频按说话人分割并聚类,解决“谁在说话”的问题。
FastSpeech 快速语音合成
学习非自回归 TTS 模型 FastSpeech,通过显式音素时长预测和长度调节器并行生成梅尔谱,大幅提升合成速度。
语音合成 TTS Tacotron
了解 Tacotron 如何通过编码器-注意力-解码器结构将文本直接转换为梅尔频谱,再经声码器生成波形。
Whisper 模型使用
学习 OpenAI Whisper 的多任务多语言模型,实现高精度的语音识别、语言检测和多语种语音翻译。
语音识别 ASR DeepSpeech
使用 Mozilla DeepSpeech 训练端到端的语音识别模型,理解其声学模型、语言模型与集束搜索解码原理。