最新
图像字幕 Image Captioning
掌握为图像自动生成文字描述的技术,涵盖 CNN-RNN 基础架构、注意力机制和最新的 Transformer 与多模态预训练模型。
3
0
0
2026-06-19
最新
MiniGPT-4 多模态
学习 MiniGPT-4 如何仅通过一个线性投影层连接冻结的视觉编码器和大语言模型,实现图文理解与多轮对话,并降低多模态对齐成本。
5
0
0
2026-06-19
最新
LLaVA 多模态对话
使用 GPT-4 生成多模态指令数据,微调大语言模型连接视觉编码器,构建能看图聊天并完成复杂指令的多模态助手。
17
0
0
2026-06-19
最新
BLIP-2 多模态模型
学习 BLIP-2 如何用轻量 Q-Former 对齐冻结的视觉编码器和大语言模型,高效完成图像描述、问答等任务。
5
0
0
2026-06-19
最新
CLIP 对比语言图像预训练
深入 OpenAI CLIP 模型,学习其对偶编码器架构和对比损失,实现强大的零样本图像分类和图文检索。
8
0
0
2026-06-19
最新
音乐生成 MusicLM
了解 Google 的 MusicLM 如何通过分层声学模型从文字描述生成长且连贯的高保真音乐片段。
2
0
0
2026-06-19
最新
声纹识别 Speaker Diarization
学习 Speaker Diarization 技术,将多人会议音频按说话人分割并聚类,解决“谁在说话”的问题。
7
0
0
2026-06-19
最新
最新
FastSpeech 快速语音合成
学习非自回归 TTS 模型 FastSpeech,通过显式音素时长预测和长度调节器并行生成梅尔谱,大幅提升合成速度。
4
0
0
2026-06-19
最新
语音合成 TTS Tacotron
了解 Tacotron 如何通过编码器-注意力-解码器结构将文本直接转换为梅尔频谱,再经声码器生成波形。
1
0
0
2026-06-19
最新
Whisper 模型使用
学习 OpenAI Whisper 的多任务多语言模型,实现高精度的语音识别、语言检测和多语种语音翻译。
3
0
0
2026-06-19
最新
语音识别 ASR DeepSpeech
使用 Mozilla DeepSpeech 训练端到端的语音识别模型,理解其声学模型、语言模型与集束搜索解码原理。
4
0
0
2026-06-19
最新
最新
最新
最新
最新
最新
最新
最新
最新
最新
最新