最新
通义千问 Qwen-VL
深入 Qwen-VL 架构,学习其如何将视觉编码与大语言模型结合,实现图像描述、问答和视觉定位等多模态能力。
4
0
0
2026-06-22
最新
图像字幕 Image Captioning
掌握为图像自动生成文字描述的技术,涵盖 CNN-RNN 基础架构、注意力机制和最新的 Transformer 与多模态预训练模型。
3
0
0
2026-06-19