最新
SEED-Bench
了解 SEED-Bench 的多维度生成式评测,涵盖图像和视频理解,为多模态模型提供精细化能力诊断。
3
0
0
2026-06-22
最新
Gemini 多模态模型
学习谷歌 Gemini 系列,理解其原生多模态设计,无缝处理文本、图像、音频和视频,与长达百万 Token 的上下文窗口。
2
0
0
2026-06-22
最新
通义千问 Qwen-VL
深入 Qwen-VL 架构,学习其如何将视觉编码与大语言模型结合,实现图像描述、问答和视觉定位等多模态能力。
4
0
0
2026-06-22
最新
MiniGPT-4 多模态
学习 MiniGPT-4 如何仅通过一个线性投影层连接冻结的视觉编码器和大语言模型,实现图文理解与多轮对话,并降低多模态对齐成本。
5
0
0
2026-06-19
最新
BLIP-2 多模态模型
学习 BLIP-2 如何用轻量 Q-Former 对齐冻结的视觉编码器和大语言模型,高效完成图像描述、问答等任务。
5
0
0
2026-06-19
最新
CLIP 对比语言图像预训练
深入 OpenAI CLIP 模型,学习其对偶编码器架构和对比损失,实现强大的零样本图像分类和图文检索。
8
0
0
2026-06-19