免费编程教程

最新
多模态信息提取

学习从包含文本、图像和表格的混合文档中自动抽取实体、关系和事件,构建丰富的结构化知识库。

1 0 0
2026-06-23
最新
SEED-Bench

了解 SEED-Bench 的多维度生成式评测,涵盖图像和视频理解,为多模态模型提供精细化能力诊断。

3 0 0
2026-06-22
最新
Gemini 多模态模型

学习谷歌 Gemini 系列,理解其原生多模态设计,无缝处理文本、图像、音频和视频,与长达百万 Token 的上下文窗口。

2 0 0
2026-06-22
最新
通义千问 Qwen-VL

深入 Qwen-VL 架构,学习其如何将视觉编码与大语言模型结合,实现图像描述、问答和视觉定位等多模态能力。

4 0 0
2026-06-22
最新
视觉问答 VQA

构建能根据图像内容回答自然语言问题的模型,学习特征融合、共同注意力和多模态推理等核心 VQA 技术。

5 0 0
2026-06-19
最新
MiniGPT-4 多模态

学习 MiniGPT-4 如何仅通过一个线性投影层连接冻结的视觉编码器和大语言模型,实现图文理解与多轮对话,并降低多模态对齐成本。

5 0 0
2026-06-19
最新
BLIP-2 多模态模型

学习 BLIP-2 如何用轻量 Q-Former 对齐冻结的视觉编码器和大语言模型,高效完成图像描述、问答等任务。

5 0 0
2026-06-19
最新
CLIP 对比语言图像预训练

深入 OpenAI CLIP 模型,学习其对偶编码器架构和对比损失,实现强大的零样本图像分类和图文检索。

8 0 0
2026-06-19
最新
多模态表示学习

学习将不同模态的数据映射到统一语义空间的技术,如 CLIP、VATT 等,支持跨模态检索与推理。

6 0 0
2026-06-19
最新
多模态指令微调

学习构建图文指令数据集,对视觉编码器与大语言模型进行联合微调,使多模态模型能够遵循自然语言指令,理解与回答视觉内容。

11 0 0
2026-06-13