学习 MiniGPT-4 如何仅通过一个线性投影层连接冻结的视觉编码器和大语言模型,实现图文理解与多轮对话,并降低多模态对齐成本。
学习构建图文指令数据集,对视觉编码器与大语言模型进行联合微调,使多模态模型能够遵循自然语言指令,理解与回答视觉内容。