MiniGPT-4 使用高级大语言模型增强视觉语言理解

 ✒️ @halomaster 📅 19 Apr 2023, 00:40 GMT⋮ 【AI】 

MiniGPT-4仅使用一个投影层将来自BLIP-2的冻结视觉编码器与冻结的LLM,Vicuna对齐。 我们分两个阶段训练 MiniGPT-4。第一个传统的预训练阶段是使用 4 个 A100 在 10 小时内使用大约 500 万个对齐的图像文本对进行训练。在第一阶段之后,骆马能够理解图像。但骆马的生成能力受到严重影响。 为了解决这个问题并提高可用性,我们提出了一种新颖的方法,通过模型本身和 ChatGPT 一起创建高质量的图像文本对。在此基础上,我们创建了一个小的(总共3500对)但高质量的数据集。 第二个微调阶段在对话模板中对此数据集进行训练,以显着提高其生成可靠性和整体可用性。令我们惊讶的是,这个阶段的计算效率很高,使用单个 A100 只需要大约 7 分钟。 MiniGPT-4 产生了许多新兴的视觉语言功能,类似于 GPT-4 中展示的功能。 https://github.com/Vision-CAIR/MiniGPT-4


0 replies