MiniGPT-4 使用高级大语言模型增强视觉语言理解

　✒️ @halomaster　📅 19 Apr 2023, 00:40 GMT⋮　【AI】　

MiniGPT-4仅使用一个投影层将来自BLIP-2的冻结视觉编码器与冻结的LLM，Vicuna对齐。我们分两个阶段训练 MiniGPT-4。第一个传统的预训练阶段是使用 4 个 A100 在 10 小时内使用大约 500 万个对齐的图像文本对进行训练。在第一阶段之后，骆马能够理解图像。但骆马的生成能力受到严重影响。为了解决这个问题并提高可用性，我们提出了一种新颖的方法，通过模型本身和 ChatGPT 一起创建高质量的图像文本对。在此基础上，我们创建了一个小的（总共3500对）但高质量的数据集。第二个微调阶段在对话模板中对此数据集进行训练，以显着提高其生成可靠性和整体可用性。令我们惊讶的是，这个阶段的计算效率很高，使用单个 A100 只需要大约 7 分钟。 MiniGPT-4 产生了许多新兴的视觉语言功能，类似于 GPT-4 中展示的功能。 https://github.com/Vision-CAIR/MiniGPT-4

0 replies