FastChat 一个开放的平台,用于训练、服务和评估基于大语言模型的聊天机器人
✒️ @halomaster 📅 02 Apr 2023, 06:26 GMT⋮ 【AI】 1) Vicuna 是由加州大学伯克利分校等四所高校的研究者提出的,基于 LLaMA 模型。
2) Vicuna 使用的参数量是 13B,比 LLaMA 的 7B 版本更大。作者初步评估 13B 版本比 7B 版本要好不少,尽管这不是一个严谨的结论。
3) 评估 Vicuna 性能的方法不是使用标准的评测数据集和指标,而是让 GPT-4 作为“考官”来判断 Vicuna-13B 的答案比其他模型的答案更优。
4) 评估结果显示,GPT-4 在 90% 以上问题中更倾向 Vicuna 的答案, Vicuna 在总体评分上达到 ChatGPT 的 92%。
5) Vicuna 相比现有开源模型 LLaMA 和 Alpaca 有优势。
概括来讲, Vicuna 基于 LLaMA,但参数更大,能获得更好的结果。
https://github.com/lm-sys/FastChat
[1] @halomaster • 02 Apr 2023, 07:45 GMT
Vicuna 是一个完全开源的模型,研究团队明确强调 Vicuna 不能用于任何商业目的。
[2] @halomaster • 02 Apr 2023, 07:49 GMT
训练建立在斯坦福大学的羊驼之上,并进行了以下改进:
- 内存优化:为了使 Vicuna 能够理解长上下文,我们将羊驼的最大上下文长度从 512 扩展到 2048,这大大增加了 GPU 内存需求。我们通过利用梯度检查点和闪光注意力来解决内存压力。
- 多轮对话:我们调整训练损失以考虑多轮对话,并仅根据聊天机器人的输出计算微调损失。
- 通过竞价型实例降低成本:40 倍大的数据集和 4 倍的训练序列长度对训练费用提出了相当大的挑战。我们采用 SkyPilot 托管的 Spot 实例,通过利用具有自动恢复功能的更便宜的 Spot 实例来降低成本,以实现抢占和自动区域切换。该解决方案将训练 7B 模型的成本从 500 美元削减到 140 美元左右,将 13B 模型从大约 1 美元削减到 300 美元。
[3] @halomaster • 02 Apr 2023, 07:51 GMT
变压器在长序列上速度慢且需要内存,因为时间和 自我注意的记忆复杂性在序列长度上是二次的。 近似注意力方法试图通过交易来解决这个问题 模型外质量降低计算复杂度,但往往达不到 挂钟加速。我们认为,一个缺失的原则是引起注意 算法 IO 感知 -- 考虑 GPU 级别之间的读取和写入 记忆。我们提出了FlashAttention,一种IO感知的精确注意力算法 使用平铺减少 GPU 高之间的内存读取/写入次数 带宽存储器 (HBM) 和 GPU 片上 SRAM。我们分析了 IO 复杂度 FlashAttention,表明它需要比标准更少的 HBM 访问 注意,并且是一系列SRAM尺寸的最佳选择。我们还扩展 闪光注意块稀疏的注意力,产生近似的注意力 比任何现有的近似注意力方法都快的算法。 FlashAttention 训练变压器的速度比现有基线快:15% BERT-large(序列长度512)上的端到端挂钟加速与 MLPerf 1.1 训练速度记录,GPT-3 上的 2 倍加速(序列长度 1K), 和 2.4$\倍$ 远程竞技场上的加速(顺序长度 1K-4K)。闪光灯注意 和块稀疏的 FlashAttention 在变形金刚中启用更长的上下文,从而产生 更高质量的模型(GPT-0.7 的困惑度提高了 2 个,提升了 6.4 个点 长文档分类)和全新的功能:第一个 变压器在 Path-X 挑战赛中实现优于机会的性能 (序列长度 16K,精度为 61.4%)和路径 256(序列长度 64K,63.1% 准确性)。
https://arxiv.org/abs/2205.14135
[4] @halomaster • 02 Apr 2023, 08:21 GMT
评估人工智能聊天机器人是一项具有挑战性的任务,因为它需要检查语言理解、推理和上下文感知。随着人工智能聊天机器人变得越来越先进,目前的开放基准可能不再足够。例如,斯坦福大学羊驼(Alpaca)中使用的评估数据集,自我指导,可以由SOTA聊天机器人有效地回答,这使得人类难以辨别性能的差异。更多的限制包括训练/测试数据污染以及创建新基准的潜在高成本。为了解决这些问题,我们提出了一个基于 GPT-4 的评估框架来自动化聊天机器人性能评估。
[5] @halomaster • 02 Apr 2023, 08:22 GMT
首先,我们设计了八个问题类别,如费米问题、角色扮演场景和编码/数学任务,以测试聊天机器人性能的各个方面。通过仔细的快速工程,GPT-4 能够生成基线模型难以解决的各种具有挑战性的问题。我们为每个类别选择十个问题,并从五个聊天机器人中收集答案:LLaMA,Alpaca,ChatGPT,Bard和Vicuna。然后,我们要求 GPT-4 根据有用性、相关性、准确性和细节对其答案的质量进行评分。我们发现 GPT-4 不仅可以产生相对一致的分数,还可以详细解释为什么给出这样的分数([详细示例](https://vicuna.lmsys.org/eval) )。但是,我们也注意到 GPT-4 不太擅长判断编码/数学任务。
[6] @halomaster • 02 Apr 2023, 08:24 GMT
在超过90%的问题中,GPT-4更喜欢Vicuna而不是最先进的开源模型(LLaMA,Alpaca),并且它实现了与专有模型(ChatGPT,Bard)的竞争性能。在 45% 的问题中,GPT-4 将 Vicuna 的回答评为优于或等于 ChatGPT。 由于 GPT-4 以 10 分制为每个响应分配定量分数,我们通过将每个模型在 80 个问题上获得的分数相加来计算总分。骆马的总分是ChatGPT的92%。尽管最近取得了进步,但这些聊天机器人仍然面临局限性,例如在基本的数学问题上苦苦挣扎或编码能力有限。
1 of 1 pages 6 replies