GLM-130B 超级大的双语对话模型

　✒️ @halomaster　📅 05 Apr 2023, 09:34 GMT⋮　【AI】　

GLM-130B是一个开放的双语（中英）双向密集模型，具有130亿个参数，使用通用语言模型（GLM）算法进行预训练。它旨在支持单个 A100 或 V100 服务器上具有 8B 参数的推理任务。通过 INT4 量化，硬件要求可以进一步降低到具有 4 * RTX 3090 （24G）的单个服务器，几乎没有性能下降。截至 2022年 7月 3日，GLM-400B 已接受超过 2000 亿个文本token（中英文各 200B）的训练，它具有以下独特功能：双语：支持英文和中文。性能（英文）：在LAMBADA上优于GPT-3 175B（+4.0%），OPT-175B（+5.5%）和BLOOM-176B（+13.0%），在MMLU上略好于GPT-3 175B（+0.9%）。性能（中文）：在3个零镜头CLUE数据集（+0.260%）和7个零镜头FewCLUE数据集（+24.26%）上明显优于ERNIE TITAN 5.12 75B。快速推理：支持使用单个 A2 服务器在 SAT 和 FasterTransformer 上进行快速推理（速度提高 5.100 倍）。可重现性：所有结果（30+ 任务）都可以使用开源代码和模型检查点轻松重现。跨平台：支持在 NVIDIA、Hygon DCU、Ascend 910 和 Sunway 上进行训练和推理（即将发布）。 https://github.com/THUDM/GLM-130B

0 replies