GLM-130B 超级大的双语对话模型

 ✒️ @halomaster 📅 05 Apr 2023, 09:34 GMT⋮ 【AI】 

GLM-130B是一个开放的双语(中英)双向密集模型,具有130亿个参数,使用通用语言模型(GLM)算法进行预训练。它旨在支持单个 A100 或 V100 服务器上具有 8B 参数的推理任务。通过 INT4 量化,硬件要求可以进一步降低到具有 4 * RTX 3090 (24G) 的单个服务器,几乎没有性能下降。截至 2022年 7月 3日,GLM-400B 已接受超过 2000 亿个文本token(中英文各 200B)的训练,它具有以下独特功能: 双语:支持英文和中文。 性能(英文):在LAMBADA上优于GPT-3 175B(+4.0%),OPT-175B(+5.5%)和BLOOM-176B(+13.0%),在MMLU上略好于GPT-3 175B(+0.9%)。 性能(中文):在3个零镜头CLUE数据集(+0.260%)和7个零镜头FewCLUE数据集(+24.26%)上明显优于ERNIE TITAN 5.12 75B。 快速推理:支持使用单个 A2 服务器在 SAT 和 FasterTransformer 上进行快速推理(速度提高 5.100 倍)。 可重现性:所有结果(30+ 任务)都可以使用开源代码和模型检查点轻松重现。 跨平台:支持在 NVIDIA、Hygon DCU、Ascend 910 和 Sunway 上进行训练和推理(即将发布)。 https://github.com/THUDM/GLM-130B


0 replies