DeepSpeed 加速训练和推理,并解决CUDA out of memory问题

 @halomaster 11 Oct 2022, 03:46 GMT【AI】 

[DeepSpeed](https://github.com/microsoft/DeepSpeed) [DeepSpeed ZeRO-3 Offload](https://www.deepspeed.ai/2021/03/07/zero3-offload.html#) --------------------------- [如何在hugging face的库里使用DeepSpeed的ZeRO加速技术](https://huggingface.co/docs/accelerate/usage_guides/deepspeed) 支持: - 优化器状态分区 - 梯度分区 - 参数分区 - 自定义混合精度训练 - 一系列更快速的CUDA扩展优化器 - 卸载负载到CPU和磁盘(NVMe) [ZeRO-Infinity: Breaking the GPU MemoryWall for Extreme Scale Deep Learning](https://arxiv.org/pdf/2104.07857.pdf)

[1] @halomaster • 11 Oct 2022, 07:06 GMT 
ZeRO是一组强大的内存优化技术,可以对具有数万亿个参数的大型模型进行有效的FP16训练。与用于训练大型模型的一种替代方案model parallelism方法相比,ZeRO的一个关键吸引力在于不需要修改模型代码。在DeepSpeed中使用ZeRO既快速又简单,用户只需要更改DeepSpeed JSON配置文件中的一些选项即可。 ———————————————— 版权声明:本文为CSDN博主「openRiemann」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。 原文链接:https://blog.csdn.net/Matlab16/article/details/121363742

[2] @halomaster • 11 Oct 2022, 07:50 GMT 
论文:https://arxiv.org/pdf/2104.07857.pdf

[3] @halomaster • 13 Oct 2022, 05:43 GMT 
[【[译] DeepSpeed:所有人都能用的超大规模模型训练工具】](https://zhuanlan.zhihu.com/p/343570325)

[4] @halomaster • 13 Oct 2022, 05:57 GMT 
Microsoft Turing 通用语言表示模型 T-ULRv5 在 XTREME 排行榜上名列前茅,训练速度提高 100 倍 https://www.microsoft.com/en-us/research/blog/microsoft-turing-universal-language-representation-model-t-ulrv5-tops-xtreme-leaderboard-and-trains-100x-faster/

[5] @halomaster • 13 Oct 2022, 14:22 GMT 
DeepSpeed 结合了三项强大的技术,可以训练数万亿规模的模型并扩展到数千个 GPU:数据并行训练,模型并行训练和流水线并行训练。这三者的共生让深度学习训练的规模远远超出了单独使用每种策略可以企及的。3D 并行同时解决了训练万亿参数模型的两个基本挑战:显存效率和计算效率。因此,DeepSpeed 可以扩展至在显存中放下最巨大的模型,而不会牺牲速度。

1 of 1 pages  5 replies