作为大规模模型推理的服务框架,Energon-AI具有以下特点:
- 大规模模型的并行性:通过张量并行操作、流水线并行包装器、分布式检查点加载和自定义 CUDA 内核,EnergonAI 可以为大规模模型实现高效的并行推理。
- 预建大型模型:流行模型(如 OPT)有预构建的实现。它支持生成任务和分布式参数加载的缓存技术。
引擎封装:有一个称为引擎的抽象层。它将单实例多设备 (SIMD) 执行与远程过程调用封装在一起,使其充当单实例单设备 (SISD) 执行。
- 在线服务系统:基于FastAPI,用户可以快速启动分布式推理的Web服务。在线服务对生成任务进行了特殊优化。它采用左填充和铲斗配料技术,以提高效率。
对于由Colossal-AI训练的模型,它们可以很容易地转移到Energon-AI。 对于单设备模型,它们需要手动编码工作来引入张量并行性和流水线并行性。
https://github.com/hpcaitech/EnergonAI
[1] @halomaster • 05 Apr 2023, 12:29 GMT
论文:
https://arxiv.org/pdf/2209.02341.pdf
1 of 1 pages 1 replies