EnergonAI 大规模模型推理框架

 ✒️ @halomaster 📅 05 Apr 2023, 12:27 GMT⋮ 【AI】 

作为大规模模型推理的服务框架,Energon-AI具有以下特点: - 大规模模型的并行性:通过张量并行操作、流水线并行包装器、分布式检查点加载和自定义 CUDA 内核,EnergonAI 可以为大规模模型实现高效的并行推理。 - 预建大型模型:流行模型(如 OPT)有预构建的实现。它支持生成任务和分布式参数加载的缓存技术。 引擎封装:有一个称为引擎的抽象层。它将单实例多设备 (SIMD) 执行与远程过程调用封装在一起,使其充当单实例单设备 (SISD) 执行。 - 在线服务系统:基于FastAPI,用户可以快速启动分布式推理的Web服务。在线服务对生成任务进行了特殊优化。它采用左填充和铲斗配料技术,以提高效率。 对于由Colossal-AI训练的模型,它们可以很容易地转移到Energon-AI。 对于单设备模型,它们需要手动编码工作来引入张量并行性和流水线并行性。 https://github.com/hpcaitech/EnergonAI


[1] @halomaster • 05 Apr 2023, 12:29 GMT 
论文: https://arxiv.org/pdf/2209.02341.pdf


1 of 1 pages  1 replies