Cerebras-GPT 完全公开的大语言模型

 ✒️ @halomaster 📅 31 Mar 2023, 15:43 GMT⋮ 【AI】 

官方介绍: https://www.cerebras.net/blog/cerebras-gpt-a-family-of-open-compute-efficient-large-language-models/ huggingface 模型卡: https://huggingface.co/cerebras/Cerebras-GPT-13B Cerebras-GPT几乎是各个方面完全公开,没有任何限制。不管是模型架构,还是预训练结果都是公开的。


[1] @halomaster • 31 Mar 2023, 15:45 GMT 
discord: https://discord.com/invite/q6bZcMWJVu


[2] @halomaster • 31 Mar 2023, 15:52 GMT 
最先进的语言模型训练具有极高的挑战性,需要庞大的计算预算、复杂的分布式计算技术和深厚的 ML 专业知识。因此,很少有组织从头开始训练大型语言模型(LLM)。然而,随着越来越多拥有资源和专业知识的人不再将其结果开源,这一情况已经发生了重大变化。 在 Cerebras,我们致力于促进对最先进模型的开放访问。考虑到这一点,我们很自豪地宣布向开源社区发布 Cerebras-GPT,这是一个由七个 GPT 模型组成的家族,参数范围从 111M (1.11亿)到 13G(130亿)不等。这些模型使用 Chinchilla 公式进行训练,可为给定的计算预算提供最高精度。与迄今为止任何公开可用的模型相比,Cerebras-GPT 具有更快的训练时间、更低的训练成本和更少的能耗。 所有模型都在CS-2系统上进行了训练,这些系统是仙女座AI超级计算机的一部分,使用我们简单的数据并行权重流架构。由于不必担心模型分区,我们能够在短短几周内训练这些模型。训练这七个模型使我们能够推导出新的缩放定律。缩放定律根据训练计算预算预测模型的准确性,在指导人工智能研究方面具有巨大影响力。据我们所知,Cerebras-GPT 是第一个预测公共数据集模型性能的缩放定律。 今天的版本旨在供任何人使用和复制。所有模型、权重和检查点都可以在 Hugging Face 和 GitHub 上获得 Apache 2.0 许可证。此外,我们在即将发表的论文中提供了有关我们的训练方法和表现结果的详细信息。用于训练的 Cerebras CS-2 系统也可以通过 Cerebras Model Studio 按需提供。


[3] @halomaster • 01 Apr 2023, 00:52 GMT 
GPT-4论文精读 【GPT-4论文精读【论文精读·53】-哔哩哔哩】 https://b23.tv/jWZgikt


[4] @halomaster • 05 Apr 2023, 09:43 GMT 
新AI芯片介绍:Cerebras https://zhuanlan.zhihu.com/p/158905943


1 of 1 pages  4 replies