开源语言模板RED PYJAMA现已可供下载和查看

RedPajama是一个旨在为人工智能领域创建一套开源模型的项目。今天他们宣布完成了这个项目的第一步：复制超过 1.2 万亿个数据点的LLaMA 训练数据集。

人工智能的兴起

人工智能正在迎来它的 Linux 时刻。Stable Diffusion表明，开源不仅可以与DALL-E 等商业产品的质量相媲美，还可以从全球用户的广泛参与中带来令人难以置信的创造力。

随着最近发布的半开放模型(例如 LLaMA、Alpaca、Vicuña 和 Koala)，围绕大型语言模型开始了类似的运动;以及完全开放的模型，如 Pythia、OpenChatKit、Open Assistant和 Dolly。

RedPajama 刚刚上线，致力于产生一个完全开放和可复制的语言模型。RedPajama 是 Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research 和 MILA Québec AI Institute 之间的合作。RedPajama 具有三个关键组件：

预训练数据，既要高质量又要覆盖面广

基础模型，使用这些数据进行大规模训练

通过指令进行模型和数据拟合，改进基础模型使其可用和安全

起点是 LLaMA，它是领先的开放基础模型集，原因有二：首先，LLaMA 是在一个非常大的数据集(1.2 万亿数据点)上训练的，该数据集针对质量问题进行了仔细过滤。

其次， 70 亿参数的LLaMA 模型的训练时间更长，超出了 Chincilla 最佳点，以确保该模型大小的最佳质量。70 亿参数模型对社区特别有价值，因为它可以在各种GPU上运行，包括许多消费级 GPU。

红色睡衣数据集

构成 RedPajama 的数据和一个较小的、可消耗的随机样本可以通过Hugging Face下载。完整数据集在磁盘上未压缩为 5TB，压缩后为 3TB 可下载。RedPajama-Data-1T 包含七个信息源：

CommonCrawl：五个 CommonCrawl 转储，使用 CCNet 管道处理并通过各种质量过滤器进行过滤，包括选择类似维基百科页面的线性分类器。

开源语言模板RED PYJAMA现已可供下载和查看

相关文章