RedPajama是一个旨在为人工智能领域创建一套开源模型的项目。今天他们宣布完成了这个项目的第一步:复制超过 1.2 万亿个数据点的LLaMA 训练数据集。
人工智能的兴起
人工智能正在迎来它的 Linux 时刻。Stable Diffusion表明,开源不仅可以与DALL-E 等商业产品的质量相媲美,还可以从全球用户的广泛参与中带来令人难以置信的创造力。
随着最近发布的半开放模型(例如 LLaMA、Alpaca、Vicuña 和 Koala),围绕大型语言模型开始了类似的运动;以及完全开放的模型,如 Pythia、OpenChatKit、Open Assistant和 Dolly。
RedPajama 刚刚上线,致力于产生一个完全开放和可复制的语言模型 。RedPajama 是 Together、Ontocord.ai、ETH DS3Lab、Stanford CRFM、Hazy Research 和 MILA Québec AI Institute 之间的合作。RedPajama 具有三个关键组件:
预训练数据,既要高质量又要覆盖面广
基础模型,使用这些数据进行大规模训练
通过指令进行模型和数据拟合,改进基础模型使其可用和安全
起点是 LLaMA,它是领先的开放基础模型集,原因有二:首先,LLaMA 是在一个非常大的数据集(1.2 万亿数据点)上训练的,该数据集针对质量问题进行了仔细过滤。
其次, 70 亿参数的LLaMA 模型的训练时间更长,超出了 Chincilla 最佳点,以确保该模型大小的最佳质量。70 亿参数模型对社区特别有价值,因为它可以在各种GPU上运行,包括许多消费级 GPU。
红色睡衣数据集
构成 RedPajama 的数据和一个较小的、可消耗的随机样本可以通过Hugging Face下载。完整数据集在磁盘上未压缩为 5TB,压缩后为 3TB 可下载。RedPajama-Data-1T 包含七个信息源:
CommonCrawl:五个 CommonCrawl 转储,使用 CCNet 管道处理并通过各种质量过滤器进行过滤,包括选择类似维基百科页面的线性分类器。