The Pileザパイル (The Pile)

▼ ざっくり言うと

825GBの学術系テキストを集めた、初期LLM学習データの古典的存在です。

▼ もうちょっと詳しく

2020年、研究グループEleutherAIが公開した825GBのテキストデータセット。Wikipedia、書籍、arXivの論文、GitHubのコード、Pubmedの医学論文など、「インターネットの硬めの部分」を集めた構成。

オープンソースのLLM(GPT-J、GPT-NeoX など)の学習で広く使われ、「公開LLMの父なるデータセット」の地位を確立しました。ベタな名前(The Pile = 山積み)だが、業界では尊敬を込めて呼ばれます。

「ただの山積み」と名乗りつつ、業界全体が世話になっています。

あなたの読了: 0 / 388