The Pile (The Pile)
▼ ざっくり言うと
825GBの学術系テキストを集めた、初期LLM学習データの古典的存在です。
▼ もうちょっと詳しく
2020年、研究グループEleutherAIが公開した825GBのテキストデータセット。Wikipedia、書籍、arXivの論文、GitHubのコード、Pubmedの医学論文など、「インターネットの硬めの部分」を集めた構成。
オープンソースのLLM(GPT-J、GPT-NeoX など)の学習で広く使われ、「公開LLMの父なるデータセット」の地位を確立しました。ベタな名前(The Pile = 山積み)だが、業界では尊敬を込めて呼ばれます。
「ただの山積み」と名乗りつつ、業界全体が世話になっています。
あなたの読了: 0 / 388 語

