Common Crawl (Common Crawl)
▼ ざっくり言うと
ウェブを定期的にクロールして公開している、LLMの主食材です。
▼ もうちょっと詳しく
2007年から活動している非営利団体が、インターネット上のページを大規模にクロールして公開してくれています。ペタバイト級の生データで、ほとんどのLLMの学習データの土台になっています。
この団体がなかったら、ほぼ全てのLLM研究は成立しなかった、とも言われる存在。「インターネット全体のスナップショット」を公益として配ってくれている、地味だけど偉大な裏方です。
インターネットを定期的に丸ごとコピーしている人たちがいる、というだけで結構な驚きです。
あなたの読了: 0 / 390 語

