Common Crawlコモンクロール (Common Crawl)

▼ ざっくり言うと

ウェブを定期的にクロールして公開している、LLMの主食材です。

▼ もうちょっと詳しく

2007年から活動している非営利団体が、インターネット上のページを大規模にクロールして公開してくれています。ペタバイト級の生データで、ほとんどのLLMの学習データの土台になっています。

この団体がなかったら、ほぼ全てのLLM研究は成立しなかった、とも言われる存在。「インターネット全体のスナップショット」を公益として配ってくれている、地味だけど偉大な裏方です。

インターネットを定期的に丸ごとコピーしている人たちがいる、というだけで結構な驚きです。

あなたの読了: 0 / 390