データキュレーション (Data Curation)
▼ ざっくり言うと
学習に使うデータを「選んで、整えて、品質を担保する」工程のことです。
▼ もうちょっと詳しく
雑に集めたデータをそのまま学習に使うと、ノイズも偏りも丸ごと吸収されます。それを避けるために、データを精選し、重複を除き、品質をチェックする作業が「データキュレーション」。
LLMの学習データのキュレーションは、何兆トークンものデータから質の高いトークンを選び出す途方もない仕事。地味だけどモデル性能を決める最大要因の一つ、と言われます。綺麗なデータ > たくさんのデータという業界の合言葉。
地味で気が遠くなる仕事ほど、結果に直結します。AI業界の真理です。
あなたの読了: 0 / 390 語

