データキュレーション (Data Curation)

▼ ざっくり言うと

学習に使うデータを「選んで、整えて、品質を担保する」工程のことです。

▼ もうちょっと詳しく

雑に集めたデータをそのまま学習に使うと、ノイズも偏りも丸ごと吸収されます。それを避けるために、データを精選し、重複を除き、品質をチェックする作業が「データキュレーション」。

LLMの学習データのキュレーションは、何兆トークンものデータから質の高いトークンを選び出す途方もない仕事。地味だけどモデル性能を決める最大要因の一つ、と言われます。綺麗なデータ > たくさんのデータという業界の合言葉。

地味で気が遠くなる仕事ほど、結果に直結します。AI業界の真理です。

あなたの読了: 0 / 390