学習データガクシュウデータ (Training Data)

▼ ざっくり言うと

AIに学ばせる素材になるデータのことです。

▼ もうちょっと詳しく

AIにとってのご飯です。質も量も大事。変なご飯ばかり食べさせると、変なAIに育ちます。これは人間の子育てと同じです。

LLMの場合、学習データは「インターネット上の文章」「本」「論文」「Wikipedia」などのごちゃ混ぜです。なので、ネット民の暴言とWikipediaの正確な情報を、同時に飲み込んで育っています。ちょっと不憫です。

▼ 気をつけること

学習データに偏りがあると、AIの答えも偏ります。これが「バイアス」の主な発生源。あとは著作権の問題。最近、訴訟が次々起きています。「うちの本、勝手に読みましたよね」というやつです。

ジャンクフードしか食べてないと体に出るのと一緒で、変なデータしか食べてないAIには、それが滲み出ます。

あなたの読了: 0 / 388