学習データ (Training Data)
▼ ざっくり言うと
AIに学ばせる素材になるデータのことです。
▼ もうちょっと詳しく
AIにとってのご飯です。質も量も大事。変なご飯ばかり食べさせると、変なAIに育ちます。これは人間の子育てと同じです。
LLMの場合、学習データは「インターネット上の文章」「本」「論文」「Wikipedia」などのごちゃ混ぜです。なので、ネット民の暴言とWikipediaの正確な情報を、同時に飲み込んで育っています。ちょっと不憫です。
▼ 気をつけること
学習データに偏りがあると、AIの答えも偏ります。これが「バイアス」の主な発生源。あとは著作権の問題。最近、訴訟が次々起きています。「うちの本、勝手に読みましたよね」というやつです。
ジャンクフードしか食べてないと体に出るのと一緒で、変なデータしか食べてないAIには、それが滲み出ます。
あなたの読了: 0 / 388 語

