RLHFアールエルエイチエフ (Reinforcement Learning from Human Feedback)

▼ ざっくり言うと

人間がAIに「この答え好き、こっちはダメ」と評価して躾ける手法です。

▼ もうちょっと詳しく

LLMがふつうに学習しただけだと、不適切な答えも結構出します。そこで「ふたつの答えのうち、こっちのほうが好ましい」と人間が点数を付けてあげる作業をたくさん集めて、そのフィードバックをもとに強化学習で躾けるのがRLHFです。

要するに、AIに「いい子、いい子」「それダメ」を延々と教える業者さんたちがいる、ということです。ChatGPTがあそこまで会話の人間らしさを得たのも、裏で大量の人間バイトがフィードバックを送り続けてくれた成果です。

▼ ちょっとだけ深い話

ただ、人間の好みも偏ってるので、RLHFを通すとAIが「無難な優等生」っぽい答えを連発するようになる、という副作用も知られています。過剰に丁寧で、肝心なことを言わない、みたいな現象の一因。一長一短。

AIを優等生にしすぎると、急に塩対応になります。匙加減の難しい仕事です。

あなたの読了: 0 / 390