RLHF (Reinforcement Learning from Human Feedback)
▼ ざっくり言うと
人間がAIに「この答え好き、こっちはダメ」と評価して躾ける手法です。
▼ もうちょっと詳しく
LLMがふつうに学習しただけだと、不適切な答えも結構出します。そこで「ふたつの答えのうち、こっちのほうが好ましい」と人間が点数を付けてあげる作業をたくさん集めて、そのフィードバックをもとに強化学習で躾けるのがRLHFです。
要するに、AIに「いい子、いい子」「それダメ」を延々と教える業者さんたちがいる、ということです。ChatGPTがあそこまで会話の人間らしさを得たのも、裏で大量の人間バイトがフィードバックを送り続けてくれた成果です。
▼ ちょっとだけ深い話
ただ、人間の好みも偏ってるので、RLHFを通すとAIが「無難な優等生」っぽい答えを連発するようになる、という副作用も知られています。過剰に丁寧で、肝心なことを言わない、みたいな現象の一因。一長一短。
AIを優等生にしすぎると、急に塩対応になります。匙加減の難しい仕事です。
あなたの読了: 0 / 390 語

