強化学習キョウカガクシュウ (Reinforcement Learning)

▼ ざっくり言うと

試行錯誤させて、うまくいったら褒めて伸ばす方式です。

▼ もうちょっと詳しく

ペットのしつけと同じです。「お座り」できたらおやつ、できなかったらスルー。これを延々と繰り返すうちに、ペットは「お座りするとおやつが出る」を学習します。AIにも同じことをやらせます。

将棋AIとか囲碁AIが急に強くなったのは、これのおかげです。自分同士で何百万回も対戦させて、勝った手を褒める、というのを延々と続けます。人間の棋士が一生かけて指す対局数を、半日で経験する勢いです。

▼ ちょっとだけ深い話

最近のLLMの「人間っぽい返答」を仕上げる工程でも使われています。RLHF(人間のフィードバックによる強化学習)と呼ばれるやつ。要は「いい返答をしたら褒める係」を人間がやります。AIから見ると、ご褒美くれるバイトのお姉さんが急に増えた感じです。

AIにおやつを与え続ける仕事、というのが現代的に成立してしまっているのが面白いところです。

あなたの読了: 0 / 390