強化学習 (Reinforcement Learning)
▼ ざっくり言うと
試行錯誤させて、うまくいったら褒めて伸ばす方式です。
▼ もうちょっと詳しく
ペットのしつけと同じです。「お座り」できたらおやつ、できなかったらスルー。これを延々と繰り返すうちに、ペットは「お座りするとおやつが出る」を学習します。AIにも同じことをやらせます。
将棋AIとか囲碁AIが急に強くなったのは、これのおかげです。自分同士で何百万回も対戦させて、勝った手を褒める、というのを延々と続けます。人間の棋士が一生かけて指す対局数を、半日で経験する勢いです。
▼ ちょっとだけ深い話
最近のLLMの「人間っぽい返答」を仕上げる工程でも使われています。RLHF(人間のフィードバックによる強化学習)と呼ばれるやつ。要は「いい返答をしたら褒める係」を人間がやります。AIから見ると、ご褒美くれるバイトのお姉さんが急に増えた感じです。
AIにおやつを与え続ける仕事、というのが現代的に成立してしまっているのが面白いところです。
あなたの読了: 0 / 390 語

