Q学習 (Q-Learning)
▼ ざっくり言うと
「この状況でこの行動を取ったら、最終的にどれくらい得か」を表にして学習する、強化学習の基本手法です。
▼ もうちょっと詳しく
迷路を解くロボットを想像してください。ロボットは今いるマス(状態) で どの方向に動く(行動) ことができ、ゴールに着くとご褒美をもらえる。
Q学習では、「状態」と「行動」の組み合わせ全部に、Q値(=その行動の見込み価値)を表で持っておく。最初はランダムな値です。動いてみて結果が良ければそのQ値を上げ、悪ければ下げる。これを延々と繰り返すと、表が次第に「正解の動き方」を表現するようになる、というアルゴリズム。
「未来の報酬を割引きながら足し込む」という更新式が肝。目先より長期の得を重視するロボットが出来上がります。
▼ ちょっとだけ深い話
1989年に Watkins が提案。シンプルですが、「状態×行動」の表を持つ必要があるので、状態数が爆発すると非現実的。そこで、表をニューラルネットで近似したのがDQN(Deep Q-Network)で、Atariの古いゲームを人間越えで攻略して話題になりました。現代の強化学習の出発点として、今も教科書の最初に出てきます。
「全部の選択肢にスコアを振っておく」という発想は、人生の選択でも案外使える、と思います(更新が遅いだけで)。
あなたの読了: 0 / 388 語

