Q学習キューガクシュウ (Q-Learning)

▼ ざっくり言うと

「この状況でこの行動を取ったら、最終的にどれくらい得か」を表にして学習する、強化学習の基本手法です。

▼ もうちょっと詳しく

迷路を解くロボットを想像してください。ロボットは今いるマス(状態)どの方向に動く(行動) ことができ、ゴールに着くとご褒美をもらえる。

Q学習では、「状態」と「行動」の組み合わせ全部に、Q値(=その行動の見込み価値)を表で持っておく。最初はランダムな値です。動いてみて結果が良ければそのQ値を上げ、悪ければ下げる。これを延々と繰り返すと、表が次第に「正解の動き方」を表現するようになる、というアルゴリズム。

「未来の報酬を割引きながら足し込む」という更新式が肝。目先より長期の得を重視するロボットが出来上がります。

▼ ちょっとだけ深い話

1989年に Watkins が提案。シンプルですが、「状態×行動」の表を持つ必要があるので、状態数が爆発すると非現実的。そこで、表をニューラルネットで近似したのがDQN(Deep Q-Network)で、Atariの古いゲームを人間越えで攻略して話題になりました。現代の強化学習の出発点として、今も教科書の最初に出てきます。

「全部の選択肢にスコアを振っておく」という発想は、人生の選択でも案外使える、と思います(更新が遅いだけで)。

あなたの読了: 0 / 388