GRPOジーアールピーオー (Group Relative Policy Optimization)

▼ ざっくり言うと

PPOから「価値関数」をなくして、グループ内の相対比較で報酬を計算する、軽量化された強化学習手法です。

▼ もうちょっと詳しく

DeepSeek が DeepSeek-Math と R1 で採用して有名になった、強化学習アルゴリズム。PPOの仕組みから「価値関数(Critic)」を取り除き、代わりに「同じ問題への複数の回答案をグループとして比較し、平均より良かったか悪かったかで報酬を計算」する方式に切り替えました。

  • メリット: 価値関数モデルを別途学習しなくていいので、メモリと計算量が大幅減
  • 特に効く場面: 数学・コーディングのような、回答の良し悪しを明確に評価できるタスク

DeepSeek-R1 が推論能力で o1 クラスを実現した立役者として、2025年初頭に一気に注目を集めました。

▼ ちょっとだけ深い話

Critic を持たない分、PPOより不安定では?」という懸念もありましたが、グループ内の相対比較がベースラインの役割を果たして安定する、というのが実証されました。LLMの強化学習の新標準として広がりつつある段階です。

「Critic をやめたら逆に安定した」というのは、強化学習の世界ではしばしば起きる謎現象です。

あなたの読了: 0 / 393