GRPO (Group Relative Policy Optimization)
▼ ざっくり言うと
PPOから「価値関数」をなくして、グループ内の相対比較で報酬を計算する、軽量化された強化学習手法です。
▼ もうちょっと詳しく
DeepSeek が DeepSeek-Math と R1 で採用して有名になった、強化学習アルゴリズム。PPOの仕組みから「価値関数(Critic)」を取り除き、代わりに「同じ問題への複数の回答案をグループとして比較し、平均より良かったか悪かったかで報酬を計算」する方式に切り替えました。
- メリット: 価値関数モデルを別途学習しなくていいので、メモリと計算量が大幅減
- 特に効く場面: 数学・コーディングのような、回答の良し悪しを明確に評価できるタスク
DeepSeek-R1 が推論能力で o1 クラスを実現した立役者として、2025年初頭に一気に注目を集めました。
▼ ちょっとだけ深い話
「Critic を持たない分、PPOより不安定では?」という懸念もありましたが、グループ内の相対比較がベースラインの役割を果たして安定する、というのが実証されました。LLMの強化学習の新標準として広がりつつある段階です。
「Critic をやめたら逆に安定した」というのは、強化学習の世界ではしばしば起きる謎現象です。
あなたの読了: 0 / 393 語

