PPO (Proximal Policy Optimization)
▼ ざっくり言うと
強化学習の代表手法、ChatGPTのRLHFでも使われた重要アルゴリズムです。
▼ もうちょっと詳しく
2017年、当時OpenAIにいたジョン・シュルマンらが発表した強化学習アルゴリズム。「学習がいちど暴走すると元に戻せない」という強化学習の弱点を、「方策を一度に大きく変えすぎない(Proximal=近接)」という仕組みで安定化させました。
シンプル・安定・実用的の三拍子で、強化学習の業界標準になりました。ChatGPT の RLHF でも実は中核アルゴリズムとして使われていた、ということで、LLM時代の基盤技術でもあります。DPO や RLAIF が出てきて少し主役の座を譲りつつありますが、現役の重要選手。
「過激に変えすぎない」を制約に加えるだけで、世界を変えるアルゴリズムになる、というのが面白いです。
あなたの読了: 0 / 388 語

