PPOピーピーオー (Proximal Policy Optimization)

▼ ざっくり言うと

強化学習の代表手法、ChatGPTのRLHFでも使われた重要アルゴリズムです。

▼ もうちょっと詳しく

2017年、当時OpenAIにいたジョン・シュルマンらが発表した強化学習アルゴリズム。「学習がいちど暴走すると元に戻せない」という強化学習の弱点を、「方策を一度に大きく変えすぎない(Proximal=近接)」という仕組みで安定化させました。

シンプル・安定・実用的の三拍子で、強化学習の業界標準になりました。ChatGPT の RLHF でも実は中核アルゴリズムとして使われていた、ということで、LLM時代の基盤技術でもあります。DPO や RLAIF が出てきて少し主役の座を譲りつつありますが、現役の重要選手

「過激に変えすぎない」を制約に加えるだけで、世界を変えるアルゴリズムになる、というのが面白いです。

あなたの読了: 0 / 388