DPOディーピーオー (Direct Preference Optimization)

▼ ざっくり言うと

RLHFをもっとシンプルにした、選好データから直接学ぶ手法です。

▼ もうちょっと詳しく

RLHFは「人間の選好データ」→「報酬モデル」→「強化学習」と3段階の手間がかかる仕組みでした。DPOはこれをショートカットして、選好データから直接モデルを最適化します。

実装がシンプルで、再現性も高く、コストも低い。強化学習の沼を回避できるということで、2023〜2024年に急速に普及しました。業界の手抜きを正当化してくれるありがたい論文として、研究者の支持を集めています。

「もっとシンプルでもいい結果が出る」というのは、業界が静かに歓喜する瞬間です。

あなたの読了: 0 / 388