DPO (Direct Preference Optimization)
▼ ざっくり言うと
RLHFをもっとシンプルにした、選好データから直接学ぶ手法です。
▼ もうちょっと詳しく
RLHFは「人間の選好データ」→「報酬モデル」→「強化学習」と3段階の手間がかかる仕組みでした。DPOはこれをショートカットして、選好データから直接モデルを最適化します。
実装がシンプルで、再現性も高く、コストも低い。強化学習の沼を回避できるということで、2023〜2024年に急速に普及しました。業界の手抜きを正当化してくれるありがたい論文として、研究者の支持を集めています。
「もっとシンプルでもいい結果が出る」というのは、業界が静かに歓喜する瞬間です。
あなたの読了: 0 / 388 語

