RLAIFアールエルエーアイエフ (Reinforcement Learning from AI Feedback)

▼ ざっくり言うと

人間の代わりにAIがフィードバックを返す、RLHFのAI版です。

▼ もうちょっと詳しく

RLHF は「2つの回答を見て、人間がどっちが好きか答える」を集めるところがコストの中心でした。RLAIF はこれをAIに肩代わりさせる仕組み。「2つの回答を見て、AIが憲法(原則)に照らしてどっちが良いか答える」というやり方。

AnthropicのClaude が使っている憲法AIは、まさにこのRLAIF。人間ラベル付けを大幅に減らせるのがウリで、速くて安いアラインメントの選択肢として急速に広がっています。

▼ 気をつけること

判定するAI自身に偏りがあると、その偏りがそのまま増幅されるリスクがあります。「AIが書いたガイドラインでAIを採点して育てる」のは、慎重に設計しないと「鏡の中の鏡」状態に。人間のレビューを完全に消すことはできない、というのが現状の業界合意です。

人間の手間が減れば良い、というのは正しいですが、何かが消える代わりに何かが偏る、それが世の常です。

あなたの読了: 0 / 390