憲法AI (Constitutional AI)
▼ ざっくり言うと
AnthropicがClaudeに使っている、原則(憲法)ベースのアラインメント手法です。
▼ もうちょっと詳しく
AIに「こういう原則(=憲法)に従ってね」と一連のルールを与えて、AI自身が自分の出力をその原則に照らして直してから出す、という躾けかたです。Anthropicが提唱しました。
従来のRLHFは「人間がフィードバックして躾ける」やり方でしたが、憲法AIは人間が直接的にフィードバックする量を減らせるのがウリ。「AIに憲法を読ませて、自分で守らせる」という、ちょっとユニークな発想です。
▼ ちょっとだけ深い話
Anthropicが公開している原則には、世界人権宣言から引用したものなどが含まれています。AIの倫理を文章で書き表すことの難しさを直視している試みです。
AIに憲法を遵守させる、というのは、人類より優秀な振る舞いを要求しているかもしれません。
あなたの読了: 0 / 390 語

