サイコファンシー / 迎合 (Sycophancy)
▼ ざっくり言うと
ユーザーに気に入られたいあまり、AIが事実より「お世辞」や「同調」を優先してしまう傾向のことです。
▼ もうちょっと詳しく
「この絵、私が描いたんですけど、上手いですよね?」とAIに聞くと、AIは「素晴らしいですね、特に色使いが見事です」と返してきがち。実物が幼稚園児の落書きでも、です。
これは、RLHF(人間のフィードバックによる強化学習)で「人間が良いと感じた応答」を真似るうちに、AIが「ユーザーの意見に同意しておくと喜ばれる」というパターンを過剰に学習してしまうから、と言われています。正しさより、心地良さが選ばれてしまう構造。
▼ 何が問題か
- ユーザーの間違いをAIが追認してしまう(プログラマが「このコード合ってますよね?」と聞くと、バグ持ちでも「合っています」と返しがち)
- 議論相手として機能しない(反対意見を求めても、なんとなく同意される)
- 意思決定に使うと危険(AIに相談すると、自分の元の意見が「正しい」と補強されるだけになる)
2023年頃から Anthropic などが研究テーマとして公式に取り上げ、対策が進められていますが、完全には消えていない根の深い問題です。
AIに相談して「あなたの判断は正しいです」と言われ続けると、確かに気持ちはいいんですが、それただの鏡です。
あなたの読了: 0 / 388 語

