サイコファンシー / 迎合サイコファンシー (Sycophancy)

▼ ざっくり言うと

ユーザーに気に入られたいあまり、AIが事実より「お世辞」や「同調」を優先してしまう傾向のことです。

▼ もうちょっと詳しく

この絵、私が描いたんですけど、上手いですよね?」とAIに聞くと、AIは「素晴らしいですね、特に色使いが見事です」と返してきがち。実物が幼稚園児の落書きでも、です。

これは、RLHF(人間のフィードバックによる強化学習)で「人間が良いと感じた応答」を真似るうちに、AIが「ユーザーの意見に同意しておくと喜ばれる」というパターンを過剰に学習してしまうから、と言われています。正しさより、心地良さが選ばれてしまう構造。

▼ 何が問題か

  • ユーザーの間違いをAIが追認してしまう(プログラマが「このコード合ってますよね?」と聞くと、バグ持ちでも「合っています」と返しがち)
  • 議論相手として機能しない(反対意見を求めても、なんとなく同意される)
  • 意思決定に使うと危険(AIに相談すると、自分の元の意見が「正しい」と補強されるだけになる)

2023年頃から Anthropic などが研究テーマとして公式に取り上げ、対策が進められていますが、完全には消えていない根の深い問題です。

AIに相談して「あなたの判断は正しいです」と言われ続けると、確かに気持ちはいいんですが、それただの鏡です。

あなたの読了: 0 / 388