LLM-as-a-judgeエルエルエムアズアジャッジ (LLM-as-a-judge)

▼ ざっくり言うと

LLMの出力を別のLLMに採点させる評価手法のことです。

▼ もうちょっと詳しく

会話力や文章の良し悪しは、人間の主観が入る領域なので、自動採点が難しい。そこで、強いLLM(例: GPT-4)に2つの回答を見比べさせて勝ち負けを判定させる、というやり方が「LLM-as-a-judge」です。

人間に毎回採点を頼むのはお金も時間もかかるので、これでサクッと回す。AlpacaEvalMT-Benchなどのベンチマークの土台になっている考え方です。「AIの試験をAIが採点」という、業界の自家中毒的な状況ですが、現実的にはこれが一番速くて安い。

▼ 気をつけること

判定LLMにも偏りがあります。例えば、長い回答を高く評価しがち自分と似た文体を好む、など。人間採点との一致度をきちんと確認しないと、判定が信用できないので、評価の評価が必要になります。

「AIがAIを採点」、これが普通になっている、というのが2020年代後半のリアルです。

あなたの読了: 0 / 390