MT-Bench (MT-Bench)
▼ ざっくり言うと
LLMの対話能力を「強力なAIに採点させる」方式で評価する、定番ベンチマークです。
▼ もうちょっと詳しく
LMSYS が2023年に発表。8カテゴリ(数学・コーディング・ライティング・ロールプレイなど)で2ターンの対話をLLMにさせて、その応答をGPT-4などの強力な審査員AIが10点満点で採点する、というベンチマーク。「LLM-as-a-Judge を本格的に採用した先駆け」のひとつです。
従来の正解一致型ベンチ(MMLUなど)では測れない「自然な対話の品質」「指示への忠実さ」「回答の有用性」を測れるのが特徴。論文や技術ブログでLLMを評価するとき、ほぼ標準で出てくる指標になりました。
▼ ちょっとだけ深い話
「審査員AIが偏らないのか?」という問題はずっと議論されています。自社モデルや GPT っぽい応答を高く評価しがち、という研究結果もあり、MT-Bench だけを信じるのは危険、というのが現在の共通理解。Arena(LMSYS Arena)などの人間投票型評価と併用するのが普通になっています。
「AIをAIに採点させる」というのは、よく考えると正気を疑うアイデアですが、いまや業界標準です。
あなたの読了: 0 / 388 語

