AlpacaEvalアルパカイーバル (AlpacaEval)

▼ ざっくり言うと

LLMの「会話のうまさ」をAIに判定させる定番ベンチマークです。

▼ もうちょっと詳しく

ふつうのベンチマーク(MMLUなど)は選択問題形式で機械的に採点できますが、会話の自然さや人間っぽさはそうもいきません。AlpacaEvalは、強いAI(GPT-4など)に2つのモデルの回答を比べさせて勝ち負けを決める、という方式で、会話力をスコア化します。

スタンフォードのAlpacaプロジェクトが出した枠組みで、「AIをAIで採点する」というちょっとメタな構図。コストが安く、リーダーボードも公開されているので、業界で広く使われています。

AIをAIで採点する構図、ちょっと不思議ですが、現実的にいちばん早いやり方です。

あなたの読了: 0 / 388