AlpacaEval (AlpacaEval)
▼ ざっくり言うと
LLMの「会話のうまさ」をAIに判定させる定番ベンチマークです。
▼ もうちょっと詳しく
ふつうのベンチマーク(MMLUなど)は選択問題形式で機械的に採点できますが、会話の自然さや人間っぽさはそうもいきません。AlpacaEvalは、強いAI(GPT-4など)に2つのモデルの回答を比べさせて勝ち負けを決める、という方式で、会話力をスコア化します。
スタンフォードのAlpacaプロジェクトが出した枠組みで、「AIをAIで採点する」というちょっとメタな構図。コストが安く、リーダーボードも公開されているので、業界で広く使われています。
AIをAIで採点する構図、ちょっと不思議ですが、現実的にいちばん早いやり方です。
あなたの読了: 0 / 388 語

