MMLU (Massive Multitask Language Understanding)
▼ ざっくり言うと
LLMの「総合学力」を測るための定番ベンチマークです。
▼ もうちょっと詳しく
2020年に公開された、57科目・1万5千問ほどの選択問題集です。歴史、数学、生物、法律、医療、コンピュータ科学など、人間でいう大学受験 + 大学院みたいな広範囲をカバー。
新しいLLMが出るたびに「MMLUで何点取った」が必ず報告される、業界の定番テストとして10年近く君臨してきました。GPT-4以降のLLMはほぼ満点に近いので、最近は「飽和した」と言われ始めています。
人間にとっても十分難しいテストなのに、AIが満点近いというのは、もはやちょっと笑えない状況です。
あなたの読了: 0 / 393 語

