MMLUエムエムエルユー (Massive Multitask Language Understanding)

▼ ざっくり言うと

LLMの「総合学力」を測るための定番ベンチマークです。

▼ もうちょっと詳しく

2020年に公開された、57科目・1万5千問ほどの選択問題集です。歴史、数学、生物、法律、医療、コンピュータ科学など、人間でいう大学受験 + 大学院みたいな広範囲をカバー。

新しいLLMが出るたびに「MMLUで何点取った」が必ず報告される、業界の定番テストとして10年近く君臨してきました。GPT-4以降のLLMはほぼ満点に近いので、最近は「飽和した」と言われ始めています。

人間にとっても十分難しいテストなのに、AIが満点近いというのは、もはやちょっと笑えない状況です。

あなたの読了: 0 / 393