GLUE / SuperGLUEグルー (General Language Understanding Evaluation / SuperGLUE)

▼ ざっくり言うと

言語モデルの文章理解力を、9〜10種類のタスクで総合採点するベンチマーク群です。

▼ もうちょっと詳しく

2018年にニューヨーク大などが発表した、英語の言語理解タスクをまとめた評価セット。「文の含意関係を判定」「文章の感情を分類」「2つの文が同じ意味か判定」など、9種類のタスクを混ぜて出題して、総合スコアで言語モデルの強さを測ります。

当時の主役だったBERTが GLUE を次々塗り替え、「人間スコアにもうすぐ追いつく」と話題になりました

▼ その後の SuperGLUE

モデルが強くなりすぎてGLUEが簡単になりすぎたので、2019年により難しいタスクを集めた SuperGLUE が登場読解・常識推論・因果関係など、難易度が高めの8タスク構成。

2020年前後にはこちらも上位モデルが人間スコアを超えてしまい、今は MMLU、HELM、Big Bench、ARC-AGI など、さらに難しい後継ベンチマークに主役の座を譲りました。ただ、自然言語処理の歴史を語る上で外せない「殿堂入り」枠です。

モデルが人間スコアを超えるたびに新しい難しいベンチが作られる、というのは、AIベンチマーク文化の典型的なパターンです。

あなたの読了: 0 / 390