BIG-benchビッグベンチ (Beyond the Imitation Game)

▼ ざっくり言うと

200種類以上のタスクでLLMを試す巨大ベンチマーク群です。

▼ もうちょっと詳しく

Googleが主導したコミュニティ集合知のベンチマーク200を超えるタスクが含まれていて、文章理解から論理パズル、文化的知識、皮肉の理解まで網羅しています。チューリングテスト(Imitation Game)を超える、というのが名前の由来。

新しいLLMの能力を多角的に評価できる一方、多すぎて全部走らせるのが大変ということもあって、サブセット版BIG-Bench Hard(BBH)もよく使われます。業界の総合健康診断みたいなやつ。

200種類の問題集を一度に走らせる、というのは、技術より忍耐の試練です。

あなたの読了: 0 / 390