BIG-bench (Beyond the Imitation Game)
▼ ざっくり言うと
200種類以上のタスクでLLMを試す巨大ベンチマーク群です。
▼ もうちょっと詳しく
Googleが主導したコミュニティ集合知のベンチマーク。200を超えるタスクが含まれていて、文章理解から論理パズル、文化的知識、皮肉の理解まで網羅しています。チューリングテスト(Imitation Game)を超える、というのが名前の由来。
新しいLLMの能力を多角的に評価できる一方、多すぎて全部走らせるのが大変ということもあって、サブセット版BIG-Bench Hard(BBH)もよく使われます。業界の総合健康診断みたいなやつ。
200種類の問題集を一度に走らせる、というのは、技術より忍耐の試練です。
あなたの読了: 0 / 390 語

