SimpleBench (SimpleBench)
▼ ざっくり言うと
「人間なら当たり前にできるのにLLMが意外と落とす」問題を集めた変わり種ベンチマークです。
▼ もうちょっと詳しく
高度な学問問題よりも、常識的な状況判断や空間把握、時系列のシンプルな推論でLLMをやらかさせる、という意地悪な意図のベンチマーク。「コップが机から落ちて床に着いたとき、コップはどこ?」みたいな問題で、人間なら100%できるところをLLMが何故か落とす。
2024年に出てきて、「LLMはMMLU満点でも常識が抜けてる」という業界の不安をうまく可視化しました。ベンチマーク至上主義への風刺でもあるやつ。
「博士課程レベルは解けるのに、小学生でも分かることを間違える」というのが現代AIの不思議です。
あなたの読了: 0 / 388 語

