SimpleBenchシンプルベンチ (SimpleBench)

▼ ざっくり言うと

「人間なら当たり前にできるのにLLMが意外と落とす」問題を集めた変わり種ベンチマークです。

▼ もうちょっと詳しく

高度な学問問題よりも、常識的な状況判断や空間把握、時系列のシンプルな推論でLLMをやらかさせる、という意地悪な意図のベンチマーク。「コップが机から落ちて床に着いたとき、コップはどこ?」みたいな問題で、人間なら100%できるところをLLMが何故か落とす。

2024年に出てきて、「LLMはMMLU満点でも常識が抜けてる」という業界の不安をうまく可視化しました。ベンチマーク至上主義への風刺でもあるやつ。

「博士課程レベルは解けるのに、小学生でも分かることを間違える」というのが現代AIの不思議です。

あなたの読了: 0 / 388