GPQAジーピーキューエー (Graduate-level Google-Proof Q&A)

▼ ざっくり言うと

「Googleで検索しても解けない」博士レベルの難問ベンチマークです。

▼ もうちょっと詳しく

2023年に発表された、生物・物理・化学の博士課程レベルの難問を集めたデータセット。Googleで30分検索しても専門外の人は解けないように設計されているのが特徴で、「Google-Proof」という名前のゆえん。

新しいLLMが出るたびに「GPQAで何%取った」が報告される定番ベンチマーク。人間の博士でも65%前後しか取れないところを、最近の推論モデルは80%超えを出すようになり、業界がざわついています。

博士に勝ったところで、博士の苦労はAIには伝わってないあたりが切ないです。

あなたの読了: 0 / 390