HumanEvalヒューマンイーバル (HumanEval)

▼ ざっくり言うと

LLMの「プログラミング能力」を測る定番ベンチマークです。

▼ もうちょっと詳しく

2021年にOpenAIが公開した、164問のプログラミング課題集。関数の説明文を見て、Pythonで実装する問題が並んでいて、AIに解かせてテストが通れば正解、という素直なやり方です。

新しいLLMが出るたびに「HumanEvalで何点取った」が報告され、コード生成能力の指標として定着しました。ただし最近のモデルはこれもほぼ満点になってきて、より難しいSWE-Benchなどに主役が移りつつあります。

人間の側でも、HumanEvalを満点で解ける人はあまり多くないです。

あなたの読了: 0 / 390