HumanEval (HumanEval)
▼ ざっくり言うと
LLMの「プログラミング能力」を測る定番ベンチマークです。
▼ もうちょっと詳しく
2021年にOpenAIが公開した、164問のプログラミング課題集。関数の説明文を見て、Pythonで実装する問題が並んでいて、AIに解かせてテストが通れば正解、という素直なやり方です。
新しいLLMが出るたびに「HumanEvalで何点取った」が報告され、コード生成能力の指標として定着しました。ただし最近のモデルはこれもほぼ満点になってきて、より難しいSWE-Benchなどに主役が移りつつあります。
人間の側でも、HumanEvalを満点で解ける人はあまり多くないです。
あなたの読了: 0 / 390 語

