SWE-Benchエスダブリューイーベンチ (SWE-Bench)

▼ ざっくり言うと

実際のGitHubのバグを直せるかでLLMの「ソフトウェアエンジニア力」を測るベンチマークです。

▼ もうちょっと詳しく

プリンストン大学発のベンチマーク。実在のOSSプロジェクトのGitHubイシュー(バグ報告)を渡して、「それを直すパッチを作れ」と命じます。HumanEvalが「小さな関数を実装する」レベルだったのに対し、SWE-Benchは実際の現場仕事に近い難しさになりました。

2024年初頭は正答率が1%台で「AIには無理」と言われていたのが、半年後には30%、1年後には60%台と、LLMの進化を測る生きた物差しになっています。AIコーディング系ツールが大量に出てきた理由のひとつでもあります。

「実際のバグを直せる」と言われてからが、本当のAIコーディング革命の始まりです。

あなたの読了: 0 / 388