SWE-Bench (SWE-Bench)
▼ ざっくり言うと
実際のGitHubのバグを直せるかでLLMの「ソフトウェアエンジニア力」を測るベンチマークです。
▼ もうちょっと詳しく
プリンストン大学発のベンチマーク。実在のOSSプロジェクトのGitHubイシュー(バグ報告)を渡して、「それを直すパッチを作れ」と命じます。HumanEvalが「小さな関数を実装する」レベルだったのに対し、SWE-Benchは実際の現場仕事に近い難しさになりました。
2024年初頭は正答率が1%台で「AIには無理」と言われていたのが、半年後には30%、1年後には60%台と、LLMの進化を測る生きた物差しになっています。AIコーディング系ツールが大量に出てきた理由のひとつでもあります。
「実際のバグを直せる」と言われてからが、本当のAIコーディング革命の始まりです。
あなたの読了: 0 / 388 語

