F1スコアエフワンスコア (F1 Score)

▼ ざっくり言うと

適合率と再現率を1つの数字にまとめた、分類モデルの定番評価指標です。

▼ もうちょっと詳しく

AIが「迷惑メールかどうか」を判定するとき、評価のしかたが2種類あります。

  • 適合率(Precision): AIが「迷惑だ!」と言ったメールのうち、本当に迷惑だった割合。しょっちゅう普通のメールを迷惑扱いするAIは、適合率が低い
  • 再現率(Recall): 実在する迷惑メール全体のうち、AIが捕まえられた割合。迷惑メールを取りこぼすAIは、再現率が低い

この2つはたいていトレードオフで、片方を上げるともう片方が下がります。じゃあ両方をいっぺんに見たい、というので作られたのがF1スコア。2つの調和平均を取って、「両方バランス良く高くないと点が伸びない」設計になっています。

▼ 気をつけること

F1は便利ですが、「適合率と再現率を同じ重みで見ていい」が前提です。がんの見逃しは絶対NG、誤検出はある程度許すという場面では、F1より「再現率重視」のほうが妥当。そういう用途にはF2スコア(再現率の重みを上げた版)もあります。

「平均」と聞くと普通は算術平均ですが、F1は調和平均なので、片方が悲惨だと全体も悲惨になります。容赦のない平均。

あなたの読了: 0 / 390