TF-IDFティーエフアイディーエフ (Term Frequency - Inverse Document Frequency)

▼ ざっくり言うと

文章の中で「その文書らしさを表す単語」を見つけ出す、古典的な重み付け手法です。

▼ もうちょっと詳しく

この」「」「ですます」みたいに、どの文書にも出てくる単語は、文書を特徴づけません。一方、この文書だけによく出てくる単語は、文書の中身を表していそう。この直感を式にしたのがTF-IDFです。

  • TF(Term Frequency): その単語が文書内で何回出てきたか
  • IDF(Inverse Document Frequency): その単語が出てくる文書が、全体の中で何割しかないか

この2つを掛けると、「よく出てくるけど、ありふれてはいない単語」が高得点になります。これで文書を数値ベクトル化できる。

▼ ちょっとだけ深い話

1972年に提案された老舗手法ですが、いまだに検索エンジン・分類器・LLMのRAG前処理まで現役です。Word2VecやBERTが派手に登場しても、TF-IDFは「軽い・解釈しやすい・ベースラインとして強い」という三拍子で、地味に粘り続けています。

「あちこちに出てくる単語より、ここにしかない単語のほうが情報量がある」、当たり前すぎて逆に難しいことを真面目に数式化した手法です。

あなたの読了: 0 / 390