アテンションヘッド (Attention Head)

▼ ざっくり言うと

アテンション機構を複数並列に走らせる、その1本1本のことです。

▼ もうちょっと詳しく

Transformerでは、アテンションを1本だけでなく何本も並列に走らせます。それぞれが文章の違う側面(文法、意味、語順など)に注目するように学習されます。同じ会議を5人で違う観点から見るようなイメージ。

モデルのサイズ表記で「12-head」「32-head」と書いてあるあれです。ヘッドの数が多いほどモデルが豊かに文章を理解できる、というのが基本路線ですが、多すぎても効率が悪い、という典型的なトレードオフ。

会議に出席者が多いほどいい話になるとは限らない、というのは人間の会議でも同じです。

あなたの読了: 0 / 388