マルチヘッドアテンション (Multi-Head Attention)

▼ ざっくり言うと

アテンションを複数並列で走らせる、Transformer の基本構造です。

▼ もうちょっと詳しく

Transformer の論文「Attention Is All You Need」で導入された設計。アテンション機構を複数(例: 12, 32, 64)並列に走らせ、それぞれが文章の違う側面を見るようにします。「会議で複数の専門家が違う視点から検討する」のに似たイメージ。

現代LLMの中で何百回も呼ばれている縁の下の働き者。後継として MQA、GQA といった効率化バージョンが登場していますが、考え方の基本は今もここに。

1つで十分そうな仕組みを「並列で何本も」やるのが、なぜか性能向上の鍵でした。

あなたの読了: 0 / 390