マルチヘッドアテンション (Multi-Head Attention)
▼ ざっくり言うと
アテンションを複数並列で走らせる、Transformer の基本構造です。
▼ もうちょっと詳しく
Transformer の論文「Attention Is All You Need」で導入された設計。アテンション機構を複数(例: 12, 32, 64)並列に走らせ、それぞれが文章の違う側面を見るようにします。「会議で複数の専門家が違う視点から検討する」のに似たイメージ。
現代LLMの中で何百回も呼ばれている縁の下の働き者。後継として MQA、GQA といった効率化バージョンが登場していますが、考え方の基本は今もここに。
1つで十分そうな仕組みを「並列で何本も」やるのが、なぜか性能向上の鍵でした。
あなたの読了: 0 / 390 語

