MQA (Multi-Query Attention)
▼ ざっくり言うと
アテンションの Key/Value を1セットに統合して計算量を減らす技法です。
▼ もうちょっと詳しく
通常のアテンションは、複数のヘッドごとにそれぞれKey/Valueを持っています。MQAはKey/Value を1セットだけにして全ヘッドで共有するという思い切った省略。メモリと計算量がぐっと減ります。
ただし、Keyを統合しすぎると性能が落ちるので、その中間 として GQA(Grouped-Query Attention)が登場しました。MQA = 究極の省略版、GQA = 良いとこ取り、というポジショニング。
「省略しすぎて損する」と「省略しなさすぎて遅い」の間で揺れるのが、AI技法の常です。
あなたの読了: 0 / 388 語

