MQAエムキューエー (Multi-Query Attention)

▼ ざっくり言うと

アテンションの Key/Value を1セットに統合して計算量を減らす技法です。

▼ もうちょっと詳しく

通常のアテンションは、複数のヘッドごとにそれぞれKey/Valueを持っています。MQAはKey/Value を1セットだけにして全ヘッドで共有するという思い切った省略。メモリと計算量がぐっと減ります。

ただし、Keyを統合しすぎると性能が落ちるので、その中間 として GQA(Grouped-Query Attention)が登場しました。MQA = 究極の省略版、GQA = 良いとこ取り、というポジショニング。

「省略しすぎて損する」と「省略しなさすぎて遅い」の間で揺れるのが、AI技法の常です。

あなたの読了: 0 / 388