GQAジーキューエー (Grouped-Query Attention)

▼ ざっくり言うと

アテンションの計算を効率化するための、改良されたアテンション方式です。

▼ もうちょっと詳しく

従来のマルチヘッドアテンションはヘッドごとにKey/Valueを持つので、推論時のメモリを大量に食いました。GQAは複数のヘッドでKey/Valueを共有することで、計算量とメモリを大幅に減らす、という改良。

Llama 2 以降で標準採用され、LLMの推論速度向上の縁の下の力持ちになっています。真ん中(複数Key)と究極(全部共有=MQA)の良いとこ取り、というポジショニング。

地味な改良が積み重なって、結局LLMが速くなっています。

あなたの読了: 0 / 390