GQA (Grouped-Query Attention)
▼ ざっくり言うと
アテンションの計算を効率化するための、改良されたアテンション方式です。
▼ もうちょっと詳しく
従来のマルチヘッドアテンションはヘッドごとにKey/Valueを持つので、推論時のメモリを大量に食いました。GQAは複数のヘッドでKey/Valueを共有することで、計算量とメモリを大幅に減らす、という改良。
Llama 2 以降で標準採用され、LLMの推論速度向上の縁の下の力持ちになっています。真ん中(複数Key)と究極(全部共有=MQA)の良いとこ取り、というポジショニング。
地味な改良が積み重なって、結局LLMが速くなっています。
あなたの読了: 0 / 390 語

