Flash Attention (Flash Attention)
▼ ざっくり言うと
GPUメモリの動かし方を工夫してアテンション計算を爆速化する技です。
▼ もうちょっと詳しく
2022年にスタンフォードのTri Daoが発表した、アテンション計算の実装テクニックです。中身は同じ計算なんですが、GPUのメモリ階層(SRAMとHBM)の使い方を工夫することで、何倍も速く、メモリも食わなくなります。
いまやほとんどのLLMの裏で動いている標準実装。「計算式は変えてないのに、こんなに速くなるとは」という、ハードと数式の隙間を突いた地味な勝利です。
AIの賢さの裏で、ハードと数式の隙間を突くエンジニアが暗躍しています。
あなたの読了: 0 / 388 語

