KVキャッシュケーブイキャッシュ (KV Cache)

▼ ざっくり言うと

LLMの推論を高速化するための、内部のメモ書き保存領域です。

▼ もうちょっと詳しく

LLMが1トークン生成するたびに、これまで生成した内容を最初から計算し直すのは効率が悪い。なので過去の計算結果を覚えておく、という工夫がKVキャッシュです。K(Key)とV(Value)の計算結果を貯めておく、というやつ。

この仕組みのおかげで、長い会話を進めるほど速くなる面と、メモリをガッツリ食う面、両方が出てきます。GPU のメモリは有限なので、長文の会話を支えるためにいろいろな最適化が研究されています。

過去を覚えていないと話が進まない、というのは人間もAIも同じです。

あなたの読了: 0 / 388