QLoRAキューロラ (QLoRA)

▼ ざっくり言うと

量子化とLoRAを組み合わせて、ノートPCでもLLMを微調整できるようにした手法です。

▼ もうちょっと詳しく

LoRA は軽量ファインチューニングの代表でしたが、それでも元モデルを丸ごとメモリに乗せる必要がありました。QLoRA はこれを4bit量子化してから LoRA をかけることで、メモリ要求量を1/4以下にまで圧縮。

24GBのGPU1枚でLlama 65B のファインチューニングができる、という奇跡を実現しました。個人開発者でも本格LLMをカスタマイズできる時代の幕開けです。

「ノートPCで65Bのファインチューニング」と聞いて笑った人は、たぶんGPU価格に詳しい人です。

あなたの読了: 0 / 390