QLoRA (QLoRA)
▼ ざっくり言うと
量子化とLoRAを組み合わせて、ノートPCでもLLMを微調整できるようにした手法です。
▼ もうちょっと詳しく
LoRA は軽量ファインチューニングの代表でしたが、それでも元モデルを丸ごとメモリに乗せる必要がありました。QLoRA はこれを4bit量子化してから LoRA をかけることで、メモリ要求量を1/4以下にまで圧縮。
24GBのGPU1枚でLlama 65B のファインチューニングができる、という奇跡を実現しました。個人開発者でも本格LLMをカスタマイズできる時代の幕開けです。
「ノートPCで65Bのファインチューニング」と聞いて笑った人は、たぶんGPU価格に詳しい人です。
あなたの読了: 0 / 390 語

