量子化 (Quantization)
▼ ざっくり言うと
モデル内の数字を「ざっくり」表現して、サイズと計算量を減らす技です。
▼ もうちょっと詳しく
モデルの中の数字(パラメータ)は、ふつう小数で細かく保存されています(例: 0.382947…)。これを「0.38」みたいに桁を減らしたり、整数に丸めたりすると、ファイルサイズが何分の1にもなり、計算も速くなります。
この「ざっくり化」が量子化。精度をちょっと落としてでも、軽くしたいという現実的な妥協です。スマホで動く小型LLMは、ほぼ全員これの恩恵を受けています。
▼ 気をつけること
やりすぎると性能がガクッと落ちます。「2bitまで圧縮できる」みたいな攻めた量子化もありますが、そこまでやるとモデルが急にバカっぽくなることがあります。さじ加減が肝。
名前は物理の量子力学っぽいですが、ここではただ「桁を減らす」だけの話です。
あなたの読了: 0 / 390 語

