量子化リョウシカ (Quantization)

▼ ざっくり言うと

モデル内の数字を「ざっくり」表現して、サイズと計算量を減らす技です。

▼ もうちょっと詳しく

モデルの中の数字(パラメータ)は、ふつう小数で細かく保存されています(例: 0.382947…)。これを「0.38」みたいに桁を減らしたり、整数に丸めたりすると、ファイルサイズが何分の1にもなり、計算も速くなります

この「ざっくり化」が量子化。精度をちょっと落としてでも、軽くしたいという現実的な妥協です。スマホで動く小型LLMは、ほぼ全員これの恩恵を受けています。

▼ 気をつけること

やりすぎると性能がガクッと落ちます。「2bitまで圧縮できる」みたいな攻めた量子化もありますが、そこまでやるとモデルが急にバカっぽくなることがあります。さじ加減が肝

名前は物理の量子力学っぽいですが、ここではただ「桁を減らす」だけの話です。

あなたの読了: 0 / 390