重要なポイント
- Q4(4ビット)が標準選択: VRAM 87%削減、品質損失最小。
- Q5は不要: Q4と同じメモリコスト、品質5%向上のみ。
- Q8: VRAM余裕がある完璧主義者向け。3%品質向上、VRAM3倍。
- Q2/Q3: 極めて低いメモリ(7B を 1GB で)だが、品質低下著しい。
- FP32/FP16: 民生ハードウェアでは不要。本番環境のみ。
- 推奨: Llama 3 70B → Q4 (20GB)。Mistral 7B → Q4 (3.5GB)。
量子化とは?
量子化はニューラルネットワークの重みを低精度ビット表現に削減するプロセス。FP32(32ビット浮動小数点)をQ4(4ビット整数)に削減すると、メモリ 8倍削減、推論速度向上。
- FP32(完全精度): 各重み 32ビット。メモリ多。精度最高。民生ハード不適。
- FP16(半精度): 各重み 16ビット。メモリ 50%削減。品質わずか低下。
- Q8(8ビット): 各重み 8ビット。メモリ 75%削減。品質わずか低下(<1%)。
- Q6(6ビット): 各重み 6ビット。メモリ 81%削減。品質低下(<2%)。
- Q5(5ビット): 各重み 5ビット。メモリ 84%削減。品質低下(<3%)。Q4との差なし。
- Q4(4ビット): 各重み 4ビット。メモリ 87%削減。品質低下(<5%)。標準選択。
- Q3(3ビット): 各重み 3ビット。メモリ 90%削減。品質低下(10-15%)。極限用。
- Q2(2ビット): 各重み 2ビット。メモリ 93%削減。品質著しく低下(30%+)。実験的。
各量子化レベルの比較表
Llama 3 70B(FP16基準 140GB)をベースに、メモリとスピードを推定。
| レベル | メモリ(GB) | メモリ削減 | Token/s | 品質低下 | 推奨用途 |
|---|---|---|---|---|---|
| FP32 | 280 | 0% | 8 | 0% | 研究/精密計算 |
| FP16 | 140 | 50% | 12 | <1% | 高精度必須 |
| Q8 | 35 | 75% | 25 | <1% | VRAM余裕あり |
| Q6 | 27 | 81% | 28 | <2% | バランス型 |
| Q5 | 22 | 84% | 30 | <3% | Q4と差なし |
| Q4 | 18 | 87% | 32 | <5% | 標準選択 |
| Q3 | 14 | 90% | 35 | 10-15% | 低メモリ |
| Q2 | 11 | 93% | 38 | 30%+ | 極限 |
どのレベルを選ぶ?
- Q4推奨(標準): Llama 3/4 70B、Mistral 12B以上、Qwen 14B+。メモリ削減と品質のバランス最高。
- Q8選択: RTX 4090(24GB)で余裕、品質重視。Llama 3 70Bなら 35GBで余裕。
- Q6選択: RTX 4080(12GB)では 27GBで足りず。Q6 27GBもギリギリ。回避推奨。
- Q5選択: Q4 18GBと同品質、メモリ 22GB。選ぶ理由なし。Q4使用。
- Q3選択: RTX 4060(8GB)で7Bモデル軽くするため。品質低下(10-15%)受入可なら。
- Q2選択: 1GBメモリ搭載古いPCで実験。品質低下(30%)著しいが、LLM「動作」確認可。
- FP16選択: 高精度必須(医療、法務)、メモリ充分(140GB+)。RTX 5090 2台。
よくあるご質問
Q4とQ5、どちらを選ぶ?
Q4を選ぶ。Q5はメモリ(22GB)多いのに、品質向上(5%)わずか。コストに見合わない。
Q4の品質低下は感知できるか?
ほぼ不可。ユーザーテストでもQ4/Q6同等と評価。テキスト生成は品質5%低下で知覚困難。
Q3は本当に使える?
7B軽いモデルなら可(1.7GB)。70Bは品質低下(10-15%)著しく、テキスト途中で崩壊リスク。
Ollama Q4_K_M vs Q4_0 差は?
Q4_K_M: より良い量子化。推奨。Q4_0: 高速だが品質低。GGUFが新しければ K_M。
FP32/FP16、いつ必要?
ほぼ不要。研究論文、医療診断、法務のみ。ホビーユースはQ4で十分。
量子化は可逆?
いいえ。Q4で圧縮したら、元の精度戻せない。必要なら FP16 元モデル保持。
グラフィックスGPU量子化できるか?
いいえ。量子化は重みのみ。GPU(RTX)は変わらず。CPU/メモリ削減の話。
ローカル量子化ツール何使う?
llama.cpp が標準。Ollama も簡便。custom-gptqは古い。llama.cpp推奨。
Q4とFP16、推論速度差は?
約2-3倍高速(Q4)。メモリ帯域幅狭い(4ビット)ため、キャッシュ効率良好。
情報源
- llama.cpp GGUF量子化ドキュメント
- Meta Llama 3/4 公式モデルカード
- GPTQ量子化研究論文 (Xiao et al., 2023)