Q4(4ビット)は最高のバランス: VRAM 87%削減で知覚できない品質損失。 2026年4月、Q5は不要(品質5%向上のみ、Q4と同じVRAMコスト)、Q8は余分なVRAM持つ完璧主義者向け。FP32(完全精度)は民生ハードウェア推論では必要ない。

重要なポイント

Q4(4ビット)が標準選択: VRAM 87%削減、品質損失最小。
Q5は不要: Q4と同じメモリコスト、品質5%向上のみ。
Q8: VRAM余裕がある完璧主義者向け。3%品質向上、VRAM3倍。
Q2/Q3: 極めて低いメモリ(7B を 1GB で)だが、品質低下著しい。
FP32/FP16: 民生ハードウェアでは不要。本番環境のみ。
推奨: Llama 3 70B → Q4 (20GB)。Mistral 7B → Q4 (3.5GB)。

量子化とは?

量子化はニューラルネットワークの重みを低精度ビット表現に削減するプロセス。FP32(32ビット浮動小数点)をQ4(4ビット整数)に削減すると、メモリ 8倍削減、推論速度向上。

FP32(完全精度): 各重み 32ビット。メモリ多。精度最高。民生ハード不適。
FP16(半精度): 各重み 16ビット。メモリ 50%削減。品質わずか低下。
Q8(8ビット): 各重み 8ビット。メモリ 75%削減。品質わずか低下(<1%)。
Q6(6ビット): 各重み 6ビット。メモリ 81%削減。品質低下(<2%)。
Q5(5ビット): 各重み 5ビット。メモリ 84%削減。品質低下(<3%)。Q4との差なし。
Q4(4ビット): 各重み 4ビット。メモリ 87%削減。品質低下(<5%)。標準選択。
Q3(3ビット): 各重み 3ビット。メモリ 90%削減。品質低下(10-15%)。極限用。
Q2(2ビット): 各重み 2ビット。メモリ 93%削減。品質著しく低下(30%+)。実験的。

各量子化レベルの比較表

Llama 3 70B(FP16基準 140GB)をベースに、メモリとスピードを推定。

レベル	メモリ(GB)	メモリ削減	Token/s	品質低下	推奨用途
FP32	280	0%	8	0%	研究/精密計算
FP16	140	50%	12	<1%	高精度必須
Q8	35	75%	25	<1%	VRAM余裕あり
Q6	27	81%	28	<2%	バランス型
Q5	22	84%	30	<3%	Q4と差なし
Q4	18	87%	32	<5%	標準選択
Q3	14	90%	35	10-15%	低メモリ
Q2	11	93%	38	30%+	極限

どのレベルを選ぶ?

Q4推奨(標準): Llama 3/4 70B、Mistral 12B以上、Qwen 14B+。メモリ削減と品質のバランス最高。
Q8選択: RTX 4090(24GB)で余裕、品質重視。Llama 3 70Bなら 35GBで余裕。
Q6選択: RTX 4080(12GB)では 27GBで足りず。Q6 27GBもギリギリ。回避推奨。
Q5選択: Q4 18GBと同品質、メモリ 22GB。選ぶ理由なし。Q4使用。
Q3選択: RTX 4060(8GB)で7Bモデル軽くするため。品質低下(10-15%)受入可なら。
Q2選択: 1GBメモリ搭載古いPCで実験。品質低下(30%)著しいが、LLM「動作」確認可。
FP16選択: 高精度必須(医療、法務)、メモリ充分(140GB+)。RTX 5090 2台。

よくあるご質問

Q4とQ5、どちらを選ぶ?

Q4を選ぶ。Q5はメモリ(22GB)多いのに、品質向上(5%)わずか。コストに見合わない。

Q4の品質低下は感知できるか?

ほぼ不可。ユーザーテストでもQ4/Q6同等と評価。テキスト生成は品質5%低下で知覚困難。

Q3は本当に使える?

7B軽いモデルなら可(1.7GB)。70Bは品質低下(10-15%)著しく、テキスト途中で崩壊リスク。

Ollama Q4_K_M vs Q4_0 差は?

Q4_K_M: より良い量子化。推奨。Q4_0: 高速だが品質低。GGUFが新しければ K_M。

FP32/FP16、いつ必要?

ほぼ不要。研究論文、医療診断、法務のみ。ホビーユースはQ4で十分。

量子化は可逆?

いいえ。Q4で圧縮したら、元の精度戻せない。必要なら FP16 元モデル保持。

グラフィックスGPU量子化できるか?

いいえ。量子化は重みのみ。GPU(RTX)は変わらず。CPU/メモリ削減の話。

ローカル量子化ツール何使う?

llama.cpp が標準。Ollama も簡便。custom-gptqは古い。llama.cpp推奨。

Q4とFP16、推論速度差は?

約2-3倍高速(Q4)。メモリ帯域幅狭い(4ビット)ため、キャッシュ効率良好。

情報源

llama.cpp GGUF量子化ドキュメント
Meta Llama 3/4 公式モデルカード
GPTQ量子化研究論文 (Xiao et al., 2023)

Q4 vs Q5 vs Q8: どの量子化レベルを使用する?

量子化とは?

各量子化レベルの比較表

どのレベルを選ぶ?

よくあるご質問

Q4とQ5、どちらを選ぶ?

Q4の品質低下は感知できるか?

Q3は本当に使える?

Ollama Q4_K_M vs Q4_0 差は?

FP32/FP16、いつ必要?

量子化は可逆?

グラフィックスGPU量子化できるか?

ローカル量子化ツール何使う?

Q4とFP16、推論速度差は?

情報源

A Note on Third-Party Facts

Q4 vs Q5 vs Q8: どの量子化レベルを使用する?

量子化とは?

各量子化レベルの比較表

どのレベルを選ぶ?

よくあるご質問

Q4とQ5、どちらを選ぶ?

Q4の品質低下は感知できるか?

Q3は本当に使える?

Ollama Q4_K_M vs Q4_0 差は?

FP32/FP16、いつ必要?

量子化は可逆?

グラフィックスGPU量子化できるか?

ローカル量子化ツール何使う?

Q4とFP16、推論速度差は?

関連記事

情報源

A Note on Third-Party Facts