PromptQuorumPromptQuorum
ホーム/ローカルLLM/Q4 vs Q5 vs Q8: どの量子化レベルを使用する?
ユースケース別モデル

Q4 vs Q5 vs Q8: どの量子化レベルを使用する?

·8分·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

Q4(4ビット)は最高のバランス: VRAM 87%削減で知覚できない品質損失。2026年4月、Q5は不要(品質5%向上のみ、Q4と同じVRAMコスト)、Q8は余分なVRAM持つ完璧主義者向け。

Q4(4ビット)は最高のバランス: VRAM 87%削減で知覚できない品質損失。 2026年4月、Q5は不要(品質5%向上のみ、Q4と同じVRAMコスト)、Q8は余分なVRAM持つ完璧主義者向け。FP32(完全精度)は民生ハードウェア推論では必要ない。

重要なポイント

  • Q4(4ビット)が標準選択: VRAM 87%削減、品質損失最小。
  • Q5は不要: Q4と同じメモリコスト、品質5%向上のみ。
  • Q8: VRAM余裕がある完璧主義者向け。3%品質向上、VRAM3倍。
  • Q2/Q3: 極めて低いメモリ(7B を 1GB で)だが、品質低下著しい。
  • FP32/FP16: 民生ハードウェアでは不要。本番環境のみ。
  • 推奨: Llama 3 70B → Q4 (20GB)。Mistral 7B → Q4 (3.5GB)。

量子化とは?

量子化はニューラルネットワークの重みを低精度ビット表現に削減するプロセス。FP32(32ビット浮動小数点)をQ4(4ビット整数)に削減すると、メモリ 8倍削減、推論速度向上。

  • FP32(完全精度): 各重み 32ビット。メモリ多。精度最高。民生ハード不適。
  • FP16(半精度): 各重み 16ビット。メモリ 50%削減。品質わずか低下。
  • Q8(8ビット): 各重み 8ビット。メモリ 75%削減。品質わずか低下(<1%)。
  • Q6(6ビット): 各重み 6ビット。メモリ 81%削減。品質低下(<2%)。
  • Q5(5ビット): 各重み 5ビット。メモリ 84%削減。品質低下(<3%)。Q4との差なし。
  • Q4(4ビット): 各重み 4ビット。メモリ 87%削減。品質低下(<5%)。標準選択。
  • Q3(3ビット): 各重み 3ビット。メモリ 90%削減。品質低下(10-15%)。極限用。
  • Q2(2ビット): 各重み 2ビット。メモリ 93%削減。品質著しく低下(30%+)。実験的。

各量子化レベルの比較表

Llama 3 70B(FP16基準 140GB)をベースに、メモリとスピードを推定。

レベルメモリ(GB)メモリ削減Token/s品質低下推奨用途
FP322800%80%研究/精密計算
FP1614050%12<1%高精度必須
Q83575%25<1%VRAM余裕あり
Q62781%28<2%バランス型
Q52284%30<3%Q4と差なし
Q41887%32<5%標準選択
Q31490%3510-15%低メモリ
Q21193%3830%+極限

どのレベルを選ぶ?

  • Q4推奨(標準): Llama 3/4 70B、Mistral 12B以上、Qwen 14B+。メモリ削減と品質のバランス最高。
  • Q8選択: RTX 4090(24GB)で余裕、品質重視。Llama 3 70Bなら 35GBで余裕。
  • Q6選択: RTX 4080(12GB)では 27GBで足りず。Q6 27GBもギリギリ。回避推奨。
  • Q5選択: Q4 18GBと同品質、メモリ 22GB。選ぶ理由なし。Q4使用。
  • Q3選択: RTX 4060(8GB)で7Bモデル軽くするため。品質低下(10-15%)受入可なら。
  • Q2選択: 1GBメモリ搭載古いPCで実験。品質低下(30%)著しいが、LLM「動作」確認可。
  • FP16選択: 高精度必須(医療、法務)、メモリ充分(140GB+)。RTX 5090 2台。

よくあるご質問

Q4とQ5、どちらを選ぶ?

Q4を選ぶ。Q5はメモリ(22GB)多いのに、品質向上(5%)わずか。コストに見合わない。

Q4の品質低下は感知できるか?

ほぼ不可。ユーザーテストでもQ4/Q6同等と評価。テキスト生成は品質5%低下で知覚困難。

Q3は本当に使える?

7B軽いモデルなら可(1.7GB)。70Bは品質低下(10-15%)著しく、テキスト途中で崩壊リスク。

Ollama Q4_K_M vs Q4_0 差は?

Q4_K_M: より良い量子化。推奨。Q4_0: 高速だが品質低。GGUFが新しければ K_M。

FP32/FP16、いつ必要?

ほぼ不要。研究論文、医療診断、法務のみ。ホビーユースはQ4で十分。

量子化は可逆?

いいえ。Q4で圧縮したら、元の精度戻せない。必要なら FP16 元モデル保持。

グラフィックスGPU量子化できるか?

いいえ。量子化は重みのみ。GPU(RTX)は変わらず。CPU/メモリ削減の話。

ローカル量子化ツール何使う?

llama.cpp が標準。Ollama も簡便。custom-gptqは古い。llama.cpp推奨。

Q4とFP16、推論速度差は?

約2-3倍高速(Q4)。メモリ帯域幅狭い(4ビット)ため、キャッシュ効率良好。

情報源

  • llama.cpp GGUF量子化ドキュメント
  • Meta Llama 3/4 公式モデルカード
  • GPTQ量子化研究論文 (Xiao et al., 2023)

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

PromptQuorumで、ローカルLLMを25以上のクラウドモデルと同時に比較しましょう。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る

Q4 vs Q5 vs Q8: 速度、RAM、品質に最適なLLM量子化(2026) | PromptQuorum