Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/Q4 vs Q5 vs Q8: どの量子化レベルを使用する?
ユースケース別モデル

Q4 vs Q5 vs Q8: どの量子化レベルを使用する?

·8分·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

Q4(4ビット)は最高のバランス: VRAM 87%削減で知覚できない品質損失。2026年6月、Q5は不要(品質5%向上のみ、Q4と同じVRAMコスト)、Q8は余分なVRAM持つ完璧主義者向け。

Q4(4ビット)は最高のバランス: VRAM 87%削減で知覚できない品質損失。 2026年6月、Q5は不要(品質5%向上のみ、Q4と同じVRAMコスト)、Q8は余分なVRAM持つ完璧主義者向け。FP32(完全精度)は民生ハードウェア推論では必要ない。

重要なポイント

  • Q4(4ビット)が標準選択: VRAM 87%削減、品質損失最小。
  • Q5は不要: Q4と同じメモリコスト、品質5%向上のみ。
  • Q8: VRAM余裕がある完璧主義者向け。3%品質向上、VRAM3倍。
  • Q2/Q3: 極めて低いメモリ(7B を 1GB で)だが、品質低下著しい。
  • FP32/FP16: 民生ハードウェアでは不要。本番環境のみ。
  • 推奨: Llama 3 70B → Q4 (20GB)。Mistral Small → Q4 (3.5GB)。

量子化とは?

量子化はニューラルネットワークの重みを低精度ビット表現に削減するプロセス。FP32(32ビット浮動小数点)をQ4(4ビット整数)に削減すると、メモリ 8倍削減、推論速度向上。

  • FP32(完全精度): 各重み 32ビット。メモリ多。精度最高。民生ハード不適。
  • FP16(半精度): 各重み 16ビット。メモリ 50%削減。品質わずか低下。
  • Q8(8ビット): 各重み 8ビット。メモリ 75%削減。品質わずか低下(<1%)。
  • Q6(6ビット): 各重み 6ビット。メモリ 81%削減。品質低下(<2%)。
  • Q5(5ビット): 各重み 5ビット。メモリ 84%削減。品質低下(<3%)。Q4との差なし。
  • Q4(4ビット): 各重み 4ビット。メモリ 87%削減。品質低下(<5%)。標準選択。
  • Q3(3ビット): 各重み 3ビット。メモリ 90%削減。品質低下(10-15%)。極限用。
  • Q2(2ビット): 各重み 2ビット。メモリ 93%削減。品質著しく低下(30%+)。実験的。

各量子化レベルの比較表

Llama 3 70B(FP16基準 140GB)をベースに、メモリとスピードを推定。

レベルメモリ(GB)メモリ削減Token/s品質低下推奨用途
FP322800%80%研究/精密計算
FP1614050%12<1%高精度必須
Q83575%25<1%VRAM余裕あり
Q62781%28<2%バランス型
Q52284%30<3%Q4と差なし
Q41887%32<5%標準選択
Q31490%3510-15%低メモリ
Q21193%3830%+極限

どのレベルを選ぶ?

  • Q4推奨(標準): Llama 3/4 70B、Mistral 12B以上、Qwen 14B+。メモリ削減と品質のバランス最高。
  • Q8選択: RTX 4090(24GB)で余裕、品質重視。Llama 3 70Bなら 35GBで余裕。
  • Q6選択: RTX 4080(12GB)では 27GBで足りず。Q6 27GBもギリギリ。回避推奨。
  • Q5選択: Q4 18GBと同品質、メモリ 22GB。選ぶ理由なし。Q4使用。
  • Q3選択: RTX 4060(8GB)で7Bモデル軽くするため。品質低下(10-15%)受入可なら。
  • Q2選択: 1GBメモリ搭載古いPCで実験。品質低下(30%)著しいが、LLM「動作」確認可。
  • FP16選択: 高精度必須(医療、法務)、メモリ充分(140GB+)。RTX 5090 2台。

よくあるご質問

Q4とQ5、どちらを選ぶ?

Q4を選ぶ。Q5はメモリ(22GB)多いのに、品質向上(5%)わずか。コストに見合わない。

Q4の品質低下は感知できるか?

ほぼ不可。ユーザーテストでもQ4/Q6同等と評価。テキスト生成は品質5%低下で知覚困難。

Q3は本当に使える?

7B軽いモデルなら可(1.7GB)。70Bは品質低下(10-15%)著しく、テキスト途中で崩壊リスク。

Ollama Q4_K_M vs Q4_0 差は?

Q4_K_M: より良い量子化。推奨。Q4_0: 高速だが品質低。GGUFが新しければ K_M。

FP32/FP16、いつ必要?

ほぼ不要。研究論文、医療診断、法務のみ。ホビーユースはQ4で十分。

量子化は可逆?

いいえ。Q4で圧縮したら、元の精度戻せない。必要なら FP16 元モデル保持。

グラフィックスGPU量子化できるか?

いいえ。量子化は重みのみ。GPU(RTX)は変わらず。CPU/メモリ削減の話。

ローカル量子化ツール何使う?

llama.cpp が標準。Ollama も簡便。custom-gptqは古い。llama.cpp推奨。

Q4とFP16、推論速度差は?

約2-3倍高速(Q4)。メモリ帯域幅狭い(4ビット)ため、キャッシュ効率良好。

情報源

  • llama.cpp GGUF量子化ドキュメント
  • Meta Llama 3/4 公式モデルカード
  • GPTQ量子化研究論文 (Xiao et al., 2023)

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る