PromptQuorumPromptQuorum

Q4_K_M vs Q8_0:どちらを選ぶべきですか?

Quantization & VRAM

重要なポイント

  • 8 GB VRAM以下:Q4_K_Mを使用 — ほぼ半分のファイルサイズでQ8_0の95%の品質を提供
  • 12+ GB VRAM:Q8_0はスピードペナルティなしでほぼ完全精度の品質に値します
  • Ollamaを毎日使用するほとんどのユーザーにとって、Q4_K_Mが正しい選択です

簡潔な結論

2026年5月現在、Q8_0は完全精度品質の約99%です。Q4_K_Mは約92%です。この7ポイントの差はチャット、コーディング、要約では見えません — ローカルLLM使用の95%をカバーする3つのタスクです。Q8_0が優位に立つのは、長文の事実想起、複数ステップの数学、500行以上の正確な構文が必要なコードのみです。

Q4_K_Mが正しいデフォルトである理由は、Q8_0の追加品質が現れるのがエッジケースのみだからです:正確な事実想起を必要とする長文生成、または高精度を必要とする数学的推論。他のすべてに対して、Q4_K_Mは実際にはQ8_0と同等です。

すでにQ4_K_Mを使用していて結果がおかしく感じる場合、問題はほとんどの場合量化ではありません — モデルのサイズやプロンプト構造にあります。

並列比較

以下の表は7BモデルのQ4_K_MとQ8_0を比較しています。両フォーマットは特別な設定なしにOllama、LM Studio、llama.cppで動作します。

Q4_K_Mとk-quant圧縮について理解するには、Q4_K_M解説ガイドを参照してください。完全な量化リファレンスは量化レベル比較を参照してください。

Q4_K_Mの品質ギャップを明らかにする3つのタスク:長文書の想起(50ページ以上)、中間状態を伴う複数ステップの数学、300行以上のコード生成です。これらにおいて、Q8_0の追加精度は長い出力で積み重なる小さなドリフトエラーを防ぎます。他のすべて — チャット、200行未満のコード、Q&A、要約 — ではギャップは見えません。決定前の復習はQ4_K_Mの意味を参照してください。

指標Q4_K_MQ8_0
ファイルサイズ(7Bモデル)~4.1 GB~7.7 GB
VRAM必要量(7B)5–6 GB8–9 GB
完全精度に対する品質~92%~99%
最適な対象6–8 GB VRAM12+ GB VRAM

Q4_K_M vs Q8_0に関するよくある質問

Q8_0はQ4_K_Mより明らかに優れていますか?
エッジケースのみです — 複雑な複数ステップの数学、長文書からの正確な引用想起、または非常に長い出力。チャット、コーディング、要約(使用の95%をカバー)では、ほとんどのユーザーは違いがわかりません。
Q8_0はQ4_K_Mより速いですか?
いいえ。Q8_0はより大きく、より多くのメモリ帯域幅を必要とするため、トークンあたりわずかにQ4_K_Mより遅いです。速度と品質の両方がVRAM制限のセットアップではQ4_K_Mを支持します。基本的な理由についてはQ4_K_Mの意味を参照してください。
異なるタスクでQ4_K_MとQ8_0を切り替えられますか?
異なるモデルタグをプルして実行することでのみ可能です。Ollamaでは:ollama pull llama3:8b-q4_K_Mollama pull llama3:8b-q8_0は別々のダウンロードです。ollama runでタグを指定して切り替えます。
Q4_K_Sはどうですか — Q4_K_Mの代わりに使う価値はありますか?
Q4_K_SはQ4_K_Mと比べて約300 MB節約できますが、品質が低くなります。VRAMが非常に制限されていてQ4_K_Mが収まらない場合にのみQ4_K_Sを使用してください。ほぼすべてのケースでQ4_K_Mの方が良い選択です。