PromptQuorumPromptQuorum

Q4_K_M量化とは何ですか?

Quantization & VRAM

重要なポイント

  • Q4_K_M = 中品質のK-Quant圧縮による4ビット量化 — 同じファイルサイズでQ4_0より優れた品質
  • Q4_K_Mの7Bモデルはディスク上で約4.1 GB、実行には約5.5 GB VRAMが必要
  • Q4_K_Mをデフォルトとして使用 — ほとんどのVRAM予算でベストな品質対ギガバイト比を提供

Q4_K_Mの各文字の意味

2026年5月現在、Q4_K_Mは古い4ビットフォーマット(Q4_0)が重要な重みで品質を失いすぎたために存在しています。K-Quant圧縮は、出力に最も影響を与える重みにより多くのビットを割り当て、影響の少ない重みには少ないビットを割り当てることでこれを解決します。結果:同じファイルサイズでQ4_0より5–8%品質が向上します。

「K」が主要な差別化要因です。K-Quant圧縮は非均一なビット割り当てを適用します — 重要な重みはより多くのビットを得て、重要でないものはより少ないビットを得ます。これにより同じファイルサイズで古いQ4_0フォーマットと比べて5–8%の品質を回復します。

「M」はK-Quant内の品質設定です。Q4_K_S(small)は品質が低いが少し小さいです。Q4_K_M(medium)は最もバランスが取れています。Q4_K_L(large)はわずかに優れていますが、追加サイズの価値はほとんどありません。

K-Quantは重みをクラスタリングし、重要度に基づいてビットを割り当てます。最重要クラスターは重みあたり6ビットを取得します。中間クラスターは4ビットを取得します。低重要クラスターは3ビットを取得します。「M」ティアはモデル全体で重みあたり平均4.5ビット — これがQ4_K_MがQ4_K_SとQ5_K_Mの間のサイズと品質に位置する理由です。Mティアで不十分な場合は、Q4_K_M vs Q8_0を参照してください。

Q4_K_Mと他の量化の比較

以下の表は7Bモデルのトレードオフを示しています。品質は完全精度のQ8_0ベースラインに対する相対値です。12+ GB VRAMがない限り、Q4_K_Mは最高の品質対ギガバイト比を提供します。

Q4_K_MとQ8_0の直接比較については、Q4_K_M vs Q8_0決定ガイドを参照してください。完全な量化リファレンスについては、量化レベル比較を参照してください。

フォーマットファイルサイズ(7B)Q8_0との品質比較
Q4_03.8 GBベースライン(~87%)
Q4_K_M4.1 GB~92%(+5%)
Q5_K_M5.0 GB~95%(+3%)
Q8_07.7 GB100%(参照)

量化に関するよくある質問

Q4_K_MはQ4_0と同じですか?
いいえ。Q4_K_MはK-Quant圧縮を使用しており、同じビット深度でQ4_0より5–8%品質を回復します。常にQ4_0よりQ4_K_Mを優先してください。高いレベルに上げる場合はQ4_K_M vs Q8_0ガイドを参照してください。
8 GB VRAMにはどの量化を使うべきですか?
7BモデルにはQ4_K_M(5.5 GB VRAM)。より良い品質を望み余裕があれば、Q5_K_Mは6.5 GBを使用し~3%品質を追加します。両方とも8 GBに十分収まります。
Q4_K_Mの「M」は何を意味しますか?
Medium(中程度)— K-Quant圧縮内の品質ティアを指します。Q4_K_Sは小さい(低品質)バリアント、Q4_K_Mはmedium(推奨)、Q4_K_Lはlarge(Mに対する限界的な改善)です。
OllamaのどのモデルがデフォルトでQ4_K_Mを使用していますか?
ほとんどのモデルが使用しています — Llama 3、Mistral、Qwen、Phi、GemmaはすべてデフォルトでQ4_K_Mタグを使用しています。量化を切り替えるには、モデルタグに:q5_K_M:q8_0を指定してください。