重要なポイント
2026年5月現在、Q4_K_Mは古い4ビットフォーマット(Q4_0)が重要な重みで品質を失いすぎたために存在しています。K-Quant圧縮は、出力に最も影響を与える重みにより多くのビットを割り当て、影響の少ない重みには少ないビットを割り当てることでこれを解決します。結果:同じファイルサイズでQ4_0より5–8%品質が向上します。
「K」が主要な差別化要因です。K-Quant圧縮は非均一なビット割り当てを適用します — 重要な重みはより多くのビットを得て、重要でないものはより少ないビットを得ます。これにより同じファイルサイズで古いQ4_0フォーマットと比べて5–8%の品質を回復します。
「M」はK-Quant内の品質設定です。Q4_K_S(small)は品質が低いが少し小さいです。Q4_K_M(medium)は最もバランスが取れています。Q4_K_L(large)はわずかに優れていますが、追加サイズの価値はほとんどありません。
K-Quantは重みをクラスタリングし、重要度に基づいてビットを割り当てます。最重要クラスターは重みあたり6ビットを取得します。中間クラスターは4ビットを取得します。低重要クラスターは3ビットを取得します。「M」ティアはモデル全体で重みあたり平均4.5ビット — これがQ4_K_MがQ4_K_SとQ5_K_Mの間のサイズと品質に位置する理由です。Mティアで不十分な場合は、Q4_K_M vs Q8_0を参照してください。
以下の表は7Bモデルのトレードオフを示しています。品質は完全精度のQ8_0ベースラインに対する相対値です。12+ GB VRAMがない限り、Q4_K_Mは最高の品質対ギガバイト比を提供します。
Q4_K_MとQ8_0の直接比較については、Q4_K_M vs Q8_0決定ガイドを参照してください。完全な量化リファレンスについては、量化レベル比較を参照してください。
| フォーマット | ファイルサイズ(7B) | Q8_0との品質比較 |
|---|---|---|
| Q4_0 | 3.8 GB | ベースライン(~87%) |
| Q4_K_M | 4.1 GB | ~92%(+5%) |
| Q5_K_M | 5.0 GB | ~95%(+3%) |
| Q8_0 | 7.7 GB | 100%(参照) |
:q5_K_Mや:q8_0を指定してください。