重要なポイント
2026年5月現在、Q8_0は完全精度品質の約99%です。Q4_K_Mは約92%です。この7ポイントの差はチャット、コーディング、要約では見えません — ローカルLLM使用の95%をカバーする3つのタスクです。Q8_0が優位に立つのは、長文の事実想起、複数ステップの数学、500行以上の正確な構文が必要なコードのみです。
Q4_K_Mが正しいデフォルトである理由は、Q8_0の追加品質が現れるのがエッジケースのみだからです:正確な事実想起を必要とする長文生成、または高精度を必要とする数学的推論。他のすべてに対して、Q4_K_Mは実際にはQ8_0と同等です。
すでにQ4_K_Mを使用していて結果がおかしく感じる場合、問題はほとんどの場合量化ではありません — モデルのサイズやプロンプト構造にあります。
以下の表は7BモデルのQ4_K_MとQ8_0を比較しています。両フォーマットは特別な設定なしにOllama、LM Studio、llama.cppで動作します。
Q4_K_Mとk-quant圧縮について理解するには、Q4_K_M解説ガイドを参照してください。完全な量化リファレンスは量化レベル比較を参照してください。
Q4_K_Mの品質ギャップを明らかにする3つのタスク:長文書の想起(50ページ以上)、中間状態を伴う複数ステップの数学、300行以上のコード生成です。これらにおいて、Q8_0の追加精度は長い出力で積み重なる小さなドリフトエラーを防ぎます。他のすべて — チャット、200行未満のコード、Q&A、要約 — ではギャップは見えません。決定前の復習はQ4_K_Mの意味を参照してください。
| 指標 | Q4_K_M | Q8_0 |
|---|---|---|
| ファイルサイズ(7Bモデル) | ~4.1 GB | ~7.7 GB |
| VRAM必要量(7B) | 5–6 GB | 8–9 GB |
| 完全精度に対する品質 | ~92% | ~99% |
| 最適な対象 | 6–8 GB VRAM | 12+ GB VRAM |
ollama pull llama3:8b-q4_K_Mとollama pull llama3:8b-q8_0は別々のダウンロードです。ollama runでタグを指定して切り替えます。