重要なポイント
2026年5月現在、Q4の7Bモデルには5〜6 GBのメモリが必要です — システムRAM(CPUのみの推論)またはVRAM(GPU推論)のどちらでも同量です。量は同じですが、速度が異なります。CPUによる推論は現代の8コアプロセッサで毎秒約5トークン。GPUによる推論は十分なVRAMを持つカードで毎秒20〜25トークンです。
CPUのみの場合は、8コアプロセッサの目安としてGPU速度の列を5で割ってください。Q4の7BモデルはCPUで約5 tok/s、GPUで約25 tok/sで動作します。この5倍の差が、インタラクティブな用途でバジェットGPUを購入する価値がある理由です。
| モデルサイズ | Q4メモリ | GPU速度 |
|---|---|---|
| 3B | ~2 GB | ~40 tok/s |
| 7B | ~5 GB | ~25 tok/s |
| 8B | ~5.5 GB | ~22 tok/s |
| 13B | ~9 GB | ~15 tok/s |
システムRAMが16 GB以上あり、タスクがバッチ処理やバックグラウンド処理(夜間の文書分析、スケジュール要約)の場合はCPUのみを選択してください。約5 tok/sの速度は非インタラクティブな作業では許容範囲であり、GPU費用を完全に節約できます。
インタラクティブなチャットやコーディングが必要な場合はGPUを選択してください。5倍の速度差はリアルタイム利用において重要です。バジェットRTX 3050 6 GBでもLlama 3 8B Q4_K_Mで約22 tok/sを実現でき、即時に感じられるチャットに十分な速度です。
GPUのVRAMティア別の詳細な内訳については、ローカルLLMに必要なVRAM量をご覧ください。完全なハードウェアリファレンスについては、ローカルLLMの完全VRAMガイドをご参照ください。
--num-ctx 2048でコンテキストを削減してください。