7Bモデルにはどれくらいのメモリが必要ですか？

Quantization & VRAM

重要なポイント

✓Q4の7BモデルにはVRAM 5〜6 GBが必要です — コンテキストウィンドウのオーバーヘッドを含めて6 GBを確保してください
✓簡易計算：パラメータ数（十億単位）× 0.7 = Q4での概算GB数
✓コンテキストウィンドウを16Kトークンに拡張すると、モデルウェイトに加えて約4 GBが追加されます

CPUとGPUの簡易計算ルール

2026年5月現在、Q4の7Bモデルには5〜6 GBのメモリが必要です — システムRAM（CPUのみの推論）またはVRAM（GPU推論）のどちらでも同量です。量は同じですが、速度が異なります。CPUによる推論は現代の8コアプロセッサで毎秒約5トークン。GPUによる推論は十分なVRAMを持つカードで毎秒20〜25トークンです。

CPUのみの場合は、8コアプロセッサの目安としてGPU速度の列を5で割ってください。Q4の7BモデルはCPUで約5 tok/s、GPUで約25 tok/sで動作します。この5倍の差が、インタラクティブな用途でバジェットGPUを購入する価値がある理由です。

モデルサイズ	Q4メモリ	GPU速度
3B	~2 GB	~40 tok/s
7B	~5 GB	~25 tok/s
8B	~5.5 GB	~22 tok/s
13B	~9 GB	~15 tok/s

CPUとGPUをどう選ぶか

システムRAMが16 GB以上あり、タスクがバッチ処理やバックグラウンド処理（夜間の文書分析、スケジュール要約）の場合はCPUのみを選択してください。約5 tok/sの速度は非インタラクティブな作業では許容範囲であり、GPU費用を完全に節約できます。

インタラクティブなチャットやコーディングが必要な場合はGPUを選択してください。5倍の速度差はリアルタイム利用において重要です。バジェットRTX 3050 6 GBでもLlama 3 8B Q4_K_Mで約22 tok/sを実現でき、即時に感じられるチャットに十分な速度です。

GPUのVRAMティア別の詳細な内訳については、ローカルLLMに必要なVRAM量をご覧ください。完全なハードウェアリファレンスについては、ローカルLLMの完全VRAMガイドをご参照ください。

7BモデルのRAMに関するよくある質問

GPUなしで7BモデルをCPUのみで動かすのに8 GBのシステムRAMで十分ですか？▾

はい。CPUのみでの動作時、Q4の7BモデルはシステムRAMを約5〜6 GB使用し、現代の8コアプロセッサで3〜6 tok/sで動作します。GPU加速オプションについてはVRAMガイドをご覧ください。

Llama 3 8Bに必要なVRAMは正確にはどれくらいですか？▾

モデルウェイトにQ4_K_Mで約5.5 GB必要です。4096トークンのコンテキストウィンドウには0.5〜1 GBを追加してください。VRAMオーバーフローを防ぐために合計6〜7 GBを確保してください。

モデルが利用可能なVRAMを超えるとどうなりますか？▾

OllamaはレイヤーをシステムRAMにオフロードしますが、これは10〜20倍遅くなります。モデルは動作を続けますが生成速度が大幅に低下します。防ぐには、量化を下げるか--num-ctx 2048でコンテキストを削減してください。

GPU推論は常にCPUより優れていますか？▾

すべての用途でそうとは言えません。バッチ処理、スケジュール処理、非インタラクティブな用途では、CPUの約5 tok/sは許容範囲でありGPU費用を節約できます。リアルタイムのチャットやコーディングには、GPUの20〜25 tok/sが不可欠です。

← Prompt Bites に戻る