PromptQuorumPromptQuorum

7Bモデルにはどれくらいのメモリが必要ですか?

Quantization & VRAM

重要なポイント

  • Q4の7BモデルにはVRAM 5〜6 GBが必要です — コンテキストウィンドウのオーバーヘッドを含めて6 GBを確保してください
  • 簡易計算:パラメータ数(十億単位)× 0.7 = Q4での概算GB数
  • コンテキストウィンドウを16Kトークンに拡張すると、モデルウェイトに加えて約4 GBが追加されます

CPUとGPUの簡易計算ルール

2026年5月現在、Q4の7Bモデルには5〜6 GBのメモリが必要です — システムRAM(CPUのみの推論)またはVRAM(GPU推論)のどちらでも同量です。量は同じですが、速度が異なります。CPUによる推論は現代の8コアプロセッサで毎秒約5トークン。GPUによる推論は十分なVRAMを持つカードで毎秒20〜25トークンです。

CPUのみの場合は、8コアプロセッサの目安としてGPU速度の列を5で割ってください。Q4の7BモデルはCPUで約5 tok/s、GPUで約25 tok/sで動作します。この5倍の差が、インタラクティブな用途でバジェットGPUを購入する価値がある理由です。

モデルサイズQ4メモリGPU速度
3B~2 GB~40 tok/s
7B~5 GB~25 tok/s
8B~5.5 GB~22 tok/s
13B~9 GB~15 tok/s

CPUとGPUをどう選ぶか

システムRAMが16 GB以上あり、タスクがバッチ処理やバックグラウンド処理(夜間の文書分析、スケジュール要約)の場合はCPUのみを選択してください。約5 tok/sの速度は非インタラクティブな作業では許容範囲であり、GPU費用を完全に節約できます。

インタラクティブなチャットやコーディングが必要な場合はGPUを選択してください。5倍の速度差はリアルタイム利用において重要です。バジェットRTX 3050 6 GBでもLlama 3 8B Q4_K_Mで約22 tok/sを実現でき、即時に感じられるチャットに十分な速度です。

GPUのVRAMティア別の詳細な内訳については、ローカルLLMに必要なVRAM量をご覧ください。完全なハードウェアリファレンスについては、ローカルLLMの完全VRAMガイドをご参照ください。

7BモデルのRAMに関するよくある質問

GPUなしで7BモデルをCPUのみで動かすのに8 GBのシステムRAMで十分ですか?
はい。CPUのみでの動作時、Q4の7BモデルはシステムRAMを約5〜6 GB使用し、現代の8コアプロセッサで3〜6 tok/sで動作します。GPU加速オプションについてはVRAMガイドをご覧ください。
Llama 3 8Bに必要なVRAMは正確にはどれくらいですか?
モデルウェイトにQ4_K_Mで約5.5 GB必要です。4096トークンのコンテキストウィンドウには0.5〜1 GBを追加してください。VRAMオーバーフローを防ぐために合計6〜7 GBを確保してください。
モデルが利用可能なVRAMを超えるとどうなりますか?
OllamaはレイヤーをシステムRAMにオフロードしますが、これは10〜20倍遅くなります。モデルは動作を続けますが生成速度が大幅に低下します。防ぐには、量化を下げるか--num-ctx 2048でコンテキストを削減してください。
GPU推論は常にCPUより優れていますか?
すべての用途でそうとは言えません。バッチ処理、スケジュール処理、非インタラクティブな用途では、CPUの約5 tok/sは許容範囲でありGPU費用を節約できます。リアルタイムのチャットやコーディングには、GPUの20〜25 tok/sが不可欠です。