PromptQuorumPromptQuorum

4 GB VRAM向け最良Ollamaモデルは?

Quantization & VRAM

重要なポイント

  • 4 GB VRAMに最適なモデル:Phi-4 Mini Q4(~3.2 GB)— このティアで最高品質
  • Gemma 2 2B(1.5 GB)が最速オプション;SmolLM 1.7B(1.0 GB)は最小
  • Llama 3 8Bはどの量化でも収まりません — 最低5.5 GBが必要です

4 GB VRAMに何が収まるか

2026年5月現在、4 GB VRAMではQ4量化で30億パラメータ以下のモデルに制限されます。これはすべての主流のローカルモデル — Llama 3 8B、Mistral 7B、Qwen 14B — を除外します。3つのモダンな小型モデルが驚くほど良いパフォーマンスを発揮します:Phi-4 Miniは指示追従でGPT-3.5に匹敵し、Gemma 2 2Bは高速チャットを処理し、SmolLM 1.7Bは統合グラフィックスで動作します。

Phi-4 Miniがこのティアの最有力候補です。小さいながらも、一般的なQ&A、軽度のコーディング、ドキュメント要約を~25トークン/秒で処理します。Gemma 2 2BはSingle-Turnチャットで速い。SmolLM 1.7BはPhi-4 Miniでさえメモリ制限に近すぎる場合のフォールバックです。

モデルVRAM最適な用途
Phi-4 Mini Q43.2 GB4 GBで最高品質
Gemma 2 2B Q41.5 GB高速なSingle-Turnチャット
SmolLM 1.7B Q41.0 GB最小VRAMフットプリント

4 GBに収まらないもの

よく要望されますが、すべての量化レベルで4 GB以上を必要とするモデル:

6 GBへのアップグレードでLlama 3 8BとMistral 7B — 最も人気の2つのローカルモデル — が解放されます。6 GB VRAM向け最良ローカルLLMを参照してください。ハードウェアの完全な比較についてはローエンドPCの最速ローカルLLMをご覧ください。

  • Llama 3 8B — Q4_K_Mで~5.5 GB必要(最小)
  • Mistral 7B — Q4_K_Mで~4.5 GB必要(ギリギリ;コンテキストオーバーヘッドで4 GBでは危険)
  • Phi-4(フル14B)— ~9.8 GB必要
  • Qwen 14B — Q4_K_Mで~9.5 GB必要

4 GB VRAMモデルに関するよくある質問

4 GB VRAMは役立つLLMに十分ですか?
はい、基本的なタスクには。Phi-4 Miniは~25トークン/秒で一般的なQ&Aと軽度のコーディングを処理します。長いコンテキスト、複数ステップのコーディングエージェント、またはドキュメント分析には4 GBがボトルネックになります — 6 GB以上にアップグレードしてください。
4 GB VRAMでLlama 3を動かせますか?
いいえ。Llama 3 8BはQ4_K_Mで最低~5.5 GBが必要です。Llamaバリアントが必要な場合、Llama 3.2 3Bは~2.5 GBに収まります。完全なVRAM要件ガイドを参照してください。
4 GB VRAMのGPUはどれですか?
RTX 3050 Ti(4 GB)、GTX 1650 Super(4 GB)、AMD RX 6500 XT(4 GB)が最も一般的です。3つすべてOllamaで動作します — NVIDIAはCUDA経由、AMDはROCmまたはVulkan経由。
CPU-onlyモードは4 GB VRAMの制限を回避できますか?
はい。GPUなしで、Llama 3 8B Q4は~6 GBのシステムRAMを使用し、現代的な8コアCPUで3–6トークン/秒で動作します。遅いですが、十分なRAMがあれば動作します。