4 GB VRAM向け最良Ollamaモデルは?
Quantization & VRAM
重要なポイント
- ✓4 GB VRAMに最適なモデル:Phi-4 Mini Q4(~3.2 GB)— このティアで最高品質
- ✓Gemma 2 2B(1.5 GB)が最速オプション;SmolLM 1.7B(1.0 GB)は最小
- ✓Llama 3 8Bはどの量化でも収まりません — 最低5.5 GBが必要です
4 GB VRAMに何が収まるか
2026年5月現在、4 GB VRAMではQ4量化で30億パラメータ以下のモデルに制限されます。これはすべての主流のローカルモデル — Llama 3 8B、Mistral 7B、Qwen 14B — を除外します。3つのモダンな小型モデルが驚くほど良いパフォーマンスを発揮します:Phi-4 Miniは指示追従でGPT-3.5に匹敵し、Gemma 2 2Bは高速チャットを処理し、SmolLM 1.7Bは統合グラフィックスで動作します。
Phi-4 Miniがこのティアの最有力候補です。小さいながらも、一般的なQ&A、軽度のコーディング、ドキュメント要約を~25トークン/秒で処理します。Gemma 2 2BはSingle-Turnチャットで速い。SmolLM 1.7BはPhi-4 Miniでさえメモリ制限に近すぎる場合のフォールバックです。
| モデル | VRAM | 最適な用途 |
|---|---|---|
| Phi-4 Mini Q4 | 3.2 GB | 4 GBで最高品質 |
| Gemma 2 2B Q4 | 1.5 GB | 高速なSingle-Turnチャット |
| SmolLM 1.7B Q4 | 1.0 GB | 最小VRAMフットプリント |
4 GBに収まらないもの
よく要望されますが、すべての量化レベルで4 GB以上を必要とするモデル:
6 GBへのアップグレードでLlama 3 8BとMistral 7B — 最も人気の2つのローカルモデル — が解放されます。6 GB VRAM向け最良ローカルLLMを参照してください。ハードウェアの完全な比較についてはローエンドPCの最速ローカルLLMをご覧ください。
- ▸Llama 3 8B — Q4_K_Mで~5.5 GB必要(最小)
- ▸Mistral 7B — Q4_K_Mで~4.5 GB必要(ギリギリ;コンテキストオーバーヘッドで4 GBでは危険)
- ▸Phi-4(フル14B)— ~9.8 GB必要
- ▸Qwen 14B — Q4_K_Mで~9.5 GB必要
4 GB VRAMモデルに関するよくある質問
4 GB VRAMは役立つLLMに十分ですか?▾
はい、基本的なタスクには。Phi-4 Miniは~25トークン/秒で一般的なQ&Aと軽度のコーディングを処理します。長いコンテキスト、複数ステップのコーディングエージェント、またはドキュメント分析には4 GBがボトルネックになります — 6 GB以上にアップグレードしてください。
4 GB VRAMでLlama 3を動かせますか?▾
いいえ。Llama 3 8BはQ4_K_Mで最低~5.5 GBが必要です。Llamaバリアントが必要な場合、Llama 3.2 3Bは~2.5 GBに収まります。完全なVRAM要件ガイドを参照してください。
4 GB VRAMのGPUはどれですか?▾
RTX 3050 Ti(4 GB)、GTX 1650 Super(4 GB)、AMD RX 6500 XT(4 GB)が最も一般的です。3つすべてOllamaで動作します — NVIDIAはCUDA経由、AMDはROCmまたはVulkan経由。
CPU-onlyモードは4 GB VRAMの制限を回避できますか?▾
はい。GPUなしで、Llama 3 8B Q4は~6 GBのシステムRAMを使用し、現代的な8コアCPUで3–6トークン/秒で動作します。遅いですが、十分なRAMがあれば動作します。