4 GB VRAM向け最良Ollamaモデルは？

Read in:

Quantization & VRAM

重要なポイント

✓4 GB VRAMに最適なモデル：Phi-4 Mini Q4（~3.2 GB）— このティアで最高品質
✓Gemma 2 2B（1.5 GB）が最速オプション；SmolLM 1.7B（1.0 GB）は最小
✓Llama 3 8Bはどの量化でも収まりません — 最低5.5 GBが必要です

4 GB VRAMに何が収まるか

2026年5月現在、4 GB VRAMではQ4量化で30億パラメータ以下のモデルに制限されます。これはすべての主流のローカルモデル — Llama 3 8B、Mistral 7B、Qwen 14B — を除外します。3つのモダンな小型モデルが驚くほど良いパフォーマンスを発揮します：Phi-4 Miniは指示追従でGPT-3.5に匹敵し、Gemma 2 2Bは高速チャットを処理し、SmolLM 1.7Bは統合グラフィックスで動作します。

Phi-4 Miniがこのティアの最有力候補です。小さいながらも、一般的なQ&A、軽度のコーディング、ドキュメント要約を~25トークン/秒で処理します。Gemma 2 2BはSingle-Turnチャットで速い。SmolLM 1.7BはPhi-4 Miniでさえメモリ制限に近すぎる場合のフォールバックです。

モデル	VRAM	最適な用途
Phi-4 Mini Q4	3.2 GB	4 GBで最高品質
Gemma 2 2B Q4	1.5 GB	高速なSingle-Turnチャット
SmolLM 1.7B Q4	1.0 GB	最小VRAMフットプリント

4 GBに収まらないもの

よく要望されますが、すべての量化レベルで4 GB以上を必要とするモデル：

6 GBへのアップグレードでLlama 3 8BとMistral 7B — 最も人気の2つのローカルモデル — が解放されます。6 GB VRAM向け最良ローカルLLMを参照してください。ハードウェアの完全な比較についてはローエンドPCの最速ローカルLLMをご覧ください。

▸Llama 3 8B — Q4_K_Mで~5.5 GB必要（最小）
▸Mistral 7B — Q4_K_Mで~4.5 GB必要（ギリギリ；コンテキストオーバーヘッドで4 GBでは危険）
▸Phi-4（フル14B）— ~9.8 GB必要
▸Qwen 14B — Q4_K_Mで~9.5 GB必要

4 GB VRAMモデルに関するよくある質問

4 GB VRAMは役立つLLMに十分ですか？▾

はい、基本的なタスクには。Phi-4 Miniは~25トークン/秒で一般的なQ&Aと軽度のコーディングを処理します。長いコンテキスト、複数ステップのコーディングエージェント、またはドキュメント分析には4 GBがボトルネックになります — 6 GB以上にアップグレードしてください。

4 GB VRAMでLlama 3を動かせますか？▾

いいえ。Llama 3 8BはQ4_K_Mで最低~5.5 GBが必要です。Llamaバリアントが必要な場合、Llama 3.2 3Bは~2.5 GBに収まります。完全なVRAM要件ガイドを参照してください。

4 GB VRAMのGPUはどれですか？▾

RTX 3050 Ti（4 GB）、GTX 1650 Super（4 GB）、AMD RX 6500 XT（4 GB）が最も一般的です。3つすべてOllamaで動作します — NVIDIAはCUDA経由、AMDはROCmまたはVulkan経由。

CPU-onlyモードは4 GB VRAMの制限を回避できますか？▾

はい。GPUなしで、Llama 3 8B Q4は~6 GBのシステムRAMを使用し、現代的な8コアCPUで3–6トークン/秒で動作します。遅いですが、十分なRAMがあれば動作します。

← Prompt Bites に戻る