重要なポイント
2026年5月現在、4 GB VRAMではQ4量化で30億パラメータ以下のモデルに制限されます。これはすべての主流のローカルモデル — Llama 3 8B、Mistral 7B、Qwen 14B — を除外します。3つのモダンな小型モデルが驚くほど良いパフォーマンスを発揮します:Phi-4 Miniは指示追従でGPT-3.5に匹敵し、Gemma 2 2Bは高速チャットを処理し、SmolLM 1.7Bは統合グラフィックスで動作します。
Phi-4 Miniがこのティアの最有力候補です。小さいながらも、一般的なQ&A、軽度のコーディング、ドキュメント要約を~25トークン/秒で処理します。Gemma 2 2BはSingle-Turnチャットで速い。SmolLM 1.7BはPhi-4 Miniでさえメモリ制限に近すぎる場合のフォールバックです。
| モデル | VRAM | 最適な用途 |
|---|---|---|
| Phi-4 Mini Q4 | 3.2 GB | 4 GBで最高品質 |
| Gemma 2 2B Q4 | 1.5 GB | 高速なSingle-Turnチャット |
| SmolLM 1.7B Q4 | 1.0 GB | 最小VRAMフットプリント |
よく要望されますが、すべての量化レベルで4 GB以上を必要とするモデル:
6 GBへのアップグレードでLlama 3 8BとMistral 7B — 最も人気の2つのローカルモデル — が解放されます。6 GB VRAM向け最良ローカルLLMを参照してください。ハードウェアの完全な比較についてはローエンドPCの最速ローカルLLMをご覧ください。