重要なポイント
2026年5月現在、6 GB VRAMは非常に異なる2つのハードウェアクラスをカバーします:バジェットWindowsラップトップ(RTX 3050/4050)と16 GB統合メモリを搭載する全MacBookです。両者のパフォーマンスは30–50%異なります — MacはUnified Memory帯域幅のおかげでLlama 3 8B Q4_K_Mを約25トークン/秒で実行するのに対し、WindowsのディスクリートGPUはPCIe転送オーバーヘッドにより約18トークン/秒です。
3つのモデルはすべてOllamaで特別な設定なしに動作します。以下の速度はコンテキストウィンドウ2048トークンを想定しています。4096トークンへの拡張には約1 GB追加が必要ですが、Phi-4とMistralでは6 GB以内に収まります。
| モデル | VRAM | 最適な用途 |
|---|---|---|
| Llama 3 8B Q4_K_M | 5.5 GB | 汎用チャット、コーディング |
| Phi-4 Q4_K_M | 5.0 GB | 指示追従、推論 |
| Mistral 7B Q4_K_S | 4.5 GB | 速度優先タスク |
Windowsでは、RTX 3050 6 GBとRTX 4050 6 GBがこの層の主要GPUです。両者はCUDA経由でOllamaをほぼ同等の性能で動作させます — 新しいRTX 4050はワット当たり約10%効率的ですが、実際の速度差は小さいです。
macOSでは、16 GB統合メモリを搭載した全MacBookがGPUワークロード用に約6 GBを利用できます。統合メモリはディスクリートGPUカードのPCIe帯域幅ボトルネックを解消するため、macOSのパフォーマンスはしばしばディスクリートRTX 3050と同等以上です。
6 GBから8 GBへのアップグレードで7–8BモデルのQ5_K_M量化(+3%品質)と高速コンテキストウィンドウが解放されます。12 GBオプションと14BモデルについてはRTX 3060 12GB向けOllamaモデルを参照してください。完全なVRAMリファレンスはローカルLLMに必要なVRAM量をご覧ください。
6 GBは日常タスクでローカルLLMがクラウドモデルと競合できる最小VRAMです。6 GB未満ではコーディングや長文推論で苦労する小型モデルに限られます。6 GBではLlama 3 8B Q4_K_Mが完全に解放されます。14Bモデルへのステップアップには12 GBティアのおすすめを参照してください。
--num-ctx 2048)を使用するか、代わりにPhi-4 Q4_K_Mを選んでください。