重要なポイント
2026年5月現在、RTX 3060 12 GBは14Bモデルをローカルで動かす最安のルートです。その12 GB VRAMはRTX 4070 Ti(約$800)やRTX 4080(約$1,100)と同等の能力を、はるかに低コストで実現します。¥40,000–¥53,000の中古カードで、3倍以上の価格のカードと同じモデル容量を得られます。
以下の5つのモデルはすべてOllamaで即座に動作します。速度数値はCPUオフロードなしのデスクトップPCでデフォルト2048トークンコンテキスト時の値です。
| モデル | 使用VRAM | 速度 |
|---|---|---|
| Llama 3 8B Q5_K_M | 7.0 GB | ~25トークン/秒 |
| Qwen 2.5 Coder 14B Q4_K_M | 10.0 GB | ~20トークン/秒 |
| Mistral 7B Q6_K | 6.5 GB | ~27トークン/秒 |
| Phi-4 Q5_K_M | 6.2 GB | ~28トークン/秒 |
| Qwen 14B Q4_K_M | 10.0 GB | ~18トークン/秒 |
汎用用途には、4096トークンコンテキストウィンドウでQ5_K_MのLlama 3 8Bを実行してください。合計約8 GB VRAMを使用し、4 GBの余裕を残します。
コーディングには、Q4_K_MのQwen 2.5 Coder 14Bが明確な選択です:HumanEvalでLlama 3 8Bを上回り、10 GB VRAMに収まり、ファインチューニングなしでPython、TypeScript、Goを処理します。
常に少なくとも1.5–2 GB VRAMを空けておいてください。完全なGPUベンチマーク背景についてはローカルLLM向け最良GPUを参照してください。GPUが12 GB未満の場合は6 GB VRAM向け最良モデルをご覧ください。RTX 3060で汎用Pickを実行するには:
ollama pull llama3:8b-instruct-q5_K_M
ollama run llama3:8b-instruct-q5_K_M--num-ctx 4096を使用してください。ollama run モデル名を実行すると、VRAMが十分であれば完全にGPUにロードされます。