RTX 3060 12 GB向け最良Ollamaモデルは?
Quantization & VRAM
重要なポイント
- ✓汎用ベスト:Q5_K_MのLlama 3 8B — 7 GB VRAM、~25トークン/秒、優秀なチャットとコーディング品質
- ✓コーディングベスト:Q4_K_MのQwen 3 Coder 14B — 10 GB VRAM、14Bクラス最高HumanEvalスコア
- ✓RTX 3060 12 GBはQ4の14Bモデルを動かせる$400未満の唯一のコンシューマーGPU
RTX 3060 12 GB向けトップ5 Ollamaモデル
2026年5月現在、RTX 3060 12 GBは14Bモデルをローカルで動かす最安のルートです。その12 GB VRAMはRTX 4070 Ti(約$800)やRTX 4080(約$1,100)と同等の能力を、はるかに低コストで実現します。¥40,000–¥53,000の中古カードで、3倍以上の価格のカードと同じモデル容量を得られます。
以下の5つのモデルはすべてOllamaで即座に動作します。速度数値はCPUオフロードなしのデスクトップPCでデフォルト2048トークンコンテキスト時の値です。
| モデル | 使用VRAM | 速度 |
|---|---|---|
| Llama 3 8B Q5_K_M | 7.0 GB | ~25トークン/秒 |
| Qwen 3 Coder 14B Q4_K_M | 10.0 GB | ~20トークン/秒 |
| Mistral Small Q6_K | 6.5 GB | ~27トークン/秒 |
| Phi-4 Q5_K_M | 6.2 GB | ~28トークン/秒 |
| Qwen 14B Q4_K_M | 10.0 GB | ~18トークン/秒 |
RTX 3060で最高のパフォーマンスを得る方法
汎用用途には、4096トークンコンテキストウィンドウでQ5_K_MのLlama 3 8Bを実行してください。合計約8 GB VRAMを使用し、4 GBの余裕を残します。
コーディングには、Q4_K_MのQwen 3 Coder 14Bが明確な選択です:HumanEvalでLlama 3 8Bを上回り、10 GB VRAMに収まり、ファインチューニングなしでPython、TypeScript、Goを処理します。
常に少なくとも1.5–2 GB VRAMを空けておいてください。完全なGPUベンチマーク背景についてはローカルLLM向け最良GPUを参照してください。GPUが12 GB未満の場合は6 GB VRAM向け最良モデルをご覧ください。RTX 3060で汎用Pickを実行するには:
ollama pull llama3:8b-instruct-q5_K_M
ollama run llama3:8b-instruct-q5_K_MPullは初回実行時に約7 GBをダウンロードします。以降の実行はキャッシュから即座に開始します。より大きなコンテキストウィンドウが必要な場合は
--num-ctx 4096を使用してください。RTX 3060モデルに関するよくある質問
RTX 3060は70Bモデルを動かせますか?▾
いいえ。Q4_K_Mの70Bモデルには約40 GB VRAMが必要です。RTX 3060 12 GBはQ4で最大~14Bモデルまでです。選択肢については70Bモデルに必要なVRAMを参照してください。
RTX 3060 12 GBはローカルLLMに良いですか?▾
はい — このVRAMティアで最高のコストパフォーマンスです。12 GBの容量により、8 GBカードでは実行できないQ4の14Bモデルが可能になります。街価は通常¥40,000–¥53,000(中古)です。
RTX 3060 12 GBではどの量化を使うべきですか?▾
7–8BモデルにはQ5_K_M(12 GBバジェット内での最高品質)。13–14BモデルにはQ4_K_M(収めるために必要)。品質のトレードオフについてはQ4_K_Mの意味を参照してください。
OllamaはRTX 3060 GPUを自動的に使用しますか?▾
はい。OllamaはWindowsとLinuxでCUDA経由でNVIDIA GPUを自動的に検出します。手動設定は不要です。
ollama run モデル名を実行すると、VRAMが十分であれば完全にGPUにロードされます。