重要なポイント
- RTX 3060 12GB(中古$200–250):すべての7B-8BモデルをQ4/Q5で、ほとんどの稠密13B-14BをQ4で実行。最良のバジェット選択。
- RTX 3060 6GB:3Bモデルのみ(Phi-4 Mini、Llama 3.2 3B)。7Bには不足。
- 12GBでの最良総合モデル: Qwen3 14B、~9GB VRAM、9–12トークン/秒。快適に収まる最良の稠密品質。
- 12GBでの最良コーディングモデル: Qwen3 8B、16–20トークン/秒。
- 12GBでの最良推論モデル: DeepSeek-R1 7B、10–12トークン/秒。
- 対象外: 70Bモデル、Llama 4 Scout(~55GB必要)、13B Q8が必要な場合は24GB以上(RTX 4090)が必要。
RTX 3060 12GBで何が動く?
RTX 3060 12GBは2026年のローカルLLM用最良バジェットGPUです。 12GB VRAMはQ4/Q5のすべての7Bモデルと、Q4のほとんどの13Bモデルに対応。モデルサイズ別のVRAM要件について詳しくは、VRAM要件ガイド →をご参照ください。期待できる正確なモデルと速度は次の通りです:
| モデル | サイズ | 量子化 | VRAM使用 | 速度 | 最適用途 |
|---|---|---|---|---|---|
| Qwen3 14B | 14B(稠密) | Q4_K_M | ~9 GB | 9–12トークン/秒 | 収まる範囲で最良総合品質 |
| Qwen3 8B | 8B | Q4_K_M | ~7 GB | 16–20トークン/秒 | コーディング、万能 |
| Gemma 4 E12B | 26B MoE | Q4_K_M | ~9 GB | 11–14トークン/秒 | ビジョン、マルチモーダル |
| Mistral Small v0.3 | 7B | Q4_K_M | ~7 GB | 18トークン/秒 | 指示従行 |
| DeepSeek-R1 7B | 7B | Q4_K_M | ~7 GB | 10–12トークン/秒 | 推論、数学 |
| Gemma 4 E4B | E4B(マルチモーダル) | Q4_K_M | ~5 GB | 18–22トークン/秒 | 軽量ビジョン、高速チャット |
| Llama 3.2 13B | 13B | Q4_K_M | ~11 GB | 8–10トークン/秒 | 高品質チャット(Q4のみ) |
Qwen3 14B(稠密)はQ4_K_MでRTX 3060 12GBに快適に収まる最高品質のモデルで、~9 GBを使用します。`ollama pull qwen3:14b`。注:Llama 4 Scout(17Bアクティブ/109B合計のMoE、10Mトークンコンテキスト、マルチモーダル)はQ4で~55GB必要で、通常12GBには収まりません — 大容量VRAM環境向けの長コンテキスト/大規模マルチモーダル用途であり、バジェットGPUの推奨ではありません。gpt-oss:20b(21B合計/3.6BアクティブMoE)は16GB必要なため、12GBカードでは僅かに手が届きません。すべての速度はOllama、RTX 3060 12GB、16GBシステムRAM、Ryzen 7 7700Xで計測。Q4_K_M量子化。速度は±15%変動。
RTX 3060 6GBで何が動く?
6GB版は大幅に制限されています。 3Bモデルのみ快適に動作。7BモデルのQ4は~7GB必要で、容量不足です。
- Phi-4 Mini 3.8B(Q4): ~3GB VRAM、20–25トークン/秒。このサイズでの最良推論。
- Llama 3.2 3B(Q4): ~2.5GB VRAM、25–35トークン/秒。最速オプション。
- Gemma 2 2B(Q4): ~1.7GB VRAM、35–45トークン/秒。最軽量モデル。
- 7Bオフローディング: 可能だが遅い。Llama 7BのCPUオフロード = ~5–8トークン/秒。
- 推奨: 6GBカードをお持ちなら、12GB中古($200–250)にアップグレードを。
RTX 3060 vs 他のバジェットGPU
| GPU | VRAM | 価格(中古) | 7B速度 | 最大モデル | 評価 |
|---|---|---|---|---|---|
| RTX 3060 12GB ★ | 12 GB | ¥30,000–38,000 | 15–20トークン/秒 | 13B(Q4) | 最良バジェット |
| RTX 4060 Ti 8GB | 8 GB | ¥38,000–45,000 | 20–25トークン/秒 | 7B(Q5最大) | 高速だがVRAM少 |
| RTX A4000 | 16 GB | ¥27,000–35,000 | 12–15トークン/秒 | 13B(Q5) | VRAM/円最良 |
| RTX 4070 Super | 12 GB | ¥60,000–68,000 | 25–30トークン/秒 | 13B(Q5) | 高速だが2倍の価格 |
| RX 6700 XT | 12 GB | ¥23,000–30,000 | 10–14トークン/秒 | 13B(Q4) | 最安、AMDの手間 |
RTX 3060 12GBが価格性能比で勝利:¥30,000–38,000の12GB VRAMですべての7Bとほとんどの13Bを実行。
7Bモデルに必要なVRAMは?
Q4(4ビット)で量子化された7Bモデルは6~8GB VRAMを必要とし、Q5(5ビット)は8~10GB、Q8(8ビット)は14~16GBを必要とします。
実際には:8GBは最低限で、Q4で7Bモデルでの快適な推論とバッチ処理用のスペースがあります。
6GBカード(RTX 2060)は技術的に機能しますがアグレッシブな最適化が必要で、より高いバッチに余裕がありません。
GPUコストは経済性の一面であり、トークンコストはもう一面です。ローカル推論はAPIのトークン課金を排除しますが、プロンプト長は依然としてレイテンシとスループットに影響します。トークン、価格体系、最適化戦略を含むコスト全体像については、トークン、コスト、制限:AIプロンプティングの経済学をご覧ください。
RTX 3060でのユースケース別最適モデル
パラメータ数ではなく、実際のニーズに基づいてモデルを選択してください:
バジェットハードウェアは小さなモデルを実行しますが、巧みなプロンプティングが品質差を縮めます。プロンプトエンジニアリングガイドでは、Chain-of-Thoughtや構造化出力など、小さなモデルの実力を引き出すテクニックを解説しています。RTX 3060 12 GB の VRAM に収まる具体的なワークロードのひとつが、プルリクエストの自動レビューです。まさに同じハードウェア上で Qwen3 8B を PR にぶつける GitHub Actions のパターンは、CI/CD でのローカル LLM コードレビューで解説しています。
- チャット / Q&A: `ollama run qwen3:14b` — 稠密14B、~9GB VRAM、12GBで最良品質。軽量オプションは `ollama run qwen3:8b`(~7GB)。
- コーディング: `ollama run qwen3:8b` — 万能で強力なコーディング。~7GB VRAM。16–20トークン/秒。
- 推論 / 数学: `ollama run deepseek-r1:7b` — Chain-of-Thought。10–12トークン/秒。
- ライティング / クリエイティブ: `ollama run mistral:7b` — 最良の指示従行。18トークン/秒。
- ビジョン / 画像: `ollama run gemma4:e12b` — マルチモーダル。11–14トークン/秒。~9GB VRAM。軽量な選択肢は `ollama run gemma4:e4b`(~5GB)。
- プライバシー / オフライン: 上記すべて。100%ローカル。データは外部送信されません。
- ホームオートメーション / 常時稼働AI: `ollama run phi4-mini` — Phi-4 Mini(3.8B、~3 GB VRAM)は専用GPUなしのミニPCでHome Assistantの音声クエリを処理します。ローカルスマートホームAIの最適ハードウェア →をご覧ください。
中古 vs 新品:どこで買う?
- 中古(50~100ドル安い):eBay、Facebook Marketplace、Craigslist、地元のコンピュータ修理店。死んだカードまたは不良VRAMのリスクが高い。確約する前に常にテストしてください。
- 新品(280~400ドル):Newegg、Amazon、Best Buy、Microcenter。保証付き。驚きなし。価格安定。リスク回避買い手に最適。
- マイニングカード(暗号、超安い):極端なリスク。VRAM劣化は一般的。その場で完全にベンチテストできる場合のみ購入してください。
よくあるバジェットGPUの間違い
- 4GB RTX 2060を購入してスムーズな7B推論を期待する。常にメモリ不足エラーが発生します。
- 250ドルのGPUを30ドルのPSU(電源)と組み合わせます。電圧サグは安定性を殺します。80+ Gold認定、650W最小をバジェット化してください。
- DDR5 RAMとi9 CPUがLLM推論を高速化すると想定する。それらは高速化しません。GPU VRAMバンド幅は推論速度に影響する唯一のボトルネックです。
次のステップ
- ローカルLLM向け最高AMD GPU — AMDを検討中?AMD対NVIDIA完全比較 →
- 最高オープンソースOllamaモデル — 予算GPUで最高の性能を出すモデルは →
- 必要なVRAMは? — GPUとモデルサイズを一致させる →
よくある質問
RTX 3060 12GBは2026年でもまだ価値があるか?
はい。4年以上前ですが12GB VRAMは時代遅れではありません。Llama 3.3 8Bとよりすぐに実行します。中古で250ドル未満で見つけたら最適。
ローカルLLM用にRTX 4060またはRTX 4060 Tiを購入すべきか?
RTX 4060 Ti。ベース4060(8GB)と4070(12GB)は悪い価値です。TiはLLM作業に最適な価格のRTX 40シリーズカードです。
AMD RX 6700または6800 XTを代わりに使用できるか?
はい、ただしAMD上のONNX RuntimeのドライバサポートはNVIDIA + CUDAより弱い。セットアップの摩擦を増します。RTXはバジェットにより安全です。
12GB VRAM 13Bモデルに十分か?
かろうじて、Q4量子化で。Q5またはQ8はOOMエラーを起こします。13Bの快適さが必要な場合は16GBを目指してください。
RTX A4000などの中古企業GPUを購入すべきか?
はい、利用可能な場合。16GB VRAM、プロフェッショナルグレード冷却、通常180~230ドルで中古。RTX 3060より若干遅いですがVRAMクッションの価値があります。
250ドルGPUで購入するPSU電力はいくらか?
650W、80+ Gold最小。250ドルGPU + CPU + マザーボード400W以下ですがスパイク用に余裕が必要。
200ドルのバジェットGPUでOllamaを実行できるか?
はい。Ollamaは軽量です。4年前のRTX 3060にOllamaはMistral Smallを10~15トークン/秒で実行します。完全に使用可能。
エンタープライズでのGDPR準拠ローカル推論に推奨GPUは?
Llama 3.3 13B Q4で最大50ユーザーにはRTX 3060 12GBまたはA4000 16GB最小。ECC GPUはエラー検出に推奨。ファームウェア/物理セキュリティはGPUメモリダンプを防止します。
中小企業のチームサーバーに推奨GPUは?
1~50従業員にはRTX 3060 12GBまたはA4000。50~200従業員にはRTX 4070 SuperまたはA6000。RTX 3060はLlama 3.3 13B Q4 + vLLMを3~5同時要求で実行可能。より大規模なチームはA100エンタープライズクラスタリングが必要。
RTX 3060と4060 Tiのパフォーマンス差は?
RTX 4060 Tiは約15~20%高速ですが、RTX 3060は4GB追加VRAMがあります。7Bモデルでは両方が快適な推論を提供します。バジェットで選択してください。
マイニングカードはローカルLLMで安全か?
リスクあり。VRAMは集約的な運用年後に劣化します。確約前に完全にその場でストレステストできる場合のみ購入してください。
関連資料
- ローカルLLMに必要なVRAMはいくらか
- コンシューマーハードウェアの70Bモデル
- RTX 5090 vs RTX 4090
- ローカルLLM用の中古GPU
- ローカルLLM向けの最高のGPU
- VRAM計算機
- Mac Mini M5ローカルAIサーバーとして
- ローカルLLM向けApple Silicon M5 — M5 Pro/Max完全ガイド:ベンチマーク、Mac構成、メモリ層、ローカル推論用Mac購入ガイド
- ローカルLLM向けApple Silicon対NVIDIA GPU
- Apple Silicon向けベストモデル2026
- 秋葉原の販売店、メルカリ・Yahoo!オークションの中古市場を含む日本のGPU価格については、<a href="/ja/prompt-bites/best-gpu-local-llm-japan-price" class="text-primary hover:underline">日本でコスパ最強のローカルLLM用GPUガイド</a>をご覧ください。
ソース
- TechPowerUp GPUデータベース:RTX 3060 / RTX 4060 Ti / RTX 4070 Super仕様と電力消費
- NVIDIA CUDA能力マトリックス:推論ワークロード用GPU メモリバンド幅と理論的スループット
- Ollama モデル要件:Llama 3.3 7B、Mistral Small、Qwen量子化レベルVRAM推奨