重要なポイント
- RTX 3060 12GB(中古$200–250):すべての7Bモデルとほとんどの13BをQ4で実行。プラスLlama 4 Scout(MoE)~10GB — 最良の全体品質。
- RTX 3060 6GB:3Bモデルのみ(Phi-4 Mini、Llama 3.2 3B)。7Bには不足。
- 12GBでの最良総合モデル: Llama 4 Scout 17B(MoE)~10GB VRAM、12–16トークン/秒。稠密30Bモデルに匹敵する品質。
- 12GBでの最良コーディングモデル: Qwen3 8B、16–20トークン/秒。Qwen3より改善。
- 12GBでの最良推論モデル: DeepSeek-R1 7B、10–12トークン/秒。
- 対象外: 70Bモデルや13B Q8が必要な場合は24GB(RTX 4090)が必要。
RTX 3060 12GBで何が動く?
RTX 3060 12GBは2026年のローカルLLM用最良バジェットGPUです。 12GB VRAMはQ4/Q5のすべての7Bモデルと、Q4のほとんどの13Bモデルに対応:
| モデル | サイズ | 量子化 | VRAM使用 | 速度 | 最適用途 |
|---|---|---|---|---|---|
| Llama 4 Scout 17B | 17B活性(109B MoE) | Q4_K_M | ~10 GB | 12–16トークン/秒 | 最良総合品質(MoE) |
| Llama 3.2 7B | 7B | Q4_K_M | ~7 GB | 15–20トークン/秒 | チャット、Q&A(レガシー) |
| Mistral 7B v0.3 | 7B | Q4_K_M | ~7 GB | 18トークン/秒 | 指示従行 |
| Qwen3 8B | 8B | Q4_K_M | ~7 GB | 16–20トークン/秒 | コーディング(Qwen2.5より改善) |
| DeepSeek-R1 7B | 7B | Q4_K_M | ~7 GB | 10–12トークン/秒 | 推論、数学 |
| Gemma 4 9B | 9B | Q4_K_M | ~8 GB | 12–15トークン/秒 | ビジョン、マルチモーダル |
| Llama 3.2 13B | 13B | Q4_K_M | ~11 GB | 8–10トークン/秒 | 高品質チャット(Q4のみ) |
Llama 4 Scoutは2026年RTX 3060 12GB所有者向けの最大アップグレード。MoE アーキテクチャはトークンあたり17Bパラメータのみアクティブ(109B合計)、稠密7B-8Bモデルを大きく上回る品質を同等VRAM使用量で提供。`ollama pull llama4:scout`。すべての速度はOllama、RTX 3060 12GB、16GBシステムRAM、Ryzen 7 7700Xで計測。Q4_K_M量子化。速度は±15%変動。
RTX 3060 6GBで何が動く?
6GB版は大幅に制限されています。 3Bモデルのみ快適に動作。7BモデルのQ4は~7GB必要で、容量不足です。
- Phi-4 Mini 3.8B(Q4): ~3GB VRAM、20–25トークン/秒。このサイズでの最良推論。
- Llama 3.2 3B(Q4): ~2.5GB VRAM、25–35トークン/秒。最速オプション。
- Gemma 2 2B(Q4): ~1.7GB VRAM、35–45トークン/秒。最軽量モデル。
- 7Bオフローディング: 可能だが遅い。Llama 7BのCPUオフロード = ~5–8トークン/秒。
- 推奨: 6GBカードをお持ちなら、12GB中古($200–250)にアップグレードを。
RTX 3060 vs 他のバジェットGPU
| GPU | VRAM | 価格(中古) | 7B速度 | 最大モデル | 評価 |
|---|---|---|---|---|---|
| RTX 3060 12GB ★ | 12 GB | ¥30,000–38,000 | 15–20トークン/秒 | 13B(Q4) | 最良バジェット |
| RTX 4060 Ti 8GB | 8 GB | ¥38,000–45,000 | 20–25トークン/秒 | 7B(Q5最大) | 高速だがVRAM少 |
| RTX A4000 | 16 GB | ¥27,000–35,000 | 12–15トークン/秒 | 13B(Q5) | VRAM/円最良 |
| RTX 4070 Super | 12 GB | ¥60,000–68,000 | 25–30トークン/秒 | 13B(Q5) | 高速だが2倍の価格 |
| RX 6700 XT | 12 GB | ¥23,000–30,000 | 10–14トークン/秒 | 13B(Q4) | 最安、AMDの手間 |
RTX 3060 12GBが価格性能比で勝利:¥30,000–38,000の12GB VRAMですべての7Bとほとんどの13Bを実行。
7Bモデルに必要なVRAMは?
Q4(4ビット)で量子化された7Bモデルは6~8GB VRAMを必要とし、Q5(5ビット)は8~10GB、Q8(8ビット)は14~16GBを必要とします。
実際には:8GBは最低限で、Q4で7Bモデルでの快適な推論とバッチ処理用のスペースがあります。
6GBカード(RTX 2060)は技術的に機能しますがアグレッシブな最適化が必要で、より高いバッチに余裕がありません。
GPUコストは経済性の一面であり、トークンコストはもう一面です。ローカル推論はAPIのトークン課金を排除しますが、プロンプト長は依然としてレイテンシとスループットに影響します。トークン、価格体系、最適化戦略を含むコスト全体像については、トークン、コスト、制限:AIプロンプティングの経済学をご覧ください。
RTX 3060でのユースケース別最適モデル
パラメータ数ではなく、実際のニーズに基づいてモデルを選択してください:
バジェットハードウェアは小さなモデルを実行しますが、巧みなプロンプティングが品質差を縮めます。プロンプトエンジニアリングガイドでは、Chain-of-Thoughtや構造化出力など、小さなモデルの実力を引き出すテクニックを解説しています。RTX 3060 12 GB の VRAM に収まる具体的なワークロードのひとつが、プルリクエストの自動レビューです。まさに同じハードウェア上で Qwen3 8B を PR にぶつける GitHub Actions のパターンは、CI/CD でのローカル LLM コードレビューで解説しています。
- チャット / Q&A: `ollama run llama3.2:7b` — 最良の万能モデル。15–20トークン/秒。128Kコンテキスト。
- コーディング: `ollama run qwen2.5-coder:7b` — 72% HumanEval。16トークン/秒。Python、JavaScript、SQL。
- 推論 / 数学: `ollama run deepseek-r1:7b` — Chain-of-Thought。10–12トークン/秒。
- ライティング / クリエイティブ: `ollama run mistral:7b` — 最良の指示従行。18トークン/秒。
- ビジョン / 画像: `ollama run gemma4:9b` — マルチモーダル。12–15トークン/秒。~8GB VRAM。
- プライバシー / オフライン: 上記すべて。100%ローカル。データは外部送信されません。
中古 vs 新品:どこで買う?
- 中古(50~100ドル安い):eBay、Facebook Marketplace、Craigslist、地元のコンピュータ修理店。死んだカードまたは不良VRAMのリスクが高い。確約する前に常にテストしてください。
- 新品(280~400ドル):Newegg、Amazon、Best Buy、Microcenter。保証付き。驚きなし。価格安定。リスク回避買い手に最適。
- マイニングカード(暗号、超安い):極端なリスク。VRAM劣化は一般的。その場で完全にベンチテストできる場合のみ購入してください。
よくあるバジェットGPUの間違い
- 4GB RTX 2060を購入してスムーズな7B推論を期待する。常にメモリ不足エラーが発生します。
- 250ドルのGPUを30ドルのPSU(電源)と組み合わせます。電圧サグは安定性を殺します。80+ Gold認定、650W最小をバジェット化してください。
- DDR5 RAMとi9 CPUがLLM推論を高速化すると想定する。それらは高速化しません。GPU VRAMバンド幅は推論速度に影響する唯一のボトルネックです。
FAQ
RTX 3060 12GBは2026年でもまだ価値があるか?
はい。4年以上前ですが12GB VRAMは時代遅れではありません。Llama 3.3 8Bとよりすぐに実行します。中古で250ドル未満で見つけたら最適。
ローカルLLM用にRTX 4060またはRTX 4060 Tiを購入すべきか?
RTX 4060 Ti。ベース4060(8GB)と4070(12GB)は悪い価値です。TiはLLM作業に最適な価格のRTX 40シリーズカードです。
AMD RX 6700または6800 XTを代わりに使用できるか?
はい、ただしAMD上のONNX RuntimeのドライバサポートはNVIDIA + CUDAより弱い。セットアップの摩擦を増します。RTXはバジェットにより安全です。
12GB VRAM 13Bモデルに十分か?
かろうじて、Q4量子化で。Q5またはQ8はOOMエラーを起こします。13Bの快適さが必要な場合は16GBを目指してください。
RTX A4000などの中古企業GPUを購入すべきか?
はい、利用可能な場合。16GB VRAM、プロフェッショナルグレード冷却、通常180~230ドルで中古。RTX 3060より若干遅いですがVRAMクッションの価値があります。
250ドルGPUで購入するPSU電力はいくらか?
650W、80+ Gold最小。250ドルGPU + CPU + マザーボード400W以下ですがスパイク用に余裕が必要。
200ドルのバジェットGPUでOllamaを実行できるか?
はい。Ollamaは軽量です。4年前のRTX 3060にOllamaはMistral 7Bを10~15トークン/秒で実行します。完全に使用可能。
エンタープライズでのGDPR準拠ローカル推論に推奨GPUは?
Llama 3.3 13B Q4で最大50ユーザーにはRTX 3060 12GBまたはA4000 16GB最小。ECC GPUはエラー検出に推奨。ファームウェア/物理セキュリティはGPUメモリダンプを防止します。
中小企業のチームサーバーに推奨GPUは?
1~50従業員にはRTX 3060 12GBまたはA4000。50~200従業員にはRTX 4070 SuperまたはA6000。RTX 3060はLlama 3.3 13B Q4 + vLLMを3~5同時要求で実行可能。より大規模なチームはA100エンタープライズクラスタリングが必要。
RTX 3060と4060 Tiのパフォーマンス差は?
RTX 4060 Tiは約15~20%高速ですが、RTX 3060は4GB追加VRAMがあります。7Bモデルでは両方が快適な推論を提供します。バジェットで選択してください。
マイニングカードはローカルLLMで安全か?
リスクあり。VRAMは集約的な運用年後に劣化します。確約前に完全にその場でストレステストできる場合のみ購入してください。
関連資料
ソース
- TechPowerUp GPUデータベース:RTX 3060 / RTX 4060 Ti / RTX 4070 Super仕様と電力消費
- NVIDIA CUDA能力マトリックス:推論ワークロード用GPU メモリバンド幅と理論的スループット
- Ollama モデル要件:Llama 3.3 7B、Mistral 7B、Qwen量子化レベルVRAM推奨