Skip to main content
PromptQuorumPromptQuorum
ホーム/ローカルLLM/ローカルLLM向けの最高のバジェットGPU
GPU Buying Guides

ローカルLLM向けの最高のバジェットGPU

·7分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

RTX 3060 12GBはQwen3 14Bを9–12トークン/秒、Qwen3 8Bを16–20トークン/秒、Gemma 4 E12Bを11–14トークン/秒、Mistral Smallを18トークン/秒、DeepSeek-R1 7Bを10–12トークン/秒で実行します — すべてQ4量子化。 6GB版は3Bモデルのみ対応。2026年6月時点、RTX 3060 12GB(中古$200–250)はローカルLLM用の最良バジェットGPUです。12GB VRAMはすべての7B-8BモデルをQ4/Q5で、ほとんどの稠密13B-14BモデルをQ4で実行できます。(注:Llama 4 Scoutは17Bアクティブ/109B合計のMoEで、Q4で~55GB必要なため、通常12GBには収まりません。)

重要なポイント

  • RTX 3060 12GB(中古$200–250):すべての7B-8BモデルをQ4/Q5で、ほとんどの稠密13B-14BをQ4で実行。最良のバジェット選択。
  • RTX 3060 6GB:3Bモデルのみ(Phi-4 Mini、Llama 3.2 3B)。7Bには不足。
  • 12GBでの最良総合モデル: Qwen3 14B、~9GB VRAM、9–12トークン/秒。快適に収まる最良の稠密品質。
  • 12GBでの最良コーディングモデル: Qwen3 8B、16–20トークン/秒。
  • 12GBでの最良推論モデル: DeepSeek-R1 7B、10–12トークン/秒。
  • 対象外: 70Bモデル、Llama 4 Scout(~55GB必要)、13B Q8が必要な場合は24GB以上(RTX 4090)が必要。

RTX 3060 12GBで何が動く?

RTX 3060 12GBは2026年のローカルLLM用最良バジェットGPUです。 12GB VRAMはQ4/Q5のすべての7Bモデルと、Q4のほとんどの13Bモデルに対応。モデルサイズ別のVRAM要件について詳しくは、VRAM要件ガイド →をご参照ください。期待できる正確なモデルと速度は次の通りです:

モデルサイズ量子化VRAM使用速度最適用途
Qwen3 14B14B(稠密)Q4_K_M~9 GB9–12トークン/秒収まる範囲で最良総合品質
Qwen3 8B8BQ4_K_M~7 GB16–20トークン/秒コーディング、万能
Gemma 4 E12B26B MoEQ4_K_M~9 GB11–14トークン/秒ビジョン、マルチモーダル
Mistral Small v0.37BQ4_K_M~7 GB18トークン/秒指示従行
DeepSeek-R1 7B7BQ4_K_M~7 GB10–12トークン/秒推論、数学
Gemma 4 E4BE4B(マルチモーダル)Q4_K_M~5 GB18–22トークン/秒軽量ビジョン、高速チャット
Llama 3.2 13B13BQ4_K_M~11 GB8–10トークン/秒高品質チャット(Q4のみ)

Qwen3 14B(稠密)はQ4_K_MでRTX 3060 12GBに快適に収まる最高品質のモデルで、~9 GBを使用します。`ollama pull qwen3:14b`。注:Llama 4 Scout(17Bアクティブ/109B合計のMoE、10Mトークンコンテキスト、マルチモーダル)はQ4で~55GB必要で、通常12GBには収まりません — 大容量VRAM環境向けの長コンテキスト/大規模マルチモーダル用途であり、バジェットGPUの推奨ではありません。gpt-oss:20b(21B合計/3.6BアクティブMoE)は16GB必要なため、12GBカードでは僅かに手が届きません。すべての速度はOllama、RTX 3060 12GB、16GBシステムRAM、Ryzen 7 7700Xで計測。Q4_K_M量子化。速度は±15%変動。

RTX 3060 6GBで何が動く?

6GB版は大幅に制限されています。 3Bモデルのみ快適に動作。7BモデルのQ4は~7GB必要で、容量不足です。

  • Phi-4 Mini 3.8B(Q4): ~3GB VRAM、20–25トークン/秒。このサイズでの最良推論。
  • Llama 3.2 3B(Q4): ~2.5GB VRAM、25–35トークン/秒。最速オプション。
  • Gemma 2 2B(Q4): ~1.7GB VRAM、35–45トークン/秒。最軽量モデル。
  • 7Bオフローディング: 可能だが遅い。Llama 7BのCPUオフロード = ~5–8トークン/秒。
  • 推奨: 6GBカードをお持ちなら、12GB中古($200–250)にアップグレードを。

RTX 3060 vs 他のバジェットGPU

GPUVRAM価格(中古)7B速度最大モデル評価
RTX 3060 12GB ★12 GB¥30,000–38,00015–20トークン/秒13B(Q4)最良バジェット
RTX 4060 Ti 8GB8 GB¥38,000–45,00020–25トークン/秒7B(Q5最大)高速だがVRAM少
RTX A400016 GB¥27,000–35,00012–15トークン/秒13B(Q5)VRAM/円最良
RTX 4070 Super12 GB¥60,000–68,00025–30トークン/秒13B(Q5)高速だが2倍の価格
RX 6700 XT12 GB¥23,000–30,00010–14トークン/秒13B(Q4)最安、AMDの手間

RTX 3060 12GBが価格性能比で勝利:¥30,000–38,000の12GB VRAMですべての7Bとほとんどの13Bを実行。

7Bモデルに必要なVRAMは?

Q4(4ビット)で量子化された7Bモデルは6~8GB VRAMを必要とし、Q5(5ビット)は8~10GB、Q8(8ビット)は14~16GBを必要とします。

実際には:8GBは最低限で、Q4で7Bモデルでの快適な推論とバッチ処理用のスペースがあります。

6GBカード(RTX 2060)は技術的に機能しますがアグレッシブな最適化が必要で、より高いバッチに余裕がありません。

GPUコストは経済性の一面であり、トークンコストはもう一面です。ローカル推論はAPIのトークン課金を排除しますが、プロンプト長は依然としてレイテンシとスループットに影響します。トークン、価格体系、最適化戦略を含むコスト全体像については、トークン、コスト、制限:AIプロンプティングの経済学をご覧ください。

RTX 3060でのユースケース別最適モデル

パラメータ数ではなく、実際のニーズに基づいてモデルを選択してください:

バジェットハードウェアは小さなモデルを実行しますが、巧みなプロンプティングが品質差を縮めます。プロンプトエンジニアリングガイドでは、Chain-of-Thoughtや構造化出力など、小さなモデルの実力を引き出すテクニックを解説しています。RTX 3060 12 GB の VRAM に収まる具体的なワークロードのひとつが、プルリクエストの自動レビューです。まさに同じハードウェア上で Qwen3 8B を PR にぶつける GitHub Actions のパターンは、CI/CD でのローカル LLM コードレビューで解説しています。

  • チャット / Q&A: `ollama run qwen3:14b` — 稠密14B、~9GB VRAM、12GBで最良品質。軽量オプションは `ollama run qwen3:8b`(~7GB)。
  • コーディング: `ollama run qwen3:8b` — 万能で強力なコーディング。~7GB VRAM。16–20トークン/秒。
  • 推論 / 数学: `ollama run deepseek-r1:7b` — Chain-of-Thought。10–12トークン/秒。
  • ライティング / クリエイティブ: `ollama run mistral:7b` — 最良の指示従行。18トークン/秒。
  • ビジョン / 画像: `ollama run gemma4:e12b` — マルチモーダル。11–14トークン/秒。~9GB VRAM。軽量な選択肢は `ollama run gemma4:e4b`(~5GB)。
  • プライバシー / オフライン: 上記すべて。100%ローカル。データは外部送信されません。
  • ホームオートメーション / 常時稼働AI: `ollama run phi4-mini` — Phi-4 Mini(3.8B、~3 GB VRAM)は専用GPUなしのミニPCでHome Assistantの音声クエリを処理します。ローカルスマートホームAIの最適ハードウェア →をご覧ください。

中古 vs 新品:どこで買う?

  • 中古(50~100ドル安い):eBay、Facebook Marketplace、Craigslist、地元のコンピュータ修理店。死んだカードまたは不良VRAMのリスクが高い。確約する前に常にテストしてください。
  • 新品(280~400ドル):Newegg、Amazon、Best Buy、Microcenter。保証付き。驚きなし。価格安定。リスク回避買い手に最適。
  • マイニングカード(暗号、超安い):極端なリスク。VRAM劣化は一般的。その場で完全にベンチテストできる場合のみ購入してください。

よくあるバジェットGPUの間違い

  • 4GB RTX 2060を購入してスムーズな7B推論を期待する。常にメモリ不足エラーが発生します。
  • 250ドルのGPUを30ドルのPSU(電源)と組み合わせます。電圧サグは安定性を殺します。80+ Gold認定、650W最小をバジェット化してください。
  • DDR5 RAMとi9 CPUがLLM推論を高速化すると想定する。それらは高速化しません。GPU VRAMバンド幅は推論速度に影響する唯一のボトルネックです。

次のステップ

よくある質問

RTX 3060 12GBは2026年でもまだ価値があるか?

はい。4年以上前ですが12GB VRAMは時代遅れではありません。Llama 3.3 8Bとよりすぐに実行します。中古で250ドル未満で見つけたら最適。

ローカルLLM用にRTX 4060またはRTX 4060 Tiを購入すべきか?

RTX 4060 Ti。ベース4060(8GB)と4070(12GB)は悪い価値です。TiはLLM作業に最適な価格のRTX 40シリーズカードです。

AMD RX 6700または6800 XTを代わりに使用できるか?

はい、ただしAMD上のONNX RuntimeのドライバサポートはNVIDIA + CUDAより弱い。セットアップの摩擦を増します。RTXはバジェットにより安全です。

12GB VRAM 13Bモデルに十分か?

かろうじて、Q4量子化で。Q5またはQ8はOOMエラーを起こします。13Bの快適さが必要な場合は16GBを目指してください。

RTX A4000などの中古企業GPUを購入すべきか?

はい、利用可能な場合。16GB VRAM、プロフェッショナルグレード冷却、通常180~230ドルで中古。RTX 3060より若干遅いですがVRAMクッションの価値があります。

250ドルGPUで購入するPSU電力はいくらか?

650W、80+ Gold最小。250ドルGPU + CPU + マザーボード400W以下ですがスパイク用に余裕が必要。

200ドルのバジェットGPUでOllamaを実行できるか?

はい。Ollamaは軽量です。4年前のRTX 3060にOllamaはMistral Smallを10~15トークン/秒で実行します。完全に使用可能。

エンタープライズでのGDPR準拠ローカル推論に推奨GPUは?

Llama 3.3 13B Q4で最大50ユーザーにはRTX 3060 12GBまたはA4000 16GB最小。ECC GPUはエラー検出に推奨。ファームウェア/物理セキュリティはGPUメモリダンプを防止します。

中小企業のチームサーバーに推奨GPUは?

1~50従業員にはRTX 3060 12GBまたはA4000。50~200従業員にはRTX 4070 SuperまたはA6000。RTX 3060はLlama 3.3 13B Q4 + vLLMを3~5同時要求で実行可能。より大規模なチームはA100エンタープライズクラスタリングが必要。

RTX 3060と4060 Tiのパフォーマンス差は?

RTX 4060 Tiは約15~20%高速ですが、RTX 3060は4GB追加VRAMがあります。7Bモデルでは両方が快適な推論を提供します。バジェットで選択してください。

マイニングカードはローカルLLMで安全か?

リスクあり。VRAMは集約的な運用年後に劣化します。確約前に完全にその場でストレステストできる場合のみ購入してください。

関連資料

ソース

  • TechPowerUp GPUデータベース:RTX 3060 / RTX 4060 Ti / RTX 4070 Super仕様と電力消費
  • NVIDIA CUDA能力マトリックス:推論ワークロード用GPU メモリバンド幅と理論的スループット
  • Ollama モデル要件:Llama 3.3 7B、Mistral Small、Qwen量子化レベルVRAM推奨

GPUは決まりましたか?次はモデルを動かすための最適なソフトウェアを選びましょう。

ローカルLLMベストフロントエンド2026 →

サードパーティの情報に関する注意

この記事はサードパーティのAIモデル、ベンチマーク、価格、ライセンスを参照しています。AIの状況は急速に変化しています。ベンチマークスコア、ライセンス条件、モデル名、API価格は執筆時とお読みになる時の間で変わる可能性があります。この記事に基づいてデプロイやコンプライアンスに関する決定を下す前に、各プロバイダーの公式ソース(ライセンスとベンチマークはHugging Faceのモデルカード、API価格はプロバイダーのウェブサイト、現在のGDPRとEU AI法のテキストはEUR-Lex)で最新の数値を確認してください。この記事は2026年5月時点で公開されている情報を反映しています。

ローカルLLM、独自のAPIキー、またはその両方でPromptQuorumを使用できます — バックエンドはあなたが選択します。

PromptQuorumウェイトリストに参加する →

← ローカルLLMに戻る