Qwen3ローカルデプロイ完全ガイド（2026）：本番運用

最終更新: 2026-07-01··Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

**Qwen3のdenseモデルは0.6B・1.7B・4B・8B・14B・32Bで、7Bモデルは存在しません。最も近いのはQwen3-8B（qwen3:8bをpull）で、「Qwen3 7B」を探していた場合はこの8Bが該当します。Qwen3の最大denseモデルは32Bで、72Bクラスが必要な場合はQwen2.5-72Bを使用します。Qwen3 8BおよびQwen 14BはOllamaまたはvLLMを使ったDocker Compose APIサーバーで、コンシューマーGPU上で安定稼働します。Qwen 32BはRTX 4090 24GBが必要。Qwen2.5-72BはデュアルGPU・高RAMのCPU推論、またはクラウドが必要です。自己ホスティングのコストは1日あたり約6〜16円（ハードウェア償却込み）、RunPodのA100は約65円/時間です。**

このページには参考用の第三者製品へのリンクが含まれています。PromptQuorumはいかなるアフィリエイトプログラムにも参加しておらず、これらはコミッションを得ない単なる参照リンクです。リンクのクリックと次のステップはご自身の責任です。これらのリンクはPromptQuorumによる推奨や検証を表すものではありません。

重要なポイント

Qwen3 8Bと14BはコンシューマーGPU向け — それぞれ8GBと16GB VRAM、Docker上のOllamaで動作
Qwen3 32BはRTX 4090 24GBが必要 — ほとんどのチームにとって最大のシングルGPUデプロイ
Qwen2.5-72Bはデュアルカード、128GB+ DDR5のCPUビルド、またはクラウドが必要
Docker ComposeスタックはOllama + Open WebUI + Nginxで10分以内に起動
常時稼働サーバー：Minisforum UM890 Pro（約6万5千円）またはAOOSTAR GEM12 Pro OCuLink + RTX 4060 Ti（合計約12万円）
クラウド代替：RunPod A40 48GBで約65円/時間 — 単発のQwen2.5-72B用途ではデュアルRTX 4090購入より安価

📍 一文で説明

QwenモデルをOllamaバックエンドとDocker Composeスタックで本番デプロイし、OpenAI互換APIエンドポイントを公開します。

💬 簡潔に説明

Dockerを使えば、毎回手動でQwenを起動する代わりに、常時稼働するサーバーを設置できます。ChatGPT APIと同じように使えますが、自分のハードウェア上でトークン費用ゼロで動きます。

よくある質問

Qwen3 7Bモデルは存在しますか？

いいえ。Qwen3のdenseラインナップは0.6B・1.7B・4B・8B・14B・32Bで、7Bはありません。「Qwen3 7B」を探していた場合、最も近いモデルはQwen3-8B（ollama pull qwen3:8b）で、Q4_K_Mで約5〜6GBのVRAMに収まり、RTX 3060 12GBで約25 tok/sで動作します。72Bクラスが必要な場合はQwen2.5-72Bを使用してください。

Qwen2.5-72BをRTX 4090 1枚で動かせますか？

いいえ。Qwen2.5-72BはQ4_K_M量子化で43.5GB VRAMが必要です。RTX 4090は24GBのため不足します。デュアルRTX 4090（合計48GB）、A100 80GB、またはクラウドGPUレンタルが必要です。RTX 4090 1枚ではQwen3 32B（Q4_K_M、20.1GB）まで対応可能です。

OllamaとvLLMの違いは？

Ollamaはセットアップが簡単でマルチGPU分割を自動処理します。同時接続ユーザーが20人以下の個人・小規模チームに最適です。vLLMはテンソル並列処理と連続バッチ処理を使用し、高負荷時に2〜4倍効率的です。毎時100件以上のリクエストに対応する本番APIに最適です。

Alibaba CloudとRunPodはどちらが安い？

Alibaba Cloud PAIはGPUティアと地域によって1時間あたり約75〜300円。RunPod A40 48GBは約65円/時間。Alibaba Cloudは最適化されたQwen推論環境を提供しており、汎用Ollamaより20〜30%高速な場合があります。

常時稼働Qwenサーバーの消費電力は？

Minisforum UM890 ProでQwen3 8BをCPU推論する場合、アイドル時12W、最大45W。日本の電気代（約30円/kWh）で24時間稼働すると月約105〜325円。RTX 4060 Ti 16GBは最大165W — ミニPC込みで約190Wとなり、24時間稼働で月約1,370円程度です。

← ローカルLLM活用に戻る