Skip to main content
PromptQuorumPromptQuorum
ホーム/Power Local LLM/Qwenローカルデプロイ完全ガイド2026:Docker・APIサーバー・マルチGPU
Overview & Reference

Qwenローカルデプロイ完全ガイド2026:Docker・APIサーバー・マルチGPU

··Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

Qwen 7BおよびQwen 14BはOllamaまたはvLLMを使ったDocker Compose APIサーバーで、コンシューマーGPU上で安定稼働します。Qwen 32BはRTX 4090 24GBが必要。Qwen 72BはデュアルGPU・高RAMのCPU推論、またはクラウドが必要です。自己ホスティングのコストは1日あたり約6〜16円(ハードウェア償却込み)、RunPodのA100は約65円/時間です。

このページには参考用の第三者製品へのリンクが含まれています。PromptQuorumはいかなるアフィリエイトプログラムにも参加しておらず、これらはコミッションを得ない単なる参照リンクです。

重要なポイント

  • Qwen3 7Bと14BはコンシューマーGPU向け — それぞれ8GBと16GB VRAM、Docker上のOllamaで動作
  • Qwen3 32BはRTX 4090 24GBが必要 — ほとんどのチームにとって最大のシングルGPUデプロイ
  • Qwen3 72Bはデュアルカード、128GB+ DDR5のCPUビルド、またはクラウドが必要
  • Docker ComposeスタックはOllama + Open WebUI + Nginxで10分以内に起動
  • 常時稼働サーバー:Minisforum UM890 Pro(約6万5千円)またはAOOSTAR GEM12 Pro OCuLink + RTX 4060 Ti(合計約12万円)
  • クラウド代替:RunPod A40 48GBで約65円/時間 — 単発のQwen3 72B用途ではデュアルRTX 4090購入より安価

📍 一文で説明

QwenモデルをOllamaバックエンドとDocker Composeスタックで本番デプロイし、OpenAI互換APIエンドポイントを公開します。

💬 簡潔に説明

Dockerを使えば、毎回手動でQwenを起動する代わりに、常時稼働するサーバーを設置できます。ChatGPT APIと同じように使えますが、自分のハードウェア上でトークン費用ゼロで動きます。

よくある質問

Qwen3 72BをRTX 4090 1枚で動かせますか?

いいえ。Qwen3 72BはQ4_K_M量子化で43.5GB VRAMが必要です。RTX 4090は24GBのため不足します。デュアルRTX 4090(合計48GB)、A100 80GB、またはクラウドGPUレンタルが必要です。RTX 4090 1枚ではQwen3 32B(Q4_K_M、20.1GB)まで対応可能です。

OllamaとvLLMの違いは?

Ollamaはセットアップが簡単でマルチGPU分割を自動処理します。同時接続ユーザーが20人以下の個人・小規模チームに最適です。vLLMはテンソル並列処理と連続バッチ処理を使用し、高負荷時に2〜4倍効率的です。毎時100件以上のリクエストに対応する本番APIに最適です。

Alibaba CloudとRunPodはどちらが安い?

Alibaba Cloud PAIはGPUティアと地域によって1時間あたり約75〜300円。RunPod A40 48GBは約65円/時間。Alibaba Cloudは最適化されたQwen推論環境を提供しており、汎用Ollamaより20〜30%高速な場合があります。

常時稼働Qwenサーバーの消費電力は?

Minisforum UM890 ProでQwen3 7BをCPU推論する場合、アイドル時12W、最大45W。日本の電気代(約30円/kWh)で24時間稼働すると月約105〜325円。RTX 4060 Ti 16GBは最大165W — ミニPC込みで約190Wとなり、24時間稼働で月約1,370円程度です。

← Power Local LLM に戻る

Qwen本番デプロイガイド2026:Docker Compose・APIサーバー・マルチGPU設定