重要なポイント
- Qwen3 7Bと14BはコンシューマーGPU向け — それぞれ8GBと16GB VRAM、Docker上のOllamaで動作
- Qwen3 32BはRTX 4090 24GBが必要 — ほとんどのチームにとって最大のシングルGPUデプロイ
- Qwen3 72Bはデュアルカード、128GB+ DDR5のCPUビルド、またはクラウドが必要
- Docker ComposeスタックはOllama + Open WebUI + Nginxで10分以内に起動
- 常時稼働サーバー:Minisforum UM890 Pro(約6万5千円)またはAOOSTAR GEM12 Pro OCuLink + RTX 4060 Ti(合計約12万円)
- クラウド代替:RunPod A40 48GBで約65円/時間 — 単発のQwen3 72B用途ではデュアルRTX 4090購入より安価
📍 一文で説明
QwenモデルをOllamaバックエンドとDocker Composeスタックで本番デプロイし、OpenAI互換APIエンドポイントを公開します。
💬 簡潔に説明
Dockerを使えば、毎回手動でQwenを起動する代わりに、常時稼働するサーバーを設置できます。ChatGPT APIと同じように使えますが、自分のハードウェア上でトークン費用ゼロで動きます。
よくある質問
Qwen3 72BをRTX 4090 1枚で動かせますか?
いいえ。Qwen3 72BはQ4_K_M量子化で43.5GB VRAMが必要です。RTX 4090は24GBのため不足します。デュアルRTX 4090(合計48GB)、A100 80GB、またはクラウドGPUレンタルが必要です。RTX 4090 1枚ではQwen3 32B(Q4_K_M、20.1GB)まで対応可能です。
OllamaとvLLMの違いは?
Ollamaはセットアップが簡単でマルチGPU分割を自動処理します。同時接続ユーザーが20人以下の個人・小規模チームに最適です。vLLMはテンソル並列処理と連続バッチ処理を使用し、高負荷時に2〜4倍効率的です。毎時100件以上のリクエストに対応する本番APIに最適です。
Alibaba CloudとRunPodはどちらが安い?
Alibaba Cloud PAIはGPUティアと地域によって1時間あたり約75〜300円。RunPod A40 48GBは約65円/時間。Alibaba Cloudは最適化されたQwen推論環境を提供しており、汎用Ollamaより20〜30%高速な場合があります。
常時稼働Qwenサーバーの消費電力は?
Minisforum UM890 ProでQwen3 7BをCPU推論する場合、アイドル時12W、最大45W。日本の電気代(約30円/kWh)で24時間稼働すると月約105〜325円。RTX 4060 Ti 16GBは最大165W — ミニPC込みで約190Wとなり、24時間稼働で月約1,370円程度です。