Qwen3本地部署完整指南（2026）：生产环境

最后更新: 2026-07-01··Hans Kuepper 作者 · PromptQuorum创始人，多模型AI调度工具 · PromptQuorum

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

**Qwen3的dense系列为0.6B、1.7B、4B、8B、14B和32B——没有7B型号。最接近的是Qwen3-8B（拉取qwen3:8b）；如果你搜索的是"Qwen3 7B"，你要的其实是8B。Qwen3最大的dense型号是32B；如需72B级别的模型，请使用Qwen2.5-72B。Qwen3 8B和14B可通过Ollama或vLLM在消费级GPU上稳定运行Docker Compose API服务器。Qwen 32B需要RTX 4090 24GB。Qwen2.5-72B需要双GPU、128GB+ RAM的CPU推理或云端备选——自托管成本约为每天0.3至0.8元人民币（含硬件摊销），RunPod A100约为11元人民币/小时。**

本页包含指向第三方产品的参考链接。PromptQuorum 未加入任何联盟计划——这些是不产生佣金的普通链接。点击链接和后续步骤由您自行承担责任。这些链接不代表 PromptQuorum 的任何认可或验证。

关键要点

Qwen3 8B和14B适合消费级GPU——分别需要8GB和16GB显存，通过Docker中的Ollama运行
Qwen3 32B需要RTX 4090 24GB——是大多数团队最大的单GPU生产部署
Qwen2.5-72B需要双GPU、128GB+ DDR5 CPU构建或云端租用
Docker Compose堆栈（Ollama + Open WebUI + Nginx）10分钟内即可部署
全天候服务器：Minisforum UM890 Pro（约3000元，CPU运行Qwen3 8B）或AOOSTAR GEM12 Pro OCuLink + RTX 4060 Ti（总计约5500元）
云端备选：RunPod A40 48GB约3元/小时——偶尔使用Qwen2.5-72B比购买双RTX 4090更划算
本指南涵盖生产环境部署；基础Ollama配置请参见Qwen入门指南

📍 简单一句话

使用以Ollama为推理后端的Docker Compose堆栈在生产环境中部署Qwen模型，并暴露OpenAI兼容的API端点。

💬 简单来说

与其每次手动启动Qwen，不如用Docker搭建一个持续运行的服务器——就像使用ChatGPT API一样，但在自己的硬件上，无需按token付费。

Qwen模型性能对比（按硬件分类）—— 2026年5月

根据模型大小选择硬件，而非GPU品牌。 显存是硬性约束：模型放不进去就无法以GPU速度运行。下表展示Q4_K_M量化（Ollama部署的最佳质量-体积比）的实测推理速度。

模型	显存（Q4_K_M）	最低GPU	速度（tok/s）	CPU备选	是否适合生产？
Qwen3 8B	5.2 GB	RTX 3060 12GB	22–28 tok/s	是（32GB RAM，约4 tok/s）	是——单GPU
Qwen3 14B	9.4 GB	RTX 4060 Ti 16GB	15–20 tok/s	是（64GB RAM，约2.5 tok/s）	是——单GPU
Qwen3 32B	20.1 GB	RTX 4090 24GB	10–14 tok/s	勉强（128GB RAM）	是——单GPU
Qwen2.5-72B	43.5 GB	双RTX 4090（合计48GB）	5–8 tok/s	慢（128GB RAM）	仅多GPU或云端

常见问题

有Qwen3 7B型号吗？

没有。Qwen3的dense系列为0.6B、1.7B、4B、8B、14B和32B——没有7B。如果你搜索的是"Qwen3 7B"，最接近的型号是Qwen3-8B（ollama pull qwen3:8b），在Q4_K_M下约占用5–6GB显存，在RTX 3060 12GB上约为25 tok/s。如需72B级别的模型，请使用Qwen2.5-72B。

能用单张RTX 4090运行Qwen2.5-72B吗？

不能。Qwen2.5-72B在Q4_K_M量化下需要43.5GB显存。RTX 4090只有24GB。您需要双RTX 4090（合计48GB）、A100 80GB或云端GPU租用。单张RTX 4090可以运行Q4_K_M量化的Qwen3 32B（20.1GB）。

生产环境中Ollama和vLLM有什么区别？

Ollama配置更简单，自动处理多GPU分配——适合个人服务器和20人以下并发的团队。vLLM使用张量并行和连续批处理，在高负载下效率高2-4倍——适合每小时100+请求的生产API。

阿里云和RunPod哪个更便宜？

阿里云PAI根据GPU类型和地区收费每小时约3.5-14元人民币。RunPod A40 48GB约3元/小时。阿里云提供预配置的Qwen推理环境，比通用Ollama快20-30%——如果已在阿里云生态系统中，值得考虑。

全天候Qwen服务器消耗多少电力？

Minisforum UM890 Pro运行Qwen3 8B CPU推理，空闲时耗电12W，满载45W。按中国平均电价（约0.6元/度），24小时运行每月电费约5-20元。RTX 4060 Ti 16GB满载165W——加上迷你PC（约25W）共190W，24小时运行每月约82元。

自托管的Qwen API能与ChatGPT兼容应用程序配合使用吗？

可以。Ollama在http://您的服务器:11434/v1暴露OpenAI兼容API。在应用中设置OPENAI_API_BASE=http://您的服务器:11434/v1，OPENAI_API_KEY=任意字符串即可。Continue.dev、LangChain、AutoGen等工具无需修改即可使用。

← 返回本地LLM进阶