Qwen3 Lokales Deployment: Vollständiger Produktionsleitfaden (2026)

Aktualisiert: 2026-07-01··Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

**Die Qwen3-Dense-Größen sind 0,6B, 1,7B, 4B, 8B, 14B und 32B — es gibt kein 7B-Modell. Am nächsten kommt Qwen3-8B (Pull qwen3:8b); wer nach "Qwen3 7B" gesucht hat, meint das 8B. Das größte Qwen3-Dense-Modell ist 32B; für ein 72B-Klasse-Modell nimm Qwen2.5-72B. Qwen3 8B und 14B laufen zuverlässig auf Consumer-GPUs via Ollama oder vLLM in einem Docker-Compose-API-Server. Qwen 32B benötigt eine RTX 4090 24 GB. Qwen2.5-72B braucht dual GPUs, CPU-Inferenz mit 128+ GB RAM oder Cloud-Fallback — Self-Hosting kostet 0,04–0,11 Euro/Tag (amortisiert), RunPod A100 kostet ~1,50 Euro/Stunde.**

Diese Seite enthält Verweislinks zu Produkten von Drittanbietern. PromptQuorum ist an keinem Partnerprogramm beteiligt — es sind reine Referenzlinks, die keine Provision erzielen. Das Anklicken von Links und Ihre nächsten Schritte liegen in Ihrer eigenen Verantwortung. Diese Links stellen keine Billigung oder Verifizierung durch PromptQuorum dar.

Wichtigste Erkenntnisse

Qwen3 8B und 14B laufen auf Consumer-GPUs — 8 GB bzw. 16 GB VRAM, via Ollama in Docker
Qwen3 32B braucht eine RTX 4090 24 GB — das größte Single-GPU-Deployment für die meisten Teams
Qwen2.5-72B: dual RTX 4090, CPU-Build mit 128+ GB DDR5 oder Cloud-Rental
Docker-Compose-Stack mit Ollama + Open WebUI + Nginx ist in unter 10 Minuten einsatzbereit
Always-On-Server: Minisforum UM890 Pro (ca. 400 Euro, Qwen3 8B auf CPU) oder AOOSTAR GEM12 Pro OCuLink + RTX 4060 Ti 16 GB (ca. 750 Euro gesamt)
Cloud-Fallback: RunPod A40 48 GB für ~0,41 Euro/Stunde — günstiger als dual RTX 4090s bei gelegentlicher Nutzung

📍 In einem Satz

Qwen-Modelle lassen sich produktiv als Docker-Compose-Stack mit Ollama und Open WebUI betreiben, der eine OpenAI-kompatible API exponiert.

💬 In einfachen Worten

Statt Qwen jedes Mal manuell zu starten, richtet Docker einen dauerhaften Server ein, der immer läuft und Anfragen entgegennimmt — wie die ChatGPT-API, aber auf der eigenen Hardware ohne Kosten pro Token.

Qwen-Modell-Performance nach Hardware — Mai 2026

Hardware nach Modellgröße wählen, nicht nach GPU-Marke. VRAM ist die harte Grenze: Passt das Modell nicht, läuft es nicht mit GPU-Geschwindigkeit. Die Tabelle zeigt gemessene Inferenzgeschwindigkeiten bei Q4_K_M-Quantisierung.

Modell	VRAM (Q4_K_M)	Min. GPU	Geschwindigkeit (tok/s)	CPU-Fallback	Produktionstauglich?
Qwen3 8B	5,2 GB	RTX 3060 12 GB	22–28 tok/s	Ja (32 GB RAM, ~4 tok/s)	Ja — Single GPU
Qwen3 14B	9,4 GB	RTX 4060 Ti 16 GB	15–20 tok/s	Ja (64 GB RAM, ~2,5 tok/s)	Ja — Single GPU
Qwen3 32B	20,1 GB	RTX 4090 24 GB	10–14 tok/s	Grenzwertig (128 GB RAM)	Ja — Single GPU
Qwen2.5-72B	43,5 GB	Dual RTX 4090 (48 GB)	5–8 tok/s	Langsam (128 GB RAM)	Nur Multi-GPU oder Cloud

Docker-API-Server-Setup — Ollama + Open WebUI + Nginx

Der schnellste Produktions-Qwen-Stack besteht aus drei Containern: Ollama (Inferenz), Open WebUI (UI) und Nginx (Reverse-Proxy + Auth). Werbung: Affiliate-Links zu Hardware und Cloud-Diensten in diesem Artikel können Provision generieren.

1
Docker und Docker Compose installieren
Why it matters: Container halten Qwen vom Betriebssystem isoliert — keine Python-Konflikte, einfache Updates.
2
docker-compose.yml mit Ollama + Open WebUI erstellen
Why it matters: Die Compose-Datei verwaltet GPU-Passthrough, Port-Mapping und Neustart-Richtlinien an einem Ort.
3
OLLAMA_HOST=0.0.0.0 in der Container-Umgebung setzen
Why it matters: Ohne diese Einstellung lauscht Ollama nur auf localhost und akzeptiert keine API-Anfragen von außen.
4
Qwen-Modell laden: docker exec ollama ollama pull qwen3:8b
Why it matters: Modelle werden in einem Docker-Volume gespeichert und überleben Container-Neustarts.
5
Nginx als API-Gateway mit Basic-Auth für öffentliche Deployments hinzufügen
Why it matters: Ollama ohne Auth öffentlich exponieren erlaubt jedem, Inferenz auf Ihrer GPU auszuführen.
6
Container-Restart-Policy auf unless-stopped setzen
Why it matters: Stellt sicher, dass der Qwen-Server System-Neustarts überlebt — kritisch für Always-On-Miniserver.

Häufig gestellte Fragen

Gibt es ein Qwen3 7B Modell?

Nein. Die Qwen3-Dense-Reihe umfasst 0,6B, 1,7B, 4B, 8B, 14B und 32B — es gibt kein 7B. Wer nach "Qwen3 7B" gesucht hat, findet als nächstliegendes Modell Qwen3-8B (ollama pull qwen3:8b), das bei Q4_K_M ~5–6 GB VRAM belegt und auf einer RTX 3060 12 GB rund 25 tok/s erreicht. Für ein 72B-Klasse-Modell nutzen Sie Qwen2.5-72B.

Kann ich Qwen2.5-72B auf einer einzelnen RTX 4090 betreiben?

Nein. Qwen2.5-72B benötigt bei Q4_K_M-Quantisierung 43,5 GB VRAM. Eine RTX 4090 hat 24 GB. Sie brauchen dual RTX 4090s (48 GB kombiniert), eine A100 80 GB oder Cloud-GPU-Rental. Eine einzelne RTX 4090 kann Qwen3 32B bei Q4_K_M (20,1 GB) mit Spielraum betreiben.

Was ist der Unterschied zwischen Ollama und vLLM für Qwen?

Ollama ist einfacher einzurichten und handhabt Multi-GPU-Splitting automatisch — am besten für persönliche Server und Teams mit unter 20 gleichzeitigen Nutzern. vLLM nutzt Tensor-Parallelismus und kontinuierliches Batching und ist 2–4× effizienter bei hoher Last — optimal für 100+ Anfragen pro Stunde.

Ist Alibaba Cloud günstiger als RunPod für Qwen-Inferenz?

Alibaba Cloud PAI kostet je nach GPU-Tier und Region 0,50–2,00 US-Dollar pro Stunde. RunPod A40 48 GB kostet 0,44 US-Dollar/Stunde. Alibaba Cloud bietet voreingerichtete Qwen-Inferenzumgebungen, die 20–30% schneller sein können als generisches Ollama — bei Nutzung des Alibaba-Cloud-Ökosystems empfehlenswert.

Wie viel Strom verbraucht ein Always-On-Qwen-Server?

Ein Minisforum UM890 Pro mit Qwen3 8B auf CPU verbraucht 12 W im Leerlauf und 45 W unter Last. Beim deutschen Durchschnittsstrompreis von 0,31 Euro/kWh kostet 24/7-Betrieb ca. 1,00–3,35 Euro/Monat. Eine RTX 4060 Ti 16 GB unter Last zieht 165 W — plus Mini-PC-Idle (~25 W) = ~190 W gesamt, ca. 13–14 Euro/Monat bei 24/7-Betrieb.

← Zurück zu Lokale LLMs Pro