Wichtigste Erkenntnisse
- Qwen3 7B und 14B laufen auf Consumer-GPUs — 8 GB bzw. 16 GB VRAM, via Ollama in Docker
- Qwen3 32B braucht eine RTX 4090 24 GB — das größte Single-GPU-Deployment für die meisten Teams
- Qwen3 72B: dual RTX 4090, CPU-Build mit 128+ GB DDR5 oder Cloud-Rental
- Docker-Compose-Stack mit Ollama + Open WebUI + Nginx ist in unter 10 Minuten einsatzbereit
- Always-On-Server: Minisforum UM890 Pro (ca. 400 Euro, Qwen3 7B auf CPU) oder AOOSTAR GEM12 Pro OCuLink + RTX 4060 Ti 16 GB (ca. 750 Euro gesamt)
- Cloud-Fallback: RunPod A40 48 GB für ~0,41 Euro/Stunde — günstiger als dual RTX 4090s bei gelegentlicher Nutzung
📍 In einem Satz
Qwen-Modelle lassen sich produktiv als Docker-Compose-Stack mit Ollama und Open WebUI betreiben, der eine OpenAI-kompatible API exponiert.
💬 In einfachen Worten
Statt Qwen jedes Mal manuell zu starten, richtet Docker einen dauerhaften Server ein, der immer läuft und Anfragen entgegennimmt — wie die ChatGPT-API, aber auf der eigenen Hardware ohne Kosten pro Token.
Qwen-Modell-Performance nach Hardware — Mai 2026
Hardware nach Modellgröße wählen, nicht nach GPU-Marke. VRAM ist die harte Grenze: Passt das Modell nicht, läuft es nicht mit GPU-Geschwindigkeit. Die Tabelle zeigt gemessene Inferenzgeschwindigkeiten bei Q4_K_M-Quantisierung.
| Modell | VRAM (Q4_K_M) | Min. GPU | Geschwindigkeit (tok/s) | CPU-Fallback | Produktionstauglich? |
|---|---|---|---|---|---|
| — | — | — | — | — | — |
| — | — | — | — | — | — |
| — | — | — | — | — | — |
| — | — | — | — | — | — |
Docker-API-Server-Setup — Ollama + Open WebUI + Nginx
Der schnellste Produktions-Qwen-Stack besteht aus drei Containern: Ollama (Inferenz), Open WebUI (UI) und Nginx (Reverse-Proxy + Auth). Werbung: Affiliate-Links zu Hardware und Cloud-Diensten in diesem Artikel können Provision generieren.
- 1Docker und Docker Compose installieren
Why it matters: Container halten Qwen vom Betriebssystem isoliert — keine Python-Konflikte, einfache Updates. - 2docker-compose.yml mit Ollama + Open WebUI erstellen
Why it matters: Die Compose-Datei verwaltet GPU-Passthrough, Port-Mapping und Neustart-Richtlinien an einem Ort. - 3OLLAMA_HOST=0.0.0.0 in der Container-Umgebung setzen
Why it matters: Ohne diese Einstellung lauscht Ollama nur auf localhost und akzeptiert keine API-Anfragen von außen. - 4Qwen-Modell laden: docker exec ollama ollama pull qwen3:7b
Why it matters: Modelle werden in einem Docker-Volume gespeichert und überleben Container-Neustarts. - 5Nginx als API-Gateway mit Basic-Auth für öffentliche Deployments hinzufügen
Why it matters: Ollama ohne Auth öffentlich exponieren erlaubt jedem, Inferenz auf Ihrer GPU auszuführen. - 6Container-Restart-Policy auf unless-stopped setzen
Why it matters: Stellt sicher, dass der Qwen-Server System-Neustarts überlebt — kritisch für Always-On-Miniserver.
Häufig gestellte Fragen
Kann ich Qwen3 72B auf einer einzelnen RTX 4090 betreiben?
Nein. Qwen3 72B benötigt bei Q4_K_M-Quantisierung 43,5 GB VRAM. Eine RTX 4090 hat 24 GB. Sie brauchen dual RTX 4090s (48 GB kombiniert), eine A100 80 GB oder Cloud-GPU-Rental. Eine einzelne RTX 4090 kann Qwen3 32B bei Q4_K_M (20,1 GB) mit Spielraum betreiben.
Was ist der Unterschied zwischen Ollama und vLLM für Qwen?
Ollama ist einfacher einzurichten und handhabt Multi-GPU-Splitting automatisch — am besten für persönliche Server und Teams mit unter 20 gleichzeitigen Nutzern. vLLM nutzt Tensor-Parallelismus und kontinuierliches Batching und ist 2–4× effizienter bei hoher Last — optimal für 100+ Anfragen pro Stunde.
Ist Alibaba Cloud günstiger als RunPod für Qwen-Inferenz?
Alibaba Cloud PAI kostet je nach GPU-Tier und Region 0,50–2,00 US-Dollar pro Stunde. RunPod A40 48 GB kostet 0,44 US-Dollar/Stunde. Alibaba Cloud bietet voreingerichtete Qwen-Inferenzumgebungen, die 20–30% schneller sein können als generisches Ollama — bei Nutzung des Alibaba-Cloud-Ökosystems empfehlenswert.
Wie viel Strom verbraucht ein Always-On-Qwen-Server?
Ein Minisforum UM890 Pro mit Qwen3 7B auf CPU verbraucht 12 W im Leerlauf und 45 W unter Last. Beim deutschen Durchschnittsstrompreis von 0,31 Euro/kWh kostet 24/7-Betrieb ca. 1,00–3,35 Euro/Monat. Eine RTX 4060 Ti 16 GB unter Last zieht 165 W — plus Mini-PC-Idle (~25 W) = ~190 W gesamt, ca. 13–14 Euro/Monat bei 24/7-Betrieb.