Skip to main content
PromptQuorumPromptQuorum
Startseite/Power Local LLM/Qwen Lokales Deployment: Vollständiger Produktionsleitfaden 2026
Overview & Reference

Qwen Lokales Deployment: Vollständiger Produktionsleitfaden 2026

··Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Qwen 7B und 14B laufen zuverlässig auf Consumer-GPUs via Ollama oder vLLM in einem Docker-Compose-API-Server. Qwen 32B benötigt eine RTX 4090 24 GB. Qwen 72B braucht dual GPUs, CPU-Inferenz mit 128+ GB RAM oder Cloud-Fallback — Self-Hosting kostet 0,04–0,11 Euro/Tag (amortisiert), RunPod A100 kostet ~1,50 Euro/Stunde.

Diese Seite enthält Verweislinks zu Produkten von Drittanbietern. PromptQuorum ist an keinem Partnerprogramm beteiligt — es sind reine Referenzlinks, die keine Provision erzielen.

Wichtigste Erkenntnisse

  • Qwen3 7B und 14B laufen auf Consumer-GPUs — 8 GB bzw. 16 GB VRAM, via Ollama in Docker
  • Qwen3 32B braucht eine RTX 4090 24 GB — das größte Single-GPU-Deployment für die meisten Teams
  • Qwen3 72B: dual RTX 4090, CPU-Build mit 128+ GB DDR5 oder Cloud-Rental
  • Docker-Compose-Stack mit Ollama + Open WebUI + Nginx ist in unter 10 Minuten einsatzbereit
  • Always-On-Server: Minisforum UM890 Pro (ca. 400 Euro, Qwen3 7B auf CPU) oder AOOSTAR GEM12 Pro OCuLink + RTX 4060 Ti 16 GB (ca. 750 Euro gesamt)
  • Cloud-Fallback: RunPod A40 48 GB für ~0,41 Euro/Stunde — günstiger als dual RTX 4090s bei gelegentlicher Nutzung

📍 In einem Satz

Qwen-Modelle lassen sich produktiv als Docker-Compose-Stack mit Ollama und Open WebUI betreiben, der eine OpenAI-kompatible API exponiert.

💬 In einfachen Worten

Statt Qwen jedes Mal manuell zu starten, richtet Docker einen dauerhaften Server ein, der immer läuft und Anfragen entgegennimmt — wie die ChatGPT-API, aber auf der eigenen Hardware ohne Kosten pro Token.

Qwen-Modell-Performance nach Hardware — Mai 2026

Hardware nach Modellgröße wählen, nicht nach GPU-Marke. VRAM ist die harte Grenze: Passt das Modell nicht, läuft es nicht mit GPU-Geschwindigkeit. Die Tabelle zeigt gemessene Inferenzgeschwindigkeiten bei Q4_K_M-Quantisierung.

ModellVRAM (Q4_K_M)Min. GPUGeschwindigkeit (tok/s)CPU-FallbackProduktionstauglich?

Docker-API-Server-Setup — Ollama + Open WebUI + Nginx

Der schnellste Produktions-Qwen-Stack besteht aus drei Containern: Ollama (Inferenz), Open WebUI (UI) und Nginx (Reverse-Proxy + Auth). Werbung: Affiliate-Links zu Hardware und Cloud-Diensten in diesem Artikel können Provision generieren.

  1. 1
    Docker und Docker Compose installieren
    Why it matters: Container halten Qwen vom Betriebssystem isoliert — keine Python-Konflikte, einfache Updates.
  2. 2
    docker-compose.yml mit Ollama + Open WebUI erstellen
    Why it matters: Die Compose-Datei verwaltet GPU-Passthrough, Port-Mapping und Neustart-Richtlinien an einem Ort.
  3. 3
    OLLAMA_HOST=0.0.0.0 in der Container-Umgebung setzen
    Why it matters: Ohne diese Einstellung lauscht Ollama nur auf localhost und akzeptiert keine API-Anfragen von außen.
  4. 4
    Qwen-Modell laden: docker exec ollama ollama pull qwen3:7b
    Why it matters: Modelle werden in einem Docker-Volume gespeichert und überleben Container-Neustarts.
  5. 5
    Nginx als API-Gateway mit Basic-Auth für öffentliche Deployments hinzufügen
    Why it matters: Ollama ohne Auth öffentlich exponieren erlaubt jedem, Inferenz auf Ihrer GPU auszuführen.
  6. 6
    Container-Restart-Policy auf unless-stopped setzen
    Why it matters: Stellt sicher, dass der Qwen-Server System-Neustarts überlebt — kritisch für Always-On-Miniserver.

Häufig gestellte Fragen

Kann ich Qwen3 72B auf einer einzelnen RTX 4090 betreiben?

Nein. Qwen3 72B benötigt bei Q4_K_M-Quantisierung 43,5 GB VRAM. Eine RTX 4090 hat 24 GB. Sie brauchen dual RTX 4090s (48 GB kombiniert), eine A100 80 GB oder Cloud-GPU-Rental. Eine einzelne RTX 4090 kann Qwen3 32B bei Q4_K_M (20,1 GB) mit Spielraum betreiben.

Was ist der Unterschied zwischen Ollama und vLLM für Qwen?

Ollama ist einfacher einzurichten und handhabt Multi-GPU-Splitting automatisch — am besten für persönliche Server und Teams mit unter 20 gleichzeitigen Nutzern. vLLM nutzt Tensor-Parallelismus und kontinuierliches Batching und ist 2–4× effizienter bei hoher Last — optimal für 100+ Anfragen pro Stunde.

Ist Alibaba Cloud günstiger als RunPod für Qwen-Inferenz?

Alibaba Cloud PAI kostet je nach GPU-Tier und Region 0,50–2,00 US-Dollar pro Stunde. RunPod A40 48 GB kostet 0,44 US-Dollar/Stunde. Alibaba Cloud bietet voreingerichtete Qwen-Inferenzumgebungen, die 20–30% schneller sein können als generisches Ollama — bei Nutzung des Alibaba-Cloud-Ökosystems empfehlenswert.

Wie viel Strom verbraucht ein Always-On-Qwen-Server?

Ein Minisforum UM890 Pro mit Qwen3 7B auf CPU verbraucht 12 W im Leerlauf und 45 W unter Last. Beim deutschen Durchschnittsstrompreis von 0,31 Euro/kWh kostet 24/7-Betrieb ca. 1,00–3,35 Euro/Monat. Eine RTX 4060 Ti 16 GB unter Last zieht 165 W — plus Mini-PC-Idle (~25 W) = ~190 W gesamt, ca. 13–14 Euro/Monat bei 24/7-Betrieb.

← Zurück zu Power Local LLM

Qwen Produktions-Deployment 2026: Docker, API-Server, Multi-GPU