Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Qwen 3 lokal ausführen 2026: Vollständige Anleitung mit Ollama und LM Studio
Getting Started

Qwen 3 lokal ausführen 2026: Vollständige Anleitung mit Ollama und LM Studio

·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Führen Sie `ollama pull qwen3.6:27b` auf jedem Rechner mit 16 GB VRAM oder Apple Silicon mit 32+ GB Unified Memory aus. Für den GUI-Zugriff verwenden Sie LM Studio. Beide führen Qwen 3.6 27B vollständig offline aus. Wichtig: Setzen Sie `num_ctx` auf 32768 oder höher — Ollamas Standard von 2048 Token kürzt die meisten realen Aufgaben ab.

Qwen 3.6 27B läuft auf einer einzelnen Consumer-GPU (16 GB VRAM) über Ollama oder LM Studio. Die Einrichtung dauert weniger als 10 Minuten. Dieser Leitfaden deckt Modellauswahl, Hardware-Anforderungen, Ollama-CLI-Installation, LM Studio GUI-Setup, die entscheidende num_ctx-Korrektur, Stromverbrauch und TCO sowie die Verbindung mit PromptQuorum für Multi-Modell-Dispatch ab.

Wichtigste Erkenntnisse

  • Zwei Wege: Ollama (CLI, headless, API-bereit) oder LM Studio (GUI, kein CLI). Beide führen Qwen 3.6 27B lokal aus.
  • Kritische Korrektur: Ollama verwendet standardmäßig `num_ctx 2048`. Dieser Wert ist zu klein für reale Aufgaben. Setzen Sie `num_ctx 32768` in Ihrem Modelfile.
  • Hardware: Mindestens 16 GB VRAM (RTX 4080). Apple Silicon M4 Pro (48 GB) oder M5 Max (128 GB) sind die empfohlenen EU-hosted Inference-Optionen.
  • DSGVO: Sobald lokal ausgeführt, verlassen keine Daten Ihren Rechner. Keine SCCs oder Datenverarbeitungsverträge mit Dritten erforderlich.
  • PromptQuorum-Integration: Setzen Sie `OLLAMA_BASE_URL=http://localhost:11434/v1` und `LOCAL_LLM_MODEL=qwen3.6:27b` in den lokalen Dispatch-Einstellungen von PromptQuorum — getrennt von der Anthropic-API-Konfiguration.

Warum Qwen 2026 lokal ausführen

Qwen 3 lokal auszuführen bedeutet 2026, 0 € pro Token für ein Modell zu zahlen, das 92,1 % HumanEval erreicht — vergleichbar mit oder besser als Claude Sonnet 4.6 bei Coding-Aufgaben. Sobald die Hardware amortisiert ist, ist jede Anfrage kostenlos. Für ein Entwicklungsteam von fünf Personen, das 10 Millionen Token pro Tag generiert, spart lokale Inferenz ca. 830 €/Monat gegenüber Claude Sonnet 4.6 API-Preisen.

DSGVO-Konformität ist der zweite Treiber. DSGVO Art. 44 schränkt Datenübermittlungen in Drittländer ein. Wenn Sie Qwen lokal auf EU-Hardware ausführen, verlassen Ihre Anfragen, Ihr Code und Ihre Kundendaten niemals Ihre Infrastruktur. Es sind keine Datenverarbeitungsverträge mit US- oder chinesischen Anbietern erforderlich, keine Schrems-II-Risikobewertungen und keine Datenschutz-Folgenabschätzungen für die KI-Schicht.

Der dritte Grund ist Latenz. Lokale Inferenz auf einer RTX 4090 erzeugt 35+ Token/Sekunde — vergleichbar mit API-Antwortzeiten für kurze Anfragen, ohne Netzwerk-Overhead bei längeren Ausgaben.

📍 In einem Satz

Qwen 3.6 27B lokal auszuführen kostet nach der Hardware-Anschaffung 0 € pro Token, hält alle Daten auf EU-Infrastruktur und liefert 35+ Token/Sekunde auf einer RTX 4090.

💬 In einfachen Worten

Ein lokales LLM bedeutet, dass das KI-Modell auf Ihrem eigenen Computer läuft. Sie laden die Modelldatei herunter (ca. 17 GB für Qwen 3.6 27B), und jede Anfrage wird vollständig auf Ihrem Rechner verarbeitet — nichts wird an einen Server gesendet.

Das richtige Qwen-Modell wählen

Qwen 3 ist in mehreren Größen erhältlich. Wählen Sie basierend auf Ihrem VRAM und der erforderlichen Qualität. Alle Größen sind auf Hugging Face (Qwen) und über Ollama mit expliziten Tags verfügbar.

ModellVRAMToken/Sek. (RTX 4090)Empfohlen für
Qwen 3.6 27B Q4_K_M16 GB~35Produktiver Coding-Einsatz, komplexe Aufgaben
Qwen 3.6 27B Q8_028 GB~20Maximale Qualität, Dual-GPU
Qwen 3 14B Q4_K_M9 GB~608–12 GB VRAM, allgemeine Aufgaben
Qwen 3 7B Q4_K_M5 GB~80Wenig VRAM, schnelle Vervollständigungen
Qwen 3 72B Q4_K_M42 GBMaximale Qualität, Apple Silicon 96 GB+

Q4_K_M ist die empfohlene Quantisierung für die meisten Anwender — bestes Qualitäts-/Größenverhältnis. Q8_0 bietet höhere Qualität bei höherem VRAM-Bedarf. Verwenden Sie stets den expliziten Tag (qwen3.6:27b, nicht qwen3), um sicherzustellen, dass das 27B-Modell heruntergeladen wird.

Hardware-Anforderungen

  • Minimum (Qwen 3.6 27B): GPU mit 16 GB VRAM — RTX 4080, RTX 4070 Ti Super oder RTX 3090
  • Empfohlen GPU: RTX 4090 (24 GB VRAM) — führt Q4_K_M mit 35 Token/Sek. aus, 8 GB Puffer
  • Apple Silicon M3/M4 (aktuell): M3 Max oder M4 Pro mit 48 GB Unified Memory — lautlos, energieeffizient, 40+ Token/Sek. via MLX
  • Mac Mini M4 Pro (48 GB): ca. 1.599 € im Handel, kompaktes Formfaktor, beste TCO für EU-Büro-Deployment
  • Apple Silicon M5 Pro (64 GB): Nächste Generation, 307 GB/s Speicherbandbreite — führt Qwen 3.6 27B schätzungsweise mit 50+ Token/Sek. aus. Apple gibt 4× schnellere LLM-Prompt-Verarbeitung im Vergleich zu M4 an.
  • Apple Silicon M5 Max (128 GB): 460–614 GB/s Speicherbandbreite — führt Qwen 3 72B Q4_K_M komfortabel mit Puffer aus. Erwartet Mitte 2026 im Mac Studio; aktueller Mac Mini kommt mit M4 Pro.
  • RAM: Mindestens 32 GB Systemspeicher neben GPU-Inferenz; 64 GB empfohlen neben einer vollständigen Entwicklungsumgebung
  • Speicher: 20 GB freier Festplattenspeicher für Qwen 3.6 27B Q4_K_M (GGUF-Datei ~17 GB)

📌Note: Apple Silicon Unified Memory wird zwischen CPU und GPU geteilt. Ein Mac mit 48 GB Unified Memory kann Qwen 3.6 27B Q4_K_M mit Puffer für Betriebssystem und andere Anwendungen ausführen. Dies macht ihn zur praktischsten EU-hosted Inference-Option in einem einzigen kompakten Gerät.

💡Tip: M5 Max (128 GB) ist die erste Apple Silicon Konfiguration, bei der Qwen 3 72B mit Produktionsgeschwindigkeit läuft. Wenn Sie sehr lange Kontexte benötigen oder maximale Qualität für EU-regulierte Workloads brauchen, ist der Mac Studio M5 Max die Einzel-Geräte-Empfehlung.

Einrichtung mit Ollama

Ollama ist der schnellste Weg, Qwen 3 lokal auszuführen. Es verwaltet Modell-Downloads, stellt eine OpenAI-kompatible API unter localhost:11434 bereit und verarbeitet Quantisierung automatisch. Installieren Sie es von ollama.com.

  1. 1
    Ollama installieren
    Why it matters: Ollama verwaltet Modell-Downloads, das GGUF-Format und stellt eine OpenAI-kompatible lokale API bereit.
  2. 2
    Qwen 3.6 27B mit explizitem Tag herunterladen
    Why it matters: Verwenden Sie qwen3.6:27b explizit. Der bare Tag `qwen3` lädt standardmäßig das 8B-Modell — nicht das 27B-Modell, auf das sich diese Anleitung bezieht.
  3. 3
    Modelfile mit korrekter Kontextlänge erstellen
    Why it matters: Der Standard-num_ctx von 2048 Token ist zu klein für reale Coding-Aufgaben. 32768 Token verarbeiten die meisten Dateien und Konversationen.
  4. 4
    Eigenes Modell erstellen und starten
    Why it matters: Erstellt eine Qwen 3.6 27B Instanz mit erweitertem Kontextfenster. Überprüfen Sie mit einer Test-Anfrage.
  5. 5
    API-Endpunkt testen
    Why it matters: Ollama stellt eine OpenAI-kompatible API unter localhost:11434/v1 bereit. Verwenden Sie diesen Endpunkt, um LLM-Clients, IDEs und PromptQuorum zu verbinden.
bash
# Step 1 — Install Ollama
# macOS
brew install ollama

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# Windows — download from https://ollama.com/download

# Step 2 — Pull Qwen 3.6 27B (explicit tag required)
ollama pull qwen3.6:27b
# Downloads Qwen 3.6 27B Q4_K_M (~17 GB)
# Note: 'ollama pull qwen3' without a tag downloads the 8B model

# Step 3 — Create Modelfile with correct num_ctx
cat > Modelfile <<'EOF'
FROM qwen3.6:27b
PARAMETER num_ctx 32768
PARAMETER temperature 0.7
EOF

# Step 4 — Build and run
ollama create qwen3-32k -f Modelfile
ollama run qwen3-32k

# Expected output (Qwen working correctly):
# >>> Write a Python function to reverse a string.
# def reverse_string(s: str) -> str:
#     return s[::-1]
#
# This function takes a string s as input and returns the reversed
# string using Python slice notation with step -1.

# Step 5 — Test API
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen3-32k",
    "messages": [{"role": "user", "content": "Write a Python function to reverse a string."}]
  }'

⚠️Warning: Überspringen Sie Schritt 3 nicht. Ollamas Standard-num_ctx beträgt 2048 Token — etwa 1.500 Wörter. Die meisten Coding-Aufgaben (Datei lesen, Funktion erklären, Tests schreiben) benötigen 8.000–32.000 Token Kontext. Ohne diese Korrektur kürzt Qwen Ihre Anfragen lautlos ab und liefert schlechtere Ausgaben.

Einrichtung mit LM Studio

LM Studio bietet eine GUI zum Ausführen lokaler LLMs ohne CLI-Befehle. Es ist der empfohlene Weg für nicht-technische Anwender oder Windows-Setups. Download unter lmstudio.ai.

  1. 1
    LM Studio herunterladen und installieren
    Why it matters: Kostenlose, plattformübergreifende GUI für lokale LLM-Inferenz. Kein CLI erforderlich.
  2. 2
    Qwen 3 27B suchen und herunterladen
    Why it matters: LM Studios Modell-Browser durchsucht Hugging Face. Suchen Sie nach „Qwen 3 27B" und wählen Sie die Q4_K_M GGUF-Variante für 16 GB VRAM.
  3. 3
    Kontextlänge in LM Studio-Einstellungen konfigurieren
    Why it matters: Dasselbe num_ctx-Problem wie bei Ollama — ändern Sie die Context Length auf 32768 in den Modell-Parametern vor dem Laden.
  4. 4
    Lokalen Server starten
    Why it matters: LM Studios „Server starten" erstellt eine OpenAI-kompatible API unter localhost:1234. Verwenden Sie diese URL in Clients und PromptQuorum.
json
// LM Studio local server config (exported JSON)
{
  "model": "qwen3.6-27b-q4_k_m",
  "server": {
    "host": "localhost",
    "port": 1234,
    "cors": true
  },
  "inference": {
    "context_length": 32768,
    "temperature": 0.7,
    "gpu_layers": -1
  }
}

Verbindung mit PromptQuorum

PromptQuorum verteilt Anfragen auf mehrere LLMs. Um Ihre lokale Qwen-Instanz als Dispatch-Ziel zu verwenden, konfigurieren Sie den lokalen LLM-Endpunkt von PromptQuorum so, dass er auf Ihren Ollama-Server zeigt.

Dies ist der Ollama-Endpunkt (OpenAI-kompatibel) — getrennt von der Anthropic-API-Konfiguration für Claude. Beide können gleichzeitig aktiv sein, wobei PromptQuorum basierend auf Aufgabentyp und Datensensibilität weiterleitet.

📍 In einem Satz

Verbinden Sie PromptQuorum mit lokalem Qwen, indem Sie OLLAMA_BASE_URL auf http://localhost:11434/v1 und LOCAL_LLM_MODEL auf qwen3.6:27b in den lokalen Dispatch-Einstellungen setzen.

bash
# PromptQuorum dispatch config — local Qwen via Ollama
# Set in your .env or PromptQuorum settings panel

OLLAMA_BASE_URL=http://localhost:11434/v1
LOCAL_LLM_MODEL=qwen3.6:27b

# Example routing rules (PromptQuorum dispatch):
# - task_type: code       → model: qwen3.6:27b  (local Ollama, GDPR-safe)
# - task_type: analysis   → model: claude-sonnet-4-6 (Anthropic API, separate config)
# - task_type: private    → model: qwen3.6:27b  (local Ollama, no cloud egress)

Fehlerbehebung

  • Modellantwort wird mitten im Satz abgeschnitten: num_ctx ist zu niedrig. Erstellen Sie Ihr Modelfile neu mit `PARAMETER num_ctx 32768` und erstellen Sie das Modell mit `ollama create` neu.
  • CUDA out of memory Fehler: Das Modell passt nicht in Ihren VRAM. Wechseln Sie zu Qwen 3 14B Q4_K_M (~9 GB VRAM) oder probieren Sie eine Q3_K_S Quantisierung des 27B.
  • Ollama API gibt 404 zurück: Bestätigen Sie, dass der Modellname exakt übereinstimmt. Führen Sie `ollama list` aus, um verfügbare Modelle zu sehen. Verwenden Sie den exakten angezeigten Namen (z. B. `qwen3-32k`).
  • Langsame Generierung (< 5 Token/Sek.): GPU-Layer nicht vollständig ausgelagert. Führen Sie `ollama run qwen3-32k` aus und prüfen Sie, dass `num_gpu_layers` maximiert ist. Stellen Sie sicher, dass kein anderer GPU-intensiver Prozess läuft.
  • LM Studio zeigt „Modell konnte nicht geladen werden": Unzureichender VRAM. Reduzieren Sie die Q4_K_M Kontextlänge auf 16384 oder wechseln Sie zu Qwen 3 14B.
  • PromptQuorum gibt Authentifizierungsfehler zurück: Setzen Sie `OLLAMA_BASE_URL=http://localhost:11434/v1` in den lokalen LLM-Einstellungen von PromptQuorum. Falls das Formular einen Key verlangt, geben Sie eine beliebige nicht-leere Zeichenkette ein — Ollama benötigt keine API-Key-Authentifizierung.
  • Ollama verwendet CPU statt GPU: Bei NVIDIA: Prüfen Sie, dass CUDA-Treiber installiert sind (`nvidia-smi` sollte die GPU anzeigen). Auf Mac: Ollama verwendet automatisch Metal — keine Konfiguration nötig. Wenn Metal nicht aktiv ist, installieren Sie Ollama von ollama.com neu.
  • Modell-Download stoppt oder schlägt fehl: Große Modelle (Qwen 3.6 27B ~17 GB) können bei langsamen Verbindungen zeitüberschreiten. Führen Sie `ollama pull qwen3.6:27b` erneut aus — Ollama setzt ab der letzten Position fort. Alternativ laden Sie das GGUF direkt von Hugging Face herunter und verwenden Sie `ollama create` mit einem lokalen Pfad in der FROM-Klausel des Modelfile.

💡Tip: Führen Sie `ollama ps` aus, um zu sehen, welche Modelle aktuell in den VRAM geladen sind und wie viel Speicher jedes verbraucht. Verwenden Sie `ollama stop qwen3-32k`, um ein Modell zu entladen, bevor Sie zu einem größeren wechseln.

Stromverbrauch und Gesamtbetriebskosten (TCO)

Hardware-Kosten sind die einmalige Investition. Strom ist der laufende Kostenfaktor. Die richtige Hardware-Wahl hängt von Ihrem Strompreis, den Nutzungsstunden und dem Standort ab — in Deutschland kostet Strom durchschnittlich ca. 0,35 €/kWh in 2026, verglichen mit ca. 0,13 $/kWh in den USA.

Ein RTX-4090-System zieht unter Inferenz-Last ca. 450 W. Bei 8 Stunden/Tag zum deutschen Strompreis: 0,45 kW × 8 h × 0,35 € × 250 Arbeitstage = 315 €/Jahr Stromkosten. Die Hardware kostet ca. 2.200–2.500 € für ein vollständiges System.

Apple Silicon M5 Max im Mac Studio zieht unter LLM-Inferenz-Last ca. 40–50 W. Gleiches Szenario: 0,05 kW × 8 h × 0,35 € × 250 Tage = 35 €/Jahr Stromkosten. Die Hardware kostet ca. 3.000–4.000 € für einen Mac Studio M5 Max mit 128 GB.

Im Vergleich zur Claude Sonnet 4.6 API bei 10 Millionen Token/Tag für einen einzelnen Entwickler: 10 Mio. Token × 3 $/1 Mio. × 250 Tage = 7.500 $/Jahr (USD, da Anthropic API in US-Dollar abgerechnet wird).

OptionHardwareStromkosten/Jahr (EU)API-Kosten/Jahr (10 Mio. Tok./Tag)Amortisation
Claude Sonnet 4.6 API7.500 $
RTX 4090 + lokales Qwen2.200 €315 €0 €~4 Monate ggü. Claude
Mac Mini M4 Pro (48 GB)1.599 €25 €0 €~3 Monate ggü. Claude
Mac Studio M5 Max (128 GB)ca. 3.500 €35 €0 €~6 Monate ggü. Claude

Important: Für EU-Teams in Hochstrompreis-Ländern bietet der Mac Mini M4 Pro (48 GB) die beste TCO: niedrigste kombinierte Hardware- und Stromkosten, DSGVO-Konformität durch Design und lautloser Betrieb im Büro. Der Mac Studio M5 Max ist die Upgrade-Option für Teams, die Qwen 3 72B Qualität benötigen.

Häufige Fragen

Was ist die minimale Hardware, um Qwen 3 lokal auszuführen?

Für Qwen 3.6 27B bei Q4_K_M Quantisierung: 16 GB VRAM (RTX 4080 oder RTX 3090). Für Apple Silicon: M3 Pro mit 36 GB Unified Memory oder M3 Max mit 48 GB. Für das kleinere Qwen 3 14B: 9 GB VRAM (RTX 3080 oder RTX 4070). Qwen 3 7B läuft auf 5 GB VRAM (GTX 1080 oder besser).

Warum kürzt Ollama meine Anfragen ab?

Ollama verwendet standardmäßig num_ctx 2048 Token (~1.500 Wörter). Das ist zu wenig für die meisten realen Coding-Aufgaben. Sie müssen num_ctx auf mindestens 32768 in Ihrem Modelfile setzen. Erstellen Sie ein Modelfile mit `PARAMETER num_ctx 32768`, dann führen Sie `ollama create qwen3-32k -f Modelfile` aus, um eine Modellinstanz mit dem richtigen Kontextfenster zu erstellen.

Ist die lokale Ausführung von Qwen DSGVO-konform?

Ja — lokale Inferenz ist eine der DSGVO-freundlichsten KI-Architekturen (keine Inferenzdaten an Drittanbieter). Wenn Qwen auf Ihrer Hardware läuft, werden keine Daten an Dritte übertragen. DSGVO Art. 44 Beschränkungen für internationale Datenübermittlungen greifen nicht, da keine Übermittlung stattfindet. Ihr interner Datenverarbeitungsvertrag gilt, aber für die KI-Schicht sind keine SCCs oder Angemessenheitsbeschlüsse erforderlich.

Kann Qwen 3 ausschließlich auf der CPU ausgeführt werden?

Ja, über llama.cpp oder Ollama auf einem System ohne GPU. CPU-Inferenz ist deutlich langsamer — typischerweise 1–5 Token/Sekunde auf einer modernen CPU für Qwen 3.6 27B. Für den Produktiveinsatz ist GPU oder Apple Silicon erforderlich. Für gelegentliche Nutzung oder Tests auf einem Laptop ohne dedizierte GPU funktioniert CPU-Inferenz, ist aber für Echtzeit-Konversation unpraktisch.

Wie aktualisiere ich Qwen auf die neueste Version?

Führen Sie `ollama pull qwen3.6:27b` erneut aus. Ollama prüft, ob eine neuere Version verfügbar ist, und lädt nur die geänderten Layer herunter. Sie müssen Ihr Modelfile nicht neu erstellen — der Model-Tag (qwen3.6:27b) zeigt immer auf die neueste 27B-Version. In LM Studio prüfen Sie die Modellbibliothek auf Updates und laden bei Bedarf eine neuere GGUF-Version herunter.

Muss ich bei der lokalen Ausführung von Qwen die DSGVO beachten?

Ja, aber der Aufwand ist deutlich geringer als bei Cloud-KI. Bei lokaler Inferenz verarbeiten Sie Daten auf Ihrer eigenen Infrastruktur — kein Auftragsverarbeitungsvertrag mit einem Drittanbieter (Art. 28) und kein Angemessenheitsbeschluss (Art. 44) für die KI-Schicht erforderlich. Sie müssen die Verarbeitung jedoch in Ihrem Verzeichnis von Verarbeitungstätigkeiten (VVT) dokumentieren. BSI-Grundschutz-Kataloge empfehlen lokale KI-Inferenz für Verarbeitungen mit Schutzbedarf „hoch" und „sehr hoch".

Ist lokales Qwen 3 für den deutschen Mittelstand geeignet?

Ja. Der Mac Mini M4 Pro (48 GB) für ca. 1.599 € bietet den besten Einstiegspunkt für mittelständische Unternehmen: lautloser Bürobetrieb, keine zusätzliche Strominfrastruktur, DSGVO-Konformität durch Design ohne separaten SCC-Prozess. Für Code-Generierung eines 5-köpfigen Entwicklungsteams (10 Mio. Token/Tag) amortisiert sich die Hardware gegenüber Claude Sonnet 4.6 API-Preisen in ca. 3 Monaten. Die BSI-Grundschutz-Konformität vereinfacht sich, weil keine personenbezogenen Daten die Unternehmensinfrastruktur verlassen.

Qwen läuft lokal. Entdecken Sie jetzt die besten Benutzeroberflächen.

Beste lokale LLM-Frontends 2026 →

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Zur PromptQuorum-Warteliste anmelden →

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs