Wichtigste Erkenntnisse
- Qwen2.5 7B läuft mit 5,5 GB VRAM — ein einziger `ollama pull qwen2.5:7b`-Befehl genügt; auf einer RTX 3060 erreicht es 57 Tokens/Sek.
- Drei eigenständige Teilfamilien: Qwen2.5 (allgemein), Qwen2.5-Coder (Coding, 92,7 % HumanEval bei 32B), Qwen2-VL (Vision, bestes lokales CJK-OCR).
- Dense-Architektur = Consumer-freundlich: Anders als DeepSeeks 236B-MoE-Modell (~130 GB RAM) passt Qwen2.5 72B mit 46 GB VRAM auf zwei RTX 3090.
- Natives Mehrsprachigkeit: Vortrainiert auf Chinesisch, Japanisch, Koreanisch, Arabisch, Deutsch, Französisch und 23 weiteren Sprachen — Qwen2.5 übertrifft Llama 3.3 bei CJK-Aufgaben.
- Q4_K_M ist die richtige Quantisierung für die meisten Nutzer: ~55 % VRAM-Reduktion, weniger als 1 % Qualitätsverlust.
- Hardware-Entscheidung: 12 GB VRAM → 14B-Modell; 24 GB → 32B; 48 GB+ (zwei GPUs oder Apple Silicon 64 GB) → 72B.
📍 In einem Satz
Qwen2.5 umfasst drei lokale Deployment-Teilfamilien — Allgemein (7B–72B), Coding (Coder 7B–32B) und Vision (VL 7B–72B) — alle über Ollama oder LM Studio ausführbar.
💬 In einfachen Worten
Ein Modell lokal betreiben bedeutet, dass die KI auf dem eigenen Computer statt auf einem Cloud-Server läuft. Keine Daten verlassen die eigene Hardware, und nach der Anschaffung fallen keine Kosten pro Token an.
Qwen2.5-Modellfamilie im Überblick
Die Qwen2.5-Familie deckt drei unterschiedliche Aufgaben ab: allgemeines Reasoning, Coding und Vision — jeweils in mehreren Größen von 7B bis 72B Parametern. Alle sind Open-Weight-Modelle, die vom Qwen-Team bei Alibaba unter der Apache-2.0-Lizenz auf Hugging Face veröffentlicht wurden.
Wählen Sie zunächst die Teilfamilie, dann die Größe, die zum verfügbaren VRAM passt. Die Kombination von Teilfamilien ist üblich: Qwen2.5-Coder 14B für Code-Vervollständigung und Qwen2.5 7B für Dokumentenzusammenfassung.
| Teilfamilie | Verfügbare Größen | Hauptanwendung | Ollama-Tag-Präfix |
|---|---|---|---|
| Qwen2.5 | 7B, 14B, 32B, 72B | Allgemeines Reasoning, chinesisch/mehrsprachige Aufgaben, RAG | qwen2.5: |
| Qwen2.5-Coder | 7B, 14B, 32B | Code-Generierung, Debugging, HumanEval, SWE-bench | qwen2.5-coder: |
| Qwen2-VL | 2B, 7B, 72B | Dokument-OCR, Bild-Q&A, CJK-Textextraktion | qwen2-vl: |
Qwen3 (erschienen Q1 2026) bietet Thinking-Mode-Modelle, hat aber weniger GGUF-Builds und geringere Ollama-Abdeckung als Qwen2.5 (Stand Mai 2026). Dieser Guide konzentriert sich auf Qwen2.5, das die breiteste Hardware-Unterstützung bietet. Siehe Beste lokale LLMs 2026 für einen umfassenderen Modellvergleich.
Hardware-Anforderungen nach Modellgröße
Wählen Sie zunächst Ihre VRAM-Stufe, dann das größte Qwen2.5-Modell, das hineinpasst. Q4_K_M ist die Standardquantisierung für alle unten aufgeführten Werte — sie bietet das beste Verhältnis von Größe zu Qualität für Ollama und LM Studio.
| Modell | VRAM | Mindest-GPU | Apple Silicon | Geschwindigkeit (RTX 3060) |
|---|---|---|---|---|
| Qwen2.5 7B Q4_K_M | 5,5 GB | RTX 3060 6 GB, RTX 4060 | M1/M2 8 GB | ~57 Tokens/Sek. |
| Qwen2.5-Coder 7B Q4_K_M | 5,5 GB | RTX 3060 6 GB, RTX 4060 | M1/M2 8 GB | ~55 Tokens/Sek. |
| Qwen2-VL 7B Q4_K_M | 6,2 GB | RTX 3060 8 GB, RTX 4060 | M1/M2 16 GB | — |
| Qwen2.5 14B Q4_K_M | 9,5 GB | RTX 4070 12 GB | M2 Pro 16 GB | — |
| Qwen2.5-Coder 14B Q4_K_M | 9,5 GB | RTX 4070 12 GB | M2 Pro 16 GB | — |
| Qwen2.5 32B Q4_K_M | 20,5 GB | RTX 3090 24 GB | M3 Max 48 GB | — |
| Qwen2.5-Coder 32B Q4_K_M | 20,5 GB | RTX 3090 24 GB | M3 Max 48 GB | — |
| Qwen2.5 72B Q4_K_M | 46 GB | 2× RTX 3090 (48 GB) | M2 Ultra 64 GB | — |
VRAM-Angaben gelten für Q4_K_M-GGUF-Dateien aus der Ollama-Bibliothek. Für den KV-Cache bei 4K-Kontext kommen 1–2 GB hinzu. Wenn die GPU weniger VRAM hat als das Modell benötigt, lagert Ollama automatisch Layer in den System-RAM aus — das funktioniert, reduziert aber die Geschwindigkeit erheblich.
Setup mit Ollama
Ollama ist der schnellste Weg, um ein beliebiges Qwen2.5-Modell lokal zu betreiben — es übernimmt den Modell-Download, die GGUF-Quantisierung und stellt eine lokale API unter `localhost:11434` bereit, ohne jegliche Konfiguration. Installation unter ollama.com. Falls Sie Ollama noch nicht kennen, lesen Sie zunächst Ollama installieren.
- 1Ollama installieren
Why it matters: Verfügbar für macOS, Linux (Ein-Zeilen-Installation) und Windows. Keine GPU-Treiber-Konfiguration erforderlich — Ollama erkennt CUDA, ROCm und Metal automatisch. - 2Modell mit explizitem Größen-Tag herunterladen
Why it matters: Immer die Größe angeben: `qwen2.5:7b`, `qwen2.5:14b`, `qwen2.5:32b`. Das ungetaggte `qwen2.5` löst standardmäßig das 7B-Modell auf, kann sich aber zwischen Ollama-Releases ändern. - 3Modell ausführen
Why it matters: `ollama run qwen2.5:7b` öffnet einen interaktiven Chat. Eingabe tippen und Enter drücken. Beenden mit `/bye`. - 4Kontextfenster bei Bedarf anpassen
Why it matters: Qwen2.5 unterstützt standardmäßig 32K-Kontext in Ollama. Für 128K-Kontext bei einem 7B-Modell: `ollama run qwen2.5:7b --num-ctx 131072`. Dies benötigt mehr VRAM. - 5API-Endpunkt testen
Why it matters: Ollama stellt eine OpenAI-kompatible API bereit. Anwendungen wie PromptQuorum, Continue.dev und Open WebUI verbinden sich direkt mit `http://localhost:11434/v1`.
# Ollama installieren (Linux)
curl -fsSL https://ollama.com/install.sh | sh
# macOS: .dmg von ollama.com herunterladen oder:
brew install ollama
# Modelle herunterladen — explizite Tags verwenden
ollama pull qwen2.5:7b # allgemein 7B (~5,5 GB)
ollama pull qwen2.5:14b # allgemein 14B (~9,5 GB)
ollama pull qwen2.5:32b # allgemein 32B (~20,5 GB)
ollama pull qwen2.5-coder:32b # Coding 32B (~20,5 GB)
ollama pull qwen2-vl:7b # Vision 7B (~6,2 GB)
# Interaktiv ausführen
ollama run qwen2.5:7b
# OpenAI-kompatible API testen
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model":"qwen2.5:7b","messages":[{"role":"user","content":"Hallo"}]}'Setup mit LM Studio
LM Studio bietet eine grafische Oberfläche für Qwen2.5 ohne Terminal-Befehle. Download unter lmstudio.ai oder siehe LM Studio installieren. Verfügbar für macOS, Windows und Linux.
- 1Modell-Browser öffnen
Why it matters: Nach „Qwen2.5" oder „Qwen Coder" suchen. Nach Q4_K_M filtern für das empfohlene Qualitäts/Größen-Verhältnis. - 2GGUF-Build herunterladen
Why it matters: Q4_K_M-Variante auswählen. LM Studio zeigt die Dateigröße vor dem Download an — bestätigen, dass sie zum verfügbaren VRAM passt. - 3Modell laden und Chat starten
Why it matters: Modell in der linken Sidebar anklicken, um es in den Speicher zu laden. GPU-Layer-Zuweisung erfolgt automatisch. - 4Lokalen Server starten
Why it matters: "Server starten" öffnet einen OpenAI-kompatiblen Endpunkt unter `localhost:1234`. Anwendungen und Skripte verbinden sich damit wie mit der OpenAI-API.
Quantisierung: Welches Format wählen?
Q4_K_M ist die richtige Standardwahl für Qwen2.5 auf Consumer-Hardware. Es reduziert den VRAM um ~55–60 % gegenüber FP16 bei weniger als 1 % Benchmark-Verlust auf MMLU und HumanEval. Andere Formate haben spezifische Anwendungsfälle:
📍 In einem Satz
Q4_K_M ist die beste Qwen2.5-Quantisierung für die meisten Nutzer: 55 % VRAM-Reduktion bei weniger als 1 % Qualitätsverlust gegenüber FP16.
💬 In einfachen Worten
Quantisierung komprimiert die Zahlen des Modells von 16-Bit auf 4-Bit, was die Dateigröße und den VRAM-Bedarf etwa halbiert. Vorstellbar wie TIFF-zu-JPEG: kleinere Datei, nahezu identisches Ergebnis für die meisten Anwendungsfälle.
- Q4_K_M (empfohlen): ~5,5 GB für 7B. Bestes Qualitäts-pro-GB-Verhältnis. Dieser Format sollte zuerst ausprobiert werden.
- Q8_0: ~8,5 GB für 7B. Nahezu FP16-Qualität; verwenden, wenn VRAM vorhanden ist und maximale Genauigkeit gewünscht wird.
- Q5_K_M: ~6,5 GB für 7B. Marginale Verbesserung gegenüber Q4_K_M — nur wählen, wenn Q4_K_M-Ausgabequalität für die Aufgabe sichtbar unzureichend ist.
- Q2_K: ~3 GB für 7B. Kleinste Datei, aber die chinesischsprachige Ausgabequalität verschlechtert sich spürbar — bei Qwen2.5 für chinesische Anwendungen vermeiden.
- IQ4_XS: ~4,8 GB für 7B. Neuere imatrix-Quantisierung mit besserer Qualität als Q4_K_M bei etwas kleinerer Größe — verfügbar in neueren llama.cpp-Versionen und LM Studio 0.3+.
Benchmark-Performance auf Consumer-Hardware
Qwen2.5 32B Q4_K_M auf einer RTX 4090 liefert 28 Tokens/Sek. — schnell genug für Echtzeit-Coding-Assistenz. Die unten aufgeführten Werte gelten für Q4_K_M-GGUF-Builds, getestet unter Ollama. Full-Precision-FP16-Werte sind um 1–2 % höher.
| Modell (Q4_K_M) | MMLU | Math | HumanEval | Geschwindigkeit (RTX 3060 12 GB) |
|---|---|---|---|---|
| Qwen2.5 7B | 74,2 % | 58,8 % | 57,3 % | 57 Tokens/Sek. |
| Qwen2.5 14B | 79,9 % | 69,8 % | 64,6 % | — |
| Qwen2.5 32B | 83,3 % | 79,5 % | 71,3 % | — |
| Qwen2.5 72B | 86,1 % | 83,1 % | 73,2 % | — |
| Qwen2.5-Coder 7B | — | — | 75,6 % | 55 Tokens/Sek. |
| Qwen2.5-Coder 14B | — | — | 85,2 % | — |
| Qwen2.5-Coder 32B | — | — | 92,7 % | — |
Qwen vs. DeepSeek vs. Llama: Was lokal betreiben?
Qwen2.5 gewinnt bei chinesischsprachigen Aufgaben und VRAM-Effizienz; DeepSeek-V2.5 gewinnt beim Reasoning im großen Maßstab, ist aber auf Consumer-Hardware kaum praktikabel; Llama 3.3 70B ist die beste Einzel-GPU-Option, wenn Meta's offenes Modell bevorzugt wird. Die folgende Tabelle vergleicht die praktischen Optionen je VRAM-Stufe.
| VRAM-Stufe | Bestes Qwen | Bester Konkurrent | Empfehlung |
|---|---|---|---|
| 6 GB | Qwen2.5 7B | Llama 3.2 3B (passt, aber nur 3B) | Qwen2.5 7B gewinnt — gleiches VRAM, viel größeres Modell |
| 12 GB | Qwen2.5-Coder 14B | Llama 3.3 8B Instruct | Qwen2.5-Coder 14B für Coding; Llama 3.3 8B für allgemeinen Chat |
| 24 GB | Qwen2.5-Coder 32B | Llama 3.3 70B (ausgelagert) | Qwen2.5-Coder 32B für Code; Llama 3.3 70B wenn Qualität > Geschwindigkeit |
| 48 GB+ | Qwen2.5 72B | DeepSeek-V2.5 236B MoE | DeepSeek benötigt ~130 GB RAM; Qwen2.5 72B ist die praktische 48-GB-Wahl |
Datensouveränität für deutsche und europäische Nutzer
Der lokale Betrieb von Qwen2.5 bedeutet, dass keine Daten das eigene Gerät verlassen — kein Cloud-API-Aufruf, kein Risiko unter der DSGVO oder dem deutschen IT-Sicherheitsrecht. Cloud-basierte LLM-APIs erfordern die Übermittlung von Prompts an externe Server im Ausland, was DSGVO Art. 28 (Auftragsverarbeitung) und ggf. Art. 44 ff. (Drittlandübermittlung) auslöst.
Qwen2.5 wurde vom Qwen-Team bei Alibaba auf einem überwiegend chinesisch- und mehrsprachigen Korpus trainiert. Es ist das stärkste lokal einsetzbare Modell für Vereinfachtes Chinesisch, Traditionelles Chinesisch und gemischtsprachige Dokumente (Chinesisch/Englisch/Deutsch).
Für Unternehmensdeployments im DACH-Raum: Ein luftgespaltenes Qwen2.5-Setup (keine Internetverbindung während der Inferenz) ist vollständig DSGVO-konform. Das Modell läuft ausschließlich auf lokaler Hardware — kein Drittanbieter erhält Zugriff auf Eingabe- oder Ausgabedaten. Für BSI-Grundschutz-konforme Setups empfiehlt sich Baustein OPS.2.2 (Fremdsoftware). Vollständige Anleitung für luftgespaltene Setups: KI vollständig offline betreiben.
📍 In einem Satz
Qwen2.5 läuft nach dem Download vollständig offline — keine Daten verlassen Ihr Gerät, wodurch DSGVO-Risiken durch Drittlandübermittlung entfallen.
💬 In einfachen Worten
Beim lokalen Betrieb von Qwen2.5 verlassen Ihre Prompts und Dokumente niemals den eigenen Computer. Es gibt keinen Cloud-API-Aufruf, keinen externen Server und keine Daten, auf die Behörden oder Dritte zugreifen könnten.
Hardware-Empfehlungen nach Budget
Die RTX 3060 12 GB ist der beste Einstieg für Qwen2.5 7B und Qwen2.5-Coder 7B unter ca. 270–330 €. Für 14B-Modelle bietet die RTX 4070 12 GB eine 35 %ige Geschwindigkeitssteigerung bei ca. 490–560 € neu.
- Einsteiger (Qwen2.5 7B): NVIDIA RTX 4060 8 GB oder RTX 3060 12 GB. Beide bewältigen 7B-Modelle mit 50–57 Tokens/Sek. Die RTX 3060 12 GB ist gebraucht oft günstiger und hat mehr VRAM-Puffer.
- Mittelklasse (Qwen2.5 14B): RTX 4070 12 GB oder RTX 4070 Super 12 GB. Der 4070 Super führt Qwen2.5-Coder 14B mit 38–42 Tokens/Sek. aus und hat 2–3 GB VRAM-Reserve für den Kontext.
- High-End (Qwen2.5 32B): RTX 4090 24 GB oder RTX 3090 24 GB. Die 4090 liefert 27–28 Tokens/Sek. bei Qwen2.5-Coder 32B — Echtzeit-Coding-Geschwindigkeit. Die 3090 ist gebraucht deutlich günstiger und liegt beim Inferenz-Durchsatz nur 15 % hinter der 4090.
- Apple Silicon (alle Größen): Mac mini M4 Pro 48 GB ist der beste Wert für Qwen2.5 32B (~22 Tokens/Sek.) bei geringem Geräusch- und Stromverbrauch.
- Mini-PC für Dauerbetrieb: MINISFORUM UM890 Pro oder ähnliche AMD-Ryzen-AI-PCs. Laufen Qwen2.5 7B auf CPU+iGPU mit ~8–12 Tokens/Sek. — langsam, aber 24/7-fähig bei unter 35 W.
Häufige Fehler beim lokalen Betrieb von Qwen2.5
- Ungetaggter `ollama pull qwen2.5`-Befehl verwenden. Ohne expliziten Größen-Tag (`:7b`, `:14b` usw.) kann Ollama eine Standardgröße auflösen, die sich zwischen Library-Updates ändert. Immer explizite Tags verwenden: `ollama pull qwen2.5:14b`.
- Kontextfenstergröße ignorieren. Qwen2.5 unterstützt 128K-Kontext, Ollama verwendet aber standardmäßig 2K für `num_ctx`. Bei der Verarbeitung langer Dokumente `--num-ctx 8192` (oder höher) zum Run-Befehl hinzufügen — andernfalls kürzt das Modell die Eingabe stillschweigend.
- Q2_K-Quantisierung für chinesischsprachige Nutzung wählen. Bei 2-Bit-Präzision verschlechtert sich Qwen2.5's chinesische Ausgabe spürbar. Q4_K_M als Minimum für jede chinesischsprachige Arbeit verwenden.
- 32B-Modell mit zu wenig VRAM ausführen. Wenn die GPU 16 GB hat und das Modell 20,5 GB benötigt, lagert Ollama Layer in den System-RAM aus. Das Modell läuft, aber mit 3–5 Tokens/Sek. — für interaktive Nutzung unbrauchbar.
- Falsche Teilfamilie für Coding verwenden. Qwen2.5 7B (allgemein) erreicht 57,3 % auf HumanEval. Qwen2.5-Coder 7B erreicht 75,6 % auf demselben Benchmark — eine 32 %ige relative Verbesserung. Für Coding immer die Coder-Variante gleicher Größe verwenden.
Häufig gestellte Fragen
Wie viel VRAM benötige ich für Qwen2.5 7B lokal?
Qwen2.5 7B Q4_K_M benötigt 5,5 GB VRAM. Eine RTX 3060 6 GB, RTX 4060 oder ein Apple-M-Chip mit 8 GB Unified Memory reichen aus.
Welches Qwen-Modell eignet sich am besten für Coding lokal?
Qwen2.5-Coder 32B ist das beste lokal ausführbare Coding-Modell — 92,7 % auf HumanEval, benötigt 24 GB GPU. Bei 12 GB VRAM: Qwen2.5-Coder 14B (85,2 %, 9,5 GB VRAM).
Wie schneidet Qwen im Vergleich zu DeepSeek ab?
Qwen2.5 nutzt Dense-Architektur, die auf Consumer-Hardware passt. DeepSeek-V2.5 ist ein 236B-MoE-Modell und benötigt ~130 GB RAM — ohne Server-GPU nicht praktikabel.
Kann ich Qwen auf einem Mac betreiben?
Ja. M2 Pro 32 GB führt Qwen2.5 14B mit ~32 Tokens/Sek. aus. M3 Max 64 GB bewältigt Qwen2.5 32B mit ~22 Tokens/Sek.
Welchen Ollama-Befehl verwende ich für Qwen2.5?
`ollama pull qwen2.5:7b` für 7B, `:14b` für 14B, `:32b` für 32B oder `qwen2.5-coder:32b` für die Coding-Variante. Immer explizite Größen-Tags verwenden.
Ist Qwen für chinesischsprachige Aufgaben geeignet?
Ja. Qwen2.5 wurde auf einem umfangreichen chinesischen Korpus vortrainiert und unterstützt nativ Vereinfachtes Chinesisch, Traditionelles Chinesisch, Japanisch, Koreanisch und 24 weitere Sprachen.
Welche Quantisierung sollte ich für Qwen2.5 verwenden?
Q4_K_M ist die empfohlene Standardwahl — ~55 % VRAM-Reduktion bei weniger als 1 % Qualitätsverlust. Q8_0 für nahezu FP16-Qualität. Q2_K bei chinesischsprachigen Anwendungen vermeiden.
Funktioniert Qwen2-VL für chinesisches Dokument-OCR?
Ja — Qwen2-VL 7B ist das stärkste lokale Vision-Modell für CJK-OCR. Es läuft mit ~6 GB VRAM via `ollama pull qwen2-vl:7b` und liest bis zu 4096×4096 Pixel.
Muss ich bei der Verwendung von Qwen2.5 die DSGVO beachten?
Beim lokalen Betrieb verlassen keine Daten den eigenen Server — kein AVV nach DSGVO Art. 28 erforderlich, da kein Drittanbieter Datenzugriff hat. BSI-Grundschutz-konform mit Baustein OPS.2.2.
Ist Qwen2.5 für den deutschen Mittelstand geeignet?
Ja. Qwen2.5 14B oder 32B lässt sich auf einem lokalen Server betreiben ohne externe Datenübermittlung — geeignet für datenschutzkritische Branchen wie Recht, Medizin und Finanzen im DACH-Raum.