Schnelle Antwort
Ja — Ollama unterstützt alle Qwen 3-Modellgrößen von 0.6B bis 72B. Starten Sie jede Größe mit ollama run qwen3:8b. Das 8B-Modell benötigt bei Q4 ~6 GB VRAM.
Aktualisiert: 2026-05
Wichtigste Punkte
Stand Mai 2026 unterstützt Ollama alle wichtigen Qwen 3-Modellgrößen von 0.6B bis 72B. Laden Sie jede Größe mit einem einzigen Befehl: ollama run qwen3:8b. Ersetzen Sie 8b durch 0.6b, 1.5b, 3b, 14b, 32b oder 72b für andere Größen.
Jede Größe ist in mehreren Quantisierungsstufen verfügbar. Q4_K_M ist die Standardeinstellung und empfohlene Ausgangsstufe — sie bietet das beste Verhältnis aus Qualität und Dateigröße. Q8_0 ist für 7B und 14B verfügbar, wenn Sie VRAM-Spielraum haben.
Tool Calling wird nativ für alle Qwen 3-Größen über die Standard-Ollama-API unterstützt. Es ist kein benutzerdefiniertes Modelfile oder spezielles Prompt-Template erforderlich.
ollama run qwen3:8bDie richtige Qwen 3-Größe hängt vollständig vom verfügbaren VRAM ab. Für die meisten Nutzer mit einer Mid-Range-GPU (6–8 GB VRAM) ist das 7B-Modell bei Q4_K_M die praktische Wahl — es benötigt ~6 GB und läuft mit ~20 tok/s.
Das 14B-Modell bei Q4 ist die empfohlene Stufe für Programmieraufgaben: Es übertrifft das 7B-Modell bei der Code-Generierung und passt bequem in 10–12 GB VRAM. Einen vollständigen Vergleich der Qwen 3-Coding-Performance gegenüber anderen lokalen Modellen finden Sie im Leitfaden zum lokalen Ausführen von Qwen im Jahr 2026.
| VRAM | Qwen 3-Größe | Geeignet für |
|---|---|---|
| < 4 GB | 0.6B / 1.5B | Edge-Geräte, Tests, CPU-only |
| 4–6 GB | 3B | Budget-GPU oder CPU mit wenig RAM |
| 6–12 GB | 7B / 14B | Allgemeine Nutzung und Coding |
| 12–24 GB | 14B / 32B | Hochwertiges Coding und Reasoning |
| 40+ GB | 72B | Nahezu frontier-nahe lokale Qualität |
ollama run qwen3:8b in einem Terminal aus. Ollama lädt das Modell beim ersten Start automatisch herunter. Ersetzen Sie 8b durch Ihre Zielgröße: 0.6b, 1.5b, 3b, 14b, 32b oder 72b.