PromptQuorumPromptQuorum

Kann man Qwen 3 mit Ollama ausführen?

Schnelle Antwort

Ja — Ollama unterstützt alle Qwen 3-Modellgrößen von 0.6B bis 72B. Starten Sie jede Größe mit ollama run qwen3:8b. Das 8B-Modell benötigt bei Q4 ~6 GB VRAM.

  • ollama run qwen3:0.6b — passt in 1 GB VRAM
  • ollama run qwen3:8b — benötigt ~6 GB VRAM
  • ollama run qwen3:72b — benötigt ~40 GB VRAM

Aktualisiert: 2026-05

Ollama

Wichtigste Punkte

  • Ollama unterstützt alle Qwen 3-Größen: 0.6B, 1.5B, 3B, 7B, 14B, 32B und 72B
  • Laden Sie jede Größe mit <code>ollama run qwen3:8b</code> — ersetzen Sie den Tag durch Ihre Zielgröße
  • Das 7B-Modell benötigt ~6 GB VRAM bei Q4 und läuft mit ~20 tok/s auf einer Mid-Range-GPU
  • Qwen 3 unterstützt Tool Calling nativ über die Standard-Ollama-API — kein benutzerdefiniertes Modelfile erforderlich

Ja — das ist verfügbar

Stand Mai 2026 unterstützt Ollama alle wichtigen Qwen 3-Modellgrößen von 0.6B bis 72B. Laden Sie jede Größe mit einem einzigen Befehl: ollama run qwen3:8b. Ersetzen Sie 8b durch 0.6b, 1.5b, 3b, 14b, 32b oder 72b für andere Größen.

Jede Größe ist in mehreren Quantisierungsstufen verfügbar. Q4_K_M ist die Standardeinstellung und empfohlene Ausgangsstufe — sie bietet das beste Verhältnis aus Qualität und Dateigröße. Q8_0 ist für 7B und 14B verfügbar, wenn Sie VRAM-Spielraum haben.

Tool Calling wird nativ für alle Qwen 3-Größen über die Standard-Ollama-API unterstützt. Es ist kein benutzerdefiniertes Modelfile oder spezielles Prompt-Template erforderlich.

ollama run qwen3:8b

Die richtige Qwen 3-Größe wählen

Die richtige Qwen 3-Größe hängt vollständig vom verfügbaren VRAM ab. Für die meisten Nutzer mit einer Mid-Range-GPU (6–8 GB VRAM) ist das 7B-Modell bei Q4_K_M die praktische Wahl — es benötigt ~6 GB und läuft mit ~20 tok/s.

Das 14B-Modell bei Q4 ist die empfohlene Stufe für Programmieraufgaben: Es übertrifft das 7B-Modell bei der Code-Generierung und passt bequem in 10–12 GB VRAM. Einen vollständigen Vergleich der Qwen 3-Coding-Performance gegenüber anderen lokalen Modellen finden Sie im Leitfaden zum lokalen Ausführen von Qwen im Jahr 2026.

VRAMQwen 3-GrößeGeeignet für
< 4 GB0.6B / 1.5BEdge-Geräte, Tests, CPU-only
4–6 GB3BBudget-GPU oder CPU mit wenig RAM
6–12 GB7B / 14BAllgemeine Nutzung und Coding
12–24 GB14B / 32BHochwertiges Coding und Reasoning
40+ GB72BNahezu frontier-nahe lokale Qualität

Schnelle Antworten zu Qwen 3 auf Ollama

Wie installiere ich Qwen 3 auf Ollama?
Führen Sie ollama run qwen3:8b in einem Terminal aus. Ollama lädt das Modell beim ersten Start automatisch herunter. Ersetzen Sie 8b durch Ihre Zielgröße: 0.6b, 1.5b, 3b, 14b, 32b oder 72b.
Ist Qwen 3 besser als Llama 3 für Coding?
Für Coding: Ja, Qwen 3 14B übertrifft Llama 3 8B bei HumanEval-Benchmarks. Für allgemeine Unterhaltung auf 8B-Niveau bleibt Llama 3 8B wettbewerbsfähig. Die aktuellen Top-Ollama-Empfehlungen für alle Aufgaben finden Sie unter den besten Ollama-Modellen aktuell.
Unterstützt Qwen 3 Tool Calling auf Ollama?
Ja. Qwen 3 unterstützt Function- und Tool Calling nativ über die Standard-Ollama-API. Es ist kein benutzerdefiniertes Modelfile oder spezielle Konfiguration erforderlich — es funktioniert mit jedem Client, der das Ollama-Tool-Use-Format unterstützt.
Kann ich Qwen 3 72B auf Consumer-Hardware ausführen?
Technisch ja, aber es erfordert ~40 GB VRAM bei Q4 — also ein Dual-GPU-Setup (zwei RTX 3090) oder einen Apple M-series Mac mit 64+ GB Unified Memory. Die meisten Consumer-Setups sind auf das 32B-Tier begrenzt.