Schnelle Antwort
Mixtral 8x7B und DeepSeek V2 sind die führenden MoE-Coding-Modelle für den lokalen Einsatz. MoE-Modelle aktivieren pro Token nur einen Bruchteil der Parameter, was eine bessere Qualität pro VRAM als vergleichbar große Dense-Modelle ergibt. Beide benötigen mindestens 16 GB VRAM bei Q4.
Aktualisiert: 2026-05
Wichtigste Punkte
Mixture of Experts (MoE)-Modelle leiten jeden Token nur durch eine Teilmenge spezialisierter Schichten (Experten), sodass die Inferenzkosten mit den aktiven Parametern skalieren, nicht mit den Gesamtparametern. Mixtral 8x7B hat 46,7 Milliarden Gesamtparameter, aber nur ~12,9 Milliarden sind pro Vorwärtsdurchlauf aktiv — vergleichbar mit einem 13B Dense-Modell in Rechenkosten.
Das bedeutet, Mixtral 8x7B liefert im Vergleich zu den Inferenzkosten pro Token eine überdurchschnittliche Ausgabequalität. Allerdings müssen alle Experten-Gewichte beim Start in den VRAM geladen werden. Bei Q4_K_M benötigt Mixtral 8x7B ca. 26 GB VRAM — entweder eine 24-GB-Einzelkarte mit leichtem Quantisierungskompromiss oder ein Dual-GPU-Setup.
DeepSeek V2 verwendet eine ähnliche MoE-Architektur, die für Coding-Aufgaben optimiert ist, und benötigt bei Q4 ca. 16 GB VRAM. Seine Coding-Benchmark-Werte entsprechen Modellen mit zwei- bis dreifach größerem aktiven Parameteranzahl.
| Modell | Gesamtparameter | Aktiv pro Token | VRAM bei Q4 |
|---|---|---|---|
| Mixtral 8x7B | 46,7B | ~12,9B | ~26 GB |
| DeepSeek V2 | 236B | ~21B | ~16 GB |
Mixtral 8x7B ist auf Ollama via ollama pull mixtral:8x7b verfügbar, was das Q4_K_M GGUF automatisch herunterlädt. Ollama übernimmt die Layer-Zuteilung über den verfügbaren VRAM und lagert bei unzureichendem VRAM partiell auf den CPU-RAM aus, was jedoch die Geschwindigkeit deutlich reduziert.
Wenn Sie nur 16 GB VRAM haben, ist DeepSeek V2 Q4 die bessere MoE-Wahl. Es passt vollständig auf eine 16-GB-Karte und liefert einen Coding-Durchsatz von ca. 15–20 tok/s auf einer RTX 4080 oder ähnlichem. Unter 16 GB VRAM sollten Sie auf Dense-Modelle wechseln — MoE-Vorteile verschwinden bei starkem CPU-Offloading.
Ein verbreiteter Missverständnis: MoE-Modelle müssen beim Start ALLE Experten-Gewichte in den VRAM laden, nicht nur die aktiven Teilmengen. Die VRAM-Kosten spiegeln Gesamtparameter wider, nicht aktive. Für Aufgaben einer Sprache (z.B. nur Python-Arbeit) outperformt ein Dense-Modell wie Qwen 2.5 Coder 14B oft Mixtral 8x7B, da seine Gewichte vollständig auf Code spezialisiert sind, nicht über allgemeine Experten verteilt.
Für einen vollständigen Vergleich der besten Coding-Modelle bei jedem VRAM-Niveau einschließlich Dense-Alternativen lesen Sie den Leitfaden zu den besten lokalen LLMs für Coding.
ollama pull mixtral:8x7b lädt das Q4_K_M-quantisierte GGUF herunter. Dann startet ollama run mixtral:8x7b es. Ollama verteilt den VRAM automatisch und lagert bei Bedarf auf den CPU-RAM aus.