Schnelle Antwort
Q4_K_M ist der optimale Punkt — 7B/8B-Modelle bei Q4_K_M verwenden 4,7–4,9 GB und lassen 1,1 GB für den KV-Cache. Q5_K_M passt, erfordert aber eine Begrenzung des Kontexts auf 2k Token. Q6_K und höher überschreiten 6 GB.
Aktualisiert: 2026-05
Wichtigste Punkte
Die Quantisierungsstufe bestimmt direkt, wie viel VRAM ein Modell belegt. Für 7B- und 8B-Parameter-Modelle — die größte Klasse, die auf eine 6-GB-GPU passt — sind die praktischen Optionen Q3_K_M bis Q5_K_M. Q2_K passt, aber die Qualität sinkt unter ein nützliches Niveau; Q6_K und höher überschreiten die 6-GB-Grenze.
Q4_K_M ist der empfohlene Standard: Ein 7B-Modell verwendet bei dieser Quantisierung etwa 4,7 GB und ein 8B-Modell etwa 4,9 GB. Das lässt 1,1 GB für den KV-Cache, den Ollama für das Kontextfenster zuweist. Beim Standard-Kontext von 2048 Token ist das ausreichend. Eine Erhöhung auf 4096 Token erfordert etwa 0,5 GB zusätzlichen KV-Cache bei einem 7B-Modell — bei den meisten 6-GB-Karten noch im Budget.
Q5_K_M ist die nächste Stufe. Ein 8B-Modell bei Q5_K_M verwendet etwa 5,7 GB und lässt nur 300 MB frei. Das reicht für sehr kurze Kontexte (512–2048 Token), führt aber bei längeren Gesprächen oder System-Prompts zu OOM-Fehlern. Verwenden Sie Q5_K_M nur, wenn Sie `num_ctx` bei 2048 oder darunter halten.
| Quantisierung | 7B VRAM | 8B VRAM | Passt auf 6 GB? | Max. Kontext (ca.) |
|---|---|---|---|---|
| Q2_K | ~2,8 GB | ~3,0 GB | ✓ (Qualität schlecht) | 8k+ |
| Q3_K_M | ~3,5 GB | ~3,7 GB | ✓ (akzeptabel) | 8k+ |
| Q4_K_M | ~4,7 GB | ~4,9 GB | ✓ empfohlen | 4k |
| Q5_K_M | ~5,5 GB | ~5,7 GB | ⚠ knapp (nur 2k Kontext) | 2k |
| Q6_K | ~6,4 GB | ~6,6 GB | ✗ OOM | — |
| Q8_0 | ~7,5 GB | ~7,7 GB | ✗ OOM | — |
Drei 7B/8B-Modelle stechen bei Q4_K_M auf einer 6-GB-Karte heraus. Qwen 2.5 7B Instruct ist der beste Allrounder — starkes Coding (HumanEval ~60%), mehrsprachige Unterstützung und 128k-Kontextarchitektur (obwohl Sie aufgrund des VRAMs bei 4k betreiben werden). Starten mit `ollama run qwen2.5:7b`.
Llama 3.1 8B ist die schnellste Option. Bei Q4_K_M läuft es auf einer RTX 3060 6 GB mit etwa 25 Tokens pro Sekunde und bewältigt allgemeinen Chat und Instruktionsbefolgung zuverlässig. Der MMLU-Score von 66,6 % ist niedriger als Qwen 2.5 7B, aber der Geschwindigkeitsvorteil macht es zur besseren Wahl für interaktive Sitzungen.
Phi-4 Mini (3,8B) ist die Wildcard. Bei Q8_0 passt es in etwa 4,1 GB — komfortabel innerhalb von 6 GB — und übertrifft seinen Größenklasse bei Reasoning-Benchmarks. Verwenden Sie es, wenn Sie einen Speicherbedarf unter 5 GB benötigen und besseres Reasoning als ältere 7B-Modelle möchten. Starten mit `ollama run phi4-mini`.
14B-Modelle auf 6 GB sollten Sie nicht versuchen. Qwen 2.5 14B bei Q4_K_M benötigt 9,3 GB. Q2_K bringt es auf etwa 5,5 GB, aber der Perplexitätsabfall ist erheblich — das Modell produziert spürbar verschlechterte Ausgaben. Bleiben Sie bei 7B/8B bei Q4_K_M oder 3B/4B bei Q8_0.