PromptQuorumPromptQuorum

Beste Quantisierung für 6 GB VRAM: Welche Stufe passt?

Schnelle Antwort

Q4_K_M ist der optimale Punkt — 7B/8B-Modelle bei Q4_K_M verwenden 4,7–4,9 GB und lassen 1,1 GB für den KV-Cache. Q5_K_M passt, erfordert aber eine Begrenzung des Kontexts auf 2k Token. Q6_K und höher überschreiten 6 GB.

  • Llama 3.1 8B / Mistral 7B / Qwen 2.5 7B bei Q4_K_M: 4,7–4,9 GB — sicher auf 6 GB mit 4k Kontext
  • Q5_K_M verwendet ~5,7 GB — passt, aber Kontext auf 2k Token begrenzen um OOM zu vermeiden
  • 14B-Modelle bei Q4_K_M benötigen 9,3 GB — keine brauchbare Quantisierung passt auf 6 GB

Aktualisiert: 2026-05

Quantization & VRAM

Wichtigste Punkte

  • Für 6-GB-VRAM-Karten (RTX 3060 6 GB, RTX 3050 6 GB, GTX 1660 Ti 6 GB): Q4_K_M ist die richtige Quantisierung für 7B- und 8B-Modelle
  • Q4_K_M lässt 1,1 GB frei — ausreichend für einen 4k-Token-KV-Cache bei der Standard-Ollama-Kontextgröße von 2048
  • Q5_K_M verbessert die Perplexität um ~1 Punkt, verwendet aber 5,7 GB; reduzieren Sie `--ctx-size` auf 2048, um Out-of-Memory-Fehler zu vermeiden
  • 14B-Modelle (Qwen 2.5 14B, Llama 3.1 13B) benötigen bei Q4_K_M 9,3 GB — keine Quantisierungsstufe macht sie auf 6 GB nutzbar

VRAM-Verbrauch der Quantisierungsstufen für 7B/8B-Modelle auf 6 GB

Die Quantisierungsstufe bestimmt direkt, wie viel VRAM ein Modell belegt. Für 7B- und 8B-Parameter-Modelle — die größte Klasse, die auf eine 6-GB-GPU passt — sind die praktischen Optionen Q3_K_M bis Q5_K_M. Q2_K passt, aber die Qualität sinkt unter ein nützliches Niveau; Q6_K und höher überschreiten die 6-GB-Grenze.

Q4_K_M ist der empfohlene Standard: Ein 7B-Modell verwendet bei dieser Quantisierung etwa 4,7 GB und ein 8B-Modell etwa 4,9 GB. Das lässt 1,1 GB für den KV-Cache, den Ollama für das Kontextfenster zuweist. Beim Standard-Kontext von 2048 Token ist das ausreichend. Eine Erhöhung auf 4096 Token erfordert etwa 0,5 GB zusätzlichen KV-Cache bei einem 7B-Modell — bei den meisten 6-GB-Karten noch im Budget.

Q5_K_M ist die nächste Stufe. Ein 8B-Modell bei Q5_K_M verwendet etwa 5,7 GB und lässt nur 300 MB frei. Das reicht für sehr kurze Kontexte (512–2048 Token), führt aber bei längeren Gesprächen oder System-Prompts zu OOM-Fehlern. Verwenden Sie Q5_K_M nur, wenn Sie `num_ctx` bei 2048 oder darunter halten.

Quantisierung7B VRAM8B VRAMPasst auf 6 GB?Max. Kontext (ca.)
Q2_K~2,8 GB~3,0 GB✓ (Qualität schlecht)8k+
Q3_K_M~3,5 GB~3,7 GB✓ (akzeptabel)8k+
Q4_K_M~4,7 GB~4,9 GB✓ empfohlen4k
Q5_K_M~5,5 GB~5,7 GB⚠ knapp (nur 2k Kontext)2k
Q6_K~6,4 GB~6,6 GB✗ OOM
Q8_0~7,5 GB~7,7 GB✗ OOM

Beste Modelle für Q4_K_M auf 6 GB VRAM

Drei 7B/8B-Modelle stechen bei Q4_K_M auf einer 6-GB-Karte heraus. Qwen 2.5 7B Instruct ist der beste Allrounder — starkes Coding (HumanEval ~60%), mehrsprachige Unterstützung und 128k-Kontextarchitektur (obwohl Sie aufgrund des VRAMs bei 4k betreiben werden). Starten mit `ollama run qwen2.5:7b`.

Llama 3.1 8B ist die schnellste Option. Bei Q4_K_M läuft es auf einer RTX 3060 6 GB mit etwa 25 Tokens pro Sekunde und bewältigt allgemeinen Chat und Instruktionsbefolgung zuverlässig. Der MMLU-Score von 66,6 % ist niedriger als Qwen 2.5 7B, aber der Geschwindigkeitsvorteil macht es zur besseren Wahl für interaktive Sitzungen.

Phi-4 Mini (3,8B) ist die Wildcard. Bei Q8_0 passt es in etwa 4,1 GB — komfortabel innerhalb von 6 GB — und übertrifft seinen Größenklasse bei Reasoning-Benchmarks. Verwenden Sie es, wenn Sie einen Speicherbedarf unter 5 GB benötigen und besseres Reasoning als ältere 7B-Modelle möchten. Starten mit `ollama run phi4-mini`.

14B-Modelle auf 6 GB sollten Sie nicht versuchen. Qwen 2.5 14B bei Q4_K_M benötigt 9,3 GB. Q2_K bringt es auf etwa 5,5 GB, aber der Perplexitätsabfall ist erheblich — das Modell produziert spürbar verschlechterte Ausgaben. Bleiben Sie bei 7B/8B bei Q4_K_M oder 3B/4B bei Q8_0.

Schnelle Antworten zur Quantisierung bei 6 GB VRAM

Kann ich ein 14B-Modell auf 6 GB VRAM betreiben?
Es gibt keinen brauchbaren Weg. Qwen 2.5 14B bei Q4_K_M benötigt 9,3 GB. Ein Wechsel auf Q2_K bringt es auf etwa 5,5 GB, aber der Qualitätsabfall ist erheblich — die Ausgabe wird spürbar inkohärenter. Das richtige Modell für 6 GB VRAM ist ein 7B- oder 8B-Modell bei Q4_K_M.
Ist Q4_K_M oder Q4_K_S besser für 6 GB VRAM?
Q4_K_M. Die Q4_K_S-Variante spart etwa 200 MB gegenüber Q4_K_M, aber mit einem größeren Perplexitätsverlust. Auf einer 6-GB-Karte lässt Q4_K_M bereits 1,1 GB Puffer — die zusätzlichen 200 MB von Q4_K_S werden nicht benötigt, und der Qualitätskompromiss lohnt sich nicht.
Sollte ich Q5_K_M statt Q4_K_M bei 6 GB VRAM verwenden?
Nur wenn Sie den Kontext strikt auf 2k Token begrenzen. Q5_K_M verbessert die Perplexität um etwa 1–1,5 Punkte gegenüber Q4_K_M, aber verwendet 5,7 GB bei einem 8B-Modell und lässt nur 300 MB für den KV-Cache. Setzen Sie `num_ctx 2048` in Ihrem Modelfile oder Ollama-Parametern, um OOM mitten in einer Sitzung zu vermeiden.
Was passiert, wenn mein Modell 6 GB VRAM überschreitet?
Ollama lagert die überschüssigen Schichten in den CPU-RAM aus (mithilfe von llama.cpp Layer-Offloading). Das verursacht einen drastischen Geschwindigkeitseinbruch — von ~25 tok/s GPU-only auf ~3–5 tok/s mit teilweisem CPU-Offload. Wenn Sie "n_gpu_layers"-Warnungen sehen oder die Tokens-pro-Sekunde unter 5 fallen, ist Ihr Modell bei der gewählten Quantisierung zu groß für Ihren VRAM.