PromptQuorumPromptQuorum

Wie viel VRAM brauchen Sie für ein lokales LLM?

Quantization & VRAM

Wichtigste Punkte

  • 4 GB VRAM betreibt Phi-4 Mini Q4 und Gemma 2 2B problemlos
  • 6 GB ist der Einstiegspunkt für Llama 3 8B bei Q4_K_M — das beliebteste lokale Modell
  • 12 GB schaltet Qwen 14B Q4 frei, die beste Qualitäts-pro-Dollar-Stufe
  • 70B-Modelle benötigen 40+ GB — planen Sie für Dual-RTX 3090 oder Apple M-Series mit großem Unified Memory

VRAM-Anforderungen nach Modellgröße

Stand Mai 2026 folgt der VRAM-Bedarf eines Modells einer einfachen Formel: Parameteranzahl in Milliarden × 0,7 = ungefähre GB bei Q4-Quantisierung. Ein 7B-Modell benötigt ~4,9 GB für die Gewichte plus 0,5–1 GB Kontext-Overhead. Deshalb sind 6 GB das Minimum für die 7–8B-Tier und warum 12 GB die 14B-Tier mit Spielraum freischaltet.

Verwenden Sie die nachstehende Tabelle als schnelle Entscheidungsreferenz. Die Spalte "Geschwindigkeit" setzt Ollama auf einer Desktop-GPU mit Standard-Kontext (2048 Tokens) voraus.

Halten Sie stets 1–2 GB VRAM über dem angegebenen Bedarf Ihres Modells frei. Betriebssysteme, Browser-Tabs und die Ollama-Laufzeit verbrauchen 500 MB–1 GB, selbst wenn kein Modell geladen ist. Eine 6-GB-Karte, die ein 5,5-GB-Modell betreibt, lässt nur 500 MB Spielraum — beim Erhöhen von --num-ctx über 2048 Tokens treten sofort Out-of-Memory-Fehler auf. Für die 6-GB-Tier mit sicherem Spielraum, siehe beste lokale LLMs für 6 GB VRAM.

VRAMBestes Modell bei Q4_K_MGeschwindigkeit
4 GBPhi-4 Mini Q4~25 tok/s
6 GBLlama 3 8B Q4_K_M~20 tok/s
8 GBMistral 7B Q5_K_M~18 tok/s
12 GBQwen 14B Q4_K_M~15 tok/s
16+ GBQwen 32B Q4 oder Llama 70B partiell~8 tok/s

Was tun, wenn der VRAM nicht ausreicht

Wenn ein Modell Ihren VRAM überschreitet, haben Sie drei Möglichkeiten: Quantisierung reduzieren (Q4_K_M statt Q5), das Kontextfenster mit --num-ctx 2048 verkleinern oder Ollama Schichten in den System-RAM auslagern lassen.

CPU-Offload funktioniert, ist aber langsam — jede in den RAM verschobene Schicht erhöht die Latenz. Für interaktive Nutzung bleiben Sie innerhalb des VRAM-Limits Ihrer GPU. Die Reduzierung des Kontexts von 4096 auf 2048 Tokens spart etwa 2 GB bei einem 7B-Modell.

Für eine vollständige Aufschlüsselung der Modellgrößen und die Berechnung hinter VRAM-Schätzungen, siehe den vollständigen VRAM-Leitfaden für lokale LLMs. Speziell für die 7B-Tier, siehe wie viel RAM ein 7B-Modell benötigt.

Schnelle Antworten zum Thema VRAM

Reichen 8 GB VRAM für lokale LLMs aus?
Ja. 8 GB betreibt Llama 3 8B bei Q5_K_M mit etwa 18 Tokens pro Sekunde oder Mistral 7B bei Q5_K_M mit ausreichend Spielraum. Die meisten alltäglichen Chat- und Coding-Aufgaben sind bei dieser Tier gut abgedeckt.
Kann ich ein 7B-Modell auf 4 GB VRAM betreiben?
Nein. Ein 7B-Modell bei Q4 benötigt 5–6 GB VRAM. Die kleinste nutzbare Quantisierung überschreitet immer noch 4 GB. Siehe wie viel RAM ein 7B-Modell benötigt für die vollständige Aufschlüsselung.
Beeinflusst die Kontextfenstergröße den VRAM-Verbrauch?
Ja. Jede zusätzliche 1.000 Kontext-Tokens verbraucht etwa 250 MB VRAM bei einem 7B-Modell. Der Standard-2048-Token-Kontext verbraucht ~0,5 GB; 16.384 Tokens verbrauchen ~4 GB zusätzlich zum Modellgewicht.
Was sollte ich tun, wenn mein Modell mehr VRAM als erwartet verbraucht?
Setzen Sie --num-ctx 2048 in Ihrem Ollama-Befehl. Das reduziert den VRAM-Verbrauch bei 7B-Modellen um bis zu 2 GB, ohne die Modelldatei zu ändern.