PromptQuorumPromptQuorum

Wie viel RAM braucht ein 7B-Modell?

Quantization & VRAM

Wichtigste Punkte

  • Ein 7B-Modell bei Q4 benötigt 5–6 GB VRAM — planen Sie 6 GB ein, um den Kontextfenster-Overhead zu berücksichtigen
  • Faustregel: Parameteranzahl in Milliarden × 0,7 = ungefähre GB bei Q4
  • Das Kontextfenster auf 16K Tokens zu erweitern, fügt ~4 GB zum Modellgewicht hinzu

Die Faustregel für CPU und GPU

Stand Mai 2026 benötigt ein 7B-Modell bei Q4 5–6 GB Arbeitsspeicher — entweder System-RAM (nur CPU-Inferenz) oder VRAM (GPU-Inferenz). Die Menge ist identisch; was sich ändert, ist die Geschwindigkeit. CPU-Inferenz läuft auf einem modernen 8-Kern-Prozessor mit ~5 Tokens pro Sekunde. GPU-Inferenz erreicht auf einer Karte mit ausreichend VRAM 20–25 Tokens pro Sekunde.

Bei reiner CPU-Nutzung dividieren Sie die GPU-Geschwindigkeitsspalte durch 5× für eine 8-Kern-Schätzung. Ein 7B-Modell bei Q4 läuft mit ~5 tok/s auf der CPU, ~25 auf der GPU. Dieser 5×-Unterschied ist der Grund, warum sich eine Budget-GPU für interaktive Nutzung lohnt.

ModellgrößeQ4-SpeicherGPU-Geschwindigkeit
3B~2 GB~40 tok/s
7B~5 GB~25 tok/s
8B~5,5 GB~22 tok/s
13B~9 GB~15 tok/s

Wann CPU, wann GPU wählen

Wählen Sie nur CPU, wenn Sie 16+ GB System-RAM haben und Ihre Aufgaben im Batch- oder Hintergrundmodus laufen (nächtliche Dokumentenanalyse, geplante Zusammenfassungen). Die ~5 tok/s sind für nicht-interaktive Arbeit akzeptabel und vermeiden GPU-Kosten vollständig.

Wählen Sie die GPU, wenn Sie interaktiven Chat oder Coding benötigen. Der 5×-Geschwindigkeitsunterschied spielt bei Echtzeitnutzung eine wesentliche Rolle. Selbst eine Budget-RTX 3050 6 GB liefert ~22 tok/s bei Llama 3 8B Q4_K_M — schnell genug für Chat, der sich unmittelbar anfühlt.

Für die vollständige VRAM-Aufschlüsselung nach GPU-Tier, siehe wie viel VRAM ein lokales LLM benötigt. Für die vollständige Hardware-Referenz, siehe den vollständigen VRAM-Leitfaden für lokale LLMs.

Schnelle Antworten zum RAM-Bedarf von 7B-Modellen

Reichen 8 GB System-RAM, um ein 7B-Modell ohne GPU zu betreiben?
Ja. Bei reiner CPU-Nutzung verbraucht ein 7B-Modell bei Q4 ~5–6 GB System-RAM und läuft mit 3–6 tok/s auf einem modernen 8-Kern-Prozessor. Sehen Sie den VRAM-Leitfaden für GPU-beschleunigte Optionen.
Wie viel VRAM benötigt Llama 3 8B genau?
~5,5 GB bei Q4_K_M für die Modellgewichte. Addieren Sie 0,5–1 GB für ein Kontextfenster mit 4096 Tokens. Planen Sie insgesamt 6–7 GB ein, um VRAM-Überlauf zu vermeiden.
Was passiert, wenn ein Modell den verfügbaren VRAM überschreitet?
Ollama lagert Schichten in den System-RAM aus, der 10–20× langsamer ist. Das Modell läuft weiterhin, aber die Generierungsgeschwindigkeit sinkt erheblich. Um dies zu verhindern, reduzieren Sie die Quantisierung oder den Kontext mit --num-ctx 2048.
Ist GPU-Inferenz immer besser als CPU?
Nicht für jeden Anwendungsfall. Für Batch-Aufgaben, geplante Verarbeitung oder nicht-interaktive Nutzung sind ~5 tok/s auf der CPU akzeptabel und vermeiden GPU-Kosten. Für Echtzeit-Chat oder Coding sind die 20–25 tok/s der GPU unverzichtbar.