Wie viel RAM braucht ein 7B-Modell?
Wichtigste Punkte
- ✓Ein 7B-Modell bei Q4 benötigt 5–6 GB VRAM — planen Sie 6 GB ein, um den Kontextfenster-Overhead zu berücksichtigen
- ✓Faustregel: Parameteranzahl in Milliarden × 0,7 = ungefähre GB bei Q4
- ✓Das Kontextfenster auf 16K Tokens zu erweitern, fügt ~4 GB zum Modellgewicht hinzu
Die Faustregel für CPU und GPU
Stand Mai 2026 benötigt ein 7B-Modell bei Q4 5–6 GB Arbeitsspeicher — entweder System-RAM (nur CPU-Inferenz) oder VRAM (GPU-Inferenz). Die Menge ist identisch; was sich ändert, ist die Geschwindigkeit. CPU-Inferenz läuft auf einem modernen 8-Kern-Prozessor mit ~5 Tokens pro Sekunde. GPU-Inferenz erreicht auf einer Karte mit ausreichend VRAM 20–25 Tokens pro Sekunde.
Bei reiner CPU-Nutzung dividieren Sie die GPU-Geschwindigkeitsspalte durch 5× für eine 8-Kern-Schätzung. Ein 7B-Modell bei Q4 läuft mit ~5 tok/s auf der CPU, ~25 auf der GPU. Dieser 5×-Unterschied ist der Grund, warum sich eine Budget-GPU für interaktive Nutzung lohnt.
| Modellgröße | Q4-Speicher | GPU-Geschwindigkeit |
|---|---|---|
| 3B | ~2 GB | ~40 tok/s |
| 7B | ~5 GB | ~25 tok/s |
| 8B | ~5,5 GB | ~22 tok/s |
| 13B | ~9 GB | ~15 tok/s |
Wann CPU, wann GPU wählen
Wählen Sie nur CPU, wenn Sie 16+ GB System-RAM haben und Ihre Aufgaben im Batch- oder Hintergrundmodus laufen (nächtliche Dokumentenanalyse, geplante Zusammenfassungen). Die ~5 tok/s sind für nicht-interaktive Arbeit akzeptabel und vermeiden GPU-Kosten vollständig.
Wählen Sie die GPU, wenn Sie interaktiven Chat oder Coding benötigen. Der 5×-Geschwindigkeitsunterschied spielt bei Echtzeitnutzung eine wesentliche Rolle. Selbst eine Budget-RTX 3050 6 GB liefert ~22 tok/s bei Llama 3 8B Q4_K_M — schnell genug für Chat, der sich unmittelbar anfühlt.
Für die vollständige VRAM-Aufschlüsselung nach GPU-Tier, siehe wie viel VRAM ein lokales LLM benötigt. Für die vollständige Hardware-Referenz, siehe den vollständigen VRAM-Leitfaden für lokale LLMs.
Verwandte Leitfäden
- ▸Mistral Small 24B vs Qwen 14B vs Llama 8B Vergleich -- Mistral Small 24B vs Qwen 14B vs Llama 8B comparison
- ▸Beste SSD für schnelles Modellladen -- best SSD for fast model loading
- ▸Kann man RAG mit 2 GB RAM ausführen? -- can you run RAG on 2 GB RAM?
Schnelle Antworten zum RAM-Bedarf von 7B-Modellen
Reichen 8 GB System-RAM, um ein 7B-Modell ohne GPU zu betreiben?▾
Wie viel VRAM benötigt Llama 3 8B genau?▾
Was passiert, wenn ein Modell den verfügbaren VRAM überschreitet?▾
--num-ctx 2048.