Wichtigste Punkte
Stand Mai 2026 benötigt ein 7B-Modell bei Q4 5–6 GB Arbeitsspeicher — entweder System-RAM (nur CPU-Inferenz) oder VRAM (GPU-Inferenz). Die Menge ist identisch; was sich ändert, ist die Geschwindigkeit. CPU-Inferenz läuft auf einem modernen 8-Kern-Prozessor mit ~5 Tokens pro Sekunde. GPU-Inferenz erreicht auf einer Karte mit ausreichend VRAM 20–25 Tokens pro Sekunde.
Bei reiner CPU-Nutzung dividieren Sie die GPU-Geschwindigkeitsspalte durch 5× für eine 8-Kern-Schätzung. Ein 7B-Modell bei Q4 läuft mit ~5 tok/s auf der CPU, ~25 auf der GPU. Dieser 5×-Unterschied ist der Grund, warum sich eine Budget-GPU für interaktive Nutzung lohnt.
| Modellgröße | Q4-Speicher | GPU-Geschwindigkeit |
|---|---|---|
| 3B | ~2 GB | ~40 tok/s |
| 7B | ~5 GB | ~25 tok/s |
| 8B | ~5,5 GB | ~22 tok/s |
| 13B | ~9 GB | ~15 tok/s |
Wählen Sie nur CPU, wenn Sie 16+ GB System-RAM haben und Ihre Aufgaben im Batch- oder Hintergrundmodus laufen (nächtliche Dokumentenanalyse, geplante Zusammenfassungen). Die ~5 tok/s sind für nicht-interaktive Arbeit akzeptabel und vermeiden GPU-Kosten vollständig.
Wählen Sie die GPU, wenn Sie interaktiven Chat oder Coding benötigen. Der 5×-Geschwindigkeitsunterschied spielt bei Echtzeitnutzung eine wesentliche Rolle. Selbst eine Budget-RTX 3050 6 GB liefert ~22 tok/s bei Llama 3 8B Q4_K_M — schnell genug für Chat, der sich unmittelbar anfühlt.
Für die vollständige VRAM-Aufschlüsselung nach GPU-Tier, siehe wie viel VRAM ein lokales LLM benötigt. Für die vollständige Hardware-Referenz, siehe den vollständigen VRAM-Leitfaden für lokale LLMs.
--num-ctx 2048.