Schnelle Antwort
Ohne GPU bietet Phi-4 Mini bei Q4 die beste Balance aus Qualität und Geschwindigkeit auf der CPU. Llama 3 8B Q4 funktioniert mit 8+ GB RAM. Gemma 2B ist die schnellste CPU-Option.
Aktualisiert: 2026-05
Wichtigste Punkte
Stand Mai 2026 läuft CPU-Inferenz auf einem modernen 8-Kern-Desktop-CPU mit 3–6 Tokens pro Sekunde — etwa 5–10× langsamer als eine Mid-Range-GPU. Ein 7B-Modell bei Q4 erzeugt auf der CPU ungefähr alle 200–300 Millisekunden ein Wort.
Diese Geschwindigkeit ist für zwei Anwendungsfälle akzeptabel: nächtliche Stapelverarbeitung wie das Zusammenfassen von Dokumenten oder das Klassifizieren von Daten sowie Einzelanfragen, bei denen eine Wartezeit von 30 Sekunden akzeptabel ist. Für interaktiven Chat oder Echtzeit-Code-Vervollständigung ist CPU-Inferenz zu langsam.
Der eigentliche Engpass ist die Speicherbandbreite, nicht die CPU-Taktfrequenz. Consumer-CPUs lesen RAM mit 40–80 GB/s. Eine dedizierte GPU liest VRAM mit 400–900 GB/s. LLM-Inferenz skaliert direkt mit der Speicherbandbreite — weshalb selbst eine Mid-Range-GPU eine dramatisch schnellere Inferenz liefert als eine High-End-CPU.
Das richtige CPU-only-Modell hängt davon ab, ob Sie Qualität oder Geschwindigkeit priorisieren. Phi-4 Mini Q4 bietet die beste Balance — es liefert Reasoning-Qualität nahe an Llama 3 8B, benötigt aber nur 4 GB RAM und läuft spürbar schneller.
Gemma 2B ist die einzige praktikable Option, wenn der RAM auf 2 GB begrenzt ist. Es erreicht ~6 tok/s auf der CPU, liefert bei mehrstufigen Reasoning-Aufgaben jedoch spürbar schlechtere Antworten als Phi-4 Mini.
Eine vollständige Übersicht der CPU-only-Konfigurationen einschließlich RAM-Anforderungen und OS-Level-Optimierungen finden Sie im Leitfaden für die besten CPU-only-LLMs.
| Modell | Benötigter RAM | CPU-Geschwindigkeit |
|---|---|---|
| Phi-4 Mini Q4 | 4 GB | ~4–5 tok/s |
| Llama 3 8B Q4 | 8 GB | ~3 tok/s |
| Gemma 2B | 2 GB | ~6 tok/s |