Wichtigste Erkenntnisse
- CPU-only-Inferenz funktioniert gut für 3–13B-Modelle auf modernen Prozessoren mit 8–32 GB RAM.
- Beste CPU-Modelle: Phi-4 Mini (3,8B, 2,3 GB, 12 Token/Sekunde), Gemma 3 2B (1,5 GB, 15 Token/Sekunde), Llama 3.2 3B (2 GB, 10 Token/Sekunde).
- CPU-Inferenz ist 10–30× langsamer als GPU, verwendet aber null dediziertes VRAM.
- Aktivieren Sie CPU-only-Modus in Ollama oder llama.cpp mit einem einfachen Befehlszeilenflag.
- CPU-Inferenz ist ideal für Produktions-APIs (kein GPU-Overhead), Edge-Geräte und kostenbegrenzte Umgebungen.
Können CPUs LLMs ausführen?
Ja, moderne CPUs (Intel i7-10. Gen+, AMD Ryzen 5000+, Apple M-Serie) können 3–13B-Modelle mit 8–15 Token pro Sekunde ausführen. Dies ist 10–30× langsamer als GPU, erfordert aber kein dediziertes VRAM. Eine CPU mit ausreichend System-RAM (8–32 GB) kann Modelle ausführen, die einen 300 €+ teuren GPU erfordern würden.
CPU-Inferenz tauscht Geschwindigkeit gegen Zugänglichkeit: Sie erhalten keinen GPU-Overhead, perfekte Stabilität und keine Treiberprobleme. Für gelegentliche Anwendungsfälle (Chatbots, die einige Anfragen pro Sekunde beantworten, Offline-Dokumentverarbeitung) ist CPU-only praktisch.
Moderne CPUs haben AVX-512- oder NEON/SVE-Vektorinstruktionen, die Matrixoperationen beschleunigen. Tools wie llama.cpp und Ollama nutzen diese automatisch, wodurch CPU-Inferenz viel schneller wird als naive Implementierungen.
Beste CPU-only-Modelle 2026
Die nachfolgende Tabelle ordnet Modelle nach Leistung auf Intel i7-12700 (12-Core, AVX-512) mit CPU-only-Modus:
| Modell | Parameter | GGUF-Größe | RAM erforderlich | CPU-Geschwindigkeit | Beste für |
|---|---|---|---|---|---|
| Phi-4 Mini | 3,8B | ~2,3 GB | 4 GB | 12 Token/Sekunde | Allgemeines Chat, Code-Unterstützung |
| Gemma 3 2B | 2B | ~1,5 GB | 3 GB | 15 Token/Sekunde | Schnelle Antworten, niedriges VRAM |
| Llama 3.2 3B | 3B | ~2 GB | 3,5 GB | 10 Token/Sekunde | Ausgewogene Qualität/Geschwindigkeit |
| Mistral 7B Q4 | 7B | ~4,5 GB | 6 GB | 5 Token/Sekunde | Bessere Qualität, 16+ GB RAM |
| Llama 3.1 8B Q4 | 8B | ~5 GB | 7 GB | 4 Token/Sekunde | Kodierung, Logik-Aufgaben |
Geschwindigkeit: CPU vs GPU
Die Geschwindigkeit hängt von der Hardware ab. Diese Benchmarks gelten für Standard-Hardware von 2026, die über Ollama oder llama.cpp ausgeführt wird:
| Hardware | Modell | Geschwindigkeit | Notizen |
|---|---|---|---|
| Intel i7-12700 (CPU) | Phi-4 Mini 3,8B | 12 Token/Sekunde | AVX-512 aktiviert |
| AMD Ryzen 7 5700X (CPU) | Phi-4 Mini 3,8B | 9 Token/Sekunde | Nur älteres AVX2 |
| Apple M3 (CPU) | Phi-4 Mini 3,8B | 14 Token/Sekunde | Vorteil des einheitlichen Speichers |
| RTX 3060 (GPU, 12 GB) | Phi-4 Mini 3,8B | 80 Token/Sekunde | GPU ist 6,7× schneller |
| RTX 4090 (GPU, 24 GB) | Llama 3.1 8B Q4 | 120 Token/Sekunde | GPU ist 30× schneller als CPU |
RAM-Anforderungen nach Modell
Faustregel: GGUF-Größe + 500 MB Overhead = Minimum-RAM erforderlich. Ein 2 GB GGUF-Modell benötigt 2,5–3 GB freies System-RAM:
| Modell | GGUF-Größe | Min RAM | Komfortabel | Kontextlänge |
|---|---|---|---|---|
| Gemma 3 2B | ~1,5 GB | 2–2,5 GB | 4 GB | 8K |
| Phi-4 Mini 3,8B | ~2,3 GB | 3 GB | 6 GB | 4K |
| Llama 3.2 3B | ~2 GB | 2,5–3 GB | 6 GB | 8K |
| Mistral 7B Q4 | ~4,5 GB | 5 GB | 8 GB | 32K |
| Llama 3.1 8B Q4 | ~5 GB | 6 GB | 12 GB | 128K |
So führen Sie CPU-only-Modus aus
Ollama (am einfachsten): Führen Sie einfach `ollama run phi:mini` aus. Ollama erkennt CPU-only auf Systemen ohne NVIDIA/AMD-GPUs automatisch und nutzt System-RAM. LM Studio: Öffnen Sie Einstellungen → wählen Sie "Keine" unter GPU, um CPU-Modus zu erzwingen. Llama.cpp: Verwenden Sie das Flag `--n-gpu-layers 0`, um GPU-Offloading zu deaktivieren.
ollama run phi:mini
# Ollama erkennt CPU-only-Systeme automatischOptimierungstipps für CPU-Inferenz
Um maximale Leistung aus CPU-Inferenz herauszuholen:
- Verwenden Sie Q4_K_M-Quantisierung — reduziert GGUF-Größe um ~70%, minimaler Qualitätsverlust, 10–20% Geschwindigkeitssteigerung durch besseres Cache-Verhalten.
- Reduzieren Sie das Kontextfenster — längere Kontexte = langsamere Inferenz. Verwenden Sie `--context 2048`, um den Kontext auf 2K Token zu begrenzen.
- Aktivieren Sie Multi-Threading — Ollama und llama.cpp erkennen die CPU-Kernanzahl automatisch. Überprüfen Sie mit `nproc`, ob sie übereinstimmt.
- Verwenden Sie AVX-512 oder ARM NEON — moderne Intel/AMD/ARM-CPUs haben Vektorinstruktionen. Überprüfen Sie CPU-Flags: `cat /proc/cpuinfo | grep avx512` (Linux) oder Apple Info → Systembericht (Mac).
- Batch-Größe = 1 — CPU verarbeitet Single-Sequence-Inferenz am besten. Versuchen Sie nicht Multi-Batch auf CPU.
- Threads an Kernen fixieren — auf Linux verwenden Sie `numactl --cpunodebind=0 ollama run phi:mini`, um Kern-Wechsel-Overhead zu vermeiden.
Wann Sie CPU vs GPU nutzen
| Anwendungsfall | CPU | GPU |
|---|---|---|
| Echtzeit-Chat (Latenz < 1 Sekunde) | ❌ Zu langsam (12 Token/Sekunde = 5 Sekunden für 60 Token) | ✅ 80+ Token/Sekunde |
| Batch-Verarbeitung (Dokumente, Logs) | ✅ Gut (Geschwindigkeit spielt keine Rolle) | ⚠️ Overkill |
| Produktions-API (kostenbegrenzt) | ✅ €0 Hardware-Kosten | ⚠️ 200 €+ GPU + Strom |
| Edge-Gerät (Raspberry Pi) | ✅ Keine Alternative | ❌ Begrenzte GPU-Optionen |
| Entwicklung / lokale Tests | ✅ Niedrigere Leistung, leiser | ⚠️ Overkill |
| LLM-Feinabstimmung | ❌ Zu langsam (Stunden → Tage) | ✅ 10–30× Beschleunigung |
FAQ
Wie schnell ist CPU-only-Inferenz im Vergleich zu einer GPU?
CPU: 8–15 Token/Sekunde auf modernen Prozessoren. GPU (RTX 3060): 80 Token/Sekunde. GPU (RTX 4090): 120+ Token/Sekunde. CPU ist 10–30× langsamer, erfordert aber eine €0 GPU-Investition.
Welches ist das kleinste Modell, das auf CPU noch kohärente Ausgaben produziert?
Gemma 3 2B (1,5 GB) produziert angemessene Antworten. Darunter sinkt die Qualität. Für beste Qualität auf 8 GB RAM verwenden Sie Phi-4 Mini (3,8B) oder Llama 3.2 3B (2 GB).
Kann ich ein 13B-Modell auf CPU ausführen?
Ja, mit Q4_K_M-Quantisierung ist ein 13B-Modell ~6,5 GB. Benötigt 8–12 GB System-RAM. Geschwindigkeit: ~2–3 Token/Sekunde. Unbequem für interaktive Nutzung, funktioniert aber für Batch-Verarbeitung.
Verwendet CPU-Inferenz die GPU überhaupt?
Nein. CPU-only-Modus in Ollama/llama.cpp deaktiviert GPU-Nutzung explizit und nutzt ausschließlich System-RAM.
Ist CPU-only-Inferenz stabil?
Ja, stabiler als GPU. Keine Treiberabstürze, keine GPU-Speicherfehlermeldungen. Das einzige Risiko ist System-RAM-Sättigung, die Sie durch Modellwahl kontrollieren.
Muss ich Einstellungen für Apple Silicon CPUs anpassen?
Nein. Ollama erkennt M1/M2/M3/M4 automatisch und nutzt einheitlichen Speicher effizient. Apple Silicon ist ~10–20% schneller als äquivalente Intel-CPUs aufgrund der Speicherarchitektur.
Muss ich bei der Verwendung von CPU-only LLMs die DSGVO beachten?
Ja, aber positiv für DSGVO-Compliance. CPU-only-Inferenz bedeutet, dass alle Daten lokal verbleiben — Sie kontrollieren die Datenspeicherung vollständig. Für sensible berufliche Daten erfüllt dies die DSGVO-Anforderungen an Datenresidenz und Verarbeitung. Ein großes Pluspunkt: Sie benötigen keine Cloud-Infrastruktur oder Datenübertragungen, was die DSGVO-Compliance vereinfacht. Stellen Sie sicher, dass Ihr System selbst nach BSI-Grundschutz-Katalogen gesichert ist.
Sind CPU-only-Modelle für den deutschen Mittelstand geeignet?
Absolut. Für Mittelständler sind CPU-only LLMs ideal: (1) Keine GPU-Hardware-Investitionen erforderlich — verwenden Sie vorhandene Unternehmens-Server oder Arbeitsplatz-Hardware. (2) Erfüllt IT-Sicherheitsstandards — lokal gehostete Modelle erfüllen BSI-Grundschutz-Kataloge besser als Cloud-APIs. (3) Kosteneffizient für Dokumentenverarbeitung, Kundenservice-Chatbots und Datenbankabfragen — Durchsatz ist nicht zeitkritisch. (4) Datenschutz — sensitive Kundendaten bleiben im Unternehmen. Ideale Anwendungsfälle: Rechnungsverarbeitung, Vertragsanalyse, interne Wissensbasen, HR-Chatbots.