PromptQuorumPromptQuorum
Startseite/Lokale LLMs/Beste CPU-only LLMs 2026: KI ohne GPU ausführen
Beste Modelle

Beste CPU-only LLMs 2026: KI ohne GPU ausführen

·8 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

CPU-only-Inferenz funktioniert gut für 3–13B-Modelle auf modernen Prozessoren. Beste Optionen: Phi-4 Mini (3,8B, 2,3 GB, 12 Token/Sekunde auf CPU) für allgemeines Chat, Gemma 3 2B (1,5 GB, schnellste) für geschwindigkeitskritische Aufgaben und Llama 3.2 3B (2 GB, ausgewogen) für Qualität. Nutzen Sie Ollama oder llama.cpp mit CPU-Modus. CPU-Inferenz ist 10–30× langsamer als GPU, benötigt aber kein dediziertes Video-VRAM — nur System-RAM.

CPU-only-Inferenz ist praktisch für 3–13B-Modelle auf modernen Prozessoren mit 8–32 GB RAM. Die besten CPU-only-Modelle im Mai 2026 sind Phi-4 Mini (3,8B, ~2,3 GB, 12 Token/Sekunde auf CPU), Gemma 3 2B (1,5 GB, 15 Token/Sekunde) und Llama 3.2 3B (2 GB, 10 Token/Sekunde). Führen Sie über Ollama, LM Studio oder llama.cpp mit aktiviertem CPU-only-Modus aus.

Wichtigste Erkenntnisse

  • CPU-only-Inferenz funktioniert gut für 3–13B-Modelle auf modernen Prozessoren mit 8–32 GB RAM.
  • Beste CPU-Modelle: Phi-4 Mini (3,8B, 2,3 GB, 12 Token/Sekunde), Gemma 3 2B (1,5 GB, 15 Token/Sekunde), Llama 3.2 3B (2 GB, 10 Token/Sekunde).
  • CPU-Inferenz ist 10–30× langsamer als GPU, verwendet aber null dediziertes VRAM.
  • Aktivieren Sie CPU-only-Modus in Ollama oder llama.cpp mit einem einfachen Befehlszeilenflag.
  • CPU-Inferenz ist ideal für Produktions-APIs (kein GPU-Overhead), Edge-Geräte und kostenbegrenzte Umgebungen.

Können CPUs LLMs ausführen?

Ja, moderne CPUs (Intel i7-10. Gen+, AMD Ryzen 5000+, Apple M-Serie) können 3–13B-Modelle mit 8–15 Token pro Sekunde ausführen. Dies ist 10–30× langsamer als GPU, erfordert aber kein dediziertes VRAM. Eine CPU mit ausreichend System-RAM (8–32 GB) kann Modelle ausführen, die einen 300 €+ teuren GPU erfordern würden.

CPU-Inferenz tauscht Geschwindigkeit gegen Zugänglichkeit: Sie erhalten keinen GPU-Overhead, perfekte Stabilität und keine Treiberprobleme. Für gelegentliche Anwendungsfälle (Chatbots, die einige Anfragen pro Sekunde beantworten, Offline-Dokumentverarbeitung) ist CPU-only praktisch.

Moderne CPUs haben AVX-512- oder NEON/SVE-Vektorinstruktionen, die Matrixoperationen beschleunigen. Tools wie llama.cpp und Ollama nutzen diese automatisch, wodurch CPU-Inferenz viel schneller wird als naive Implementierungen.

Beste CPU-only-Modelle 2026

Die nachfolgende Tabelle ordnet Modelle nach Leistung auf Intel i7-12700 (12-Core, AVX-512) mit CPU-only-Modus:

ModellParameterGGUF-GrößeRAM erforderlichCPU-GeschwindigkeitBeste für
Phi-4 Mini3,8B~2,3 GB4 GB12 Token/SekundeAllgemeines Chat, Code-Unterstützung
Gemma 3 2B2B~1,5 GB3 GB15 Token/SekundeSchnelle Antworten, niedriges VRAM
Llama 3.2 3B3B~2 GB3,5 GB10 Token/SekundeAusgewogene Qualität/Geschwindigkeit
Mistral 7B Q47B~4,5 GB6 GB5 Token/SekundeBessere Qualität, 16+ GB RAM
Llama 3.1 8B Q48B~5 GB7 GB4 Token/SekundeKodierung, Logik-Aufgaben

Geschwindigkeit: CPU vs GPU

Die Geschwindigkeit hängt von der Hardware ab. Diese Benchmarks gelten für Standard-Hardware von 2026, die über Ollama oder llama.cpp ausgeführt wird:

HardwareModellGeschwindigkeitNotizen
Intel i7-12700 (CPU)Phi-4 Mini 3,8B12 Token/SekundeAVX-512 aktiviert
AMD Ryzen 7 5700X (CPU)Phi-4 Mini 3,8B9 Token/SekundeNur älteres AVX2
Apple M3 (CPU)Phi-4 Mini 3,8B14 Token/SekundeVorteil des einheitlichen Speichers
RTX 3060 (GPU, 12 GB)Phi-4 Mini 3,8B80 Token/SekundeGPU ist 6,7× schneller
RTX 4090 (GPU, 24 GB)Llama 3.1 8B Q4120 Token/SekundeGPU ist 30× schneller als CPU

RAM-Anforderungen nach Modell

Faustregel: GGUF-Größe + 500 MB Overhead = Minimum-RAM erforderlich. Ein 2 GB GGUF-Modell benötigt 2,5–3 GB freies System-RAM:

ModellGGUF-GrößeMin RAMKomfortabelKontextlänge
Gemma 3 2B~1,5 GB2–2,5 GB4 GB8K
Phi-4 Mini 3,8B~2,3 GB3 GB6 GB4K
Llama 3.2 3B~2 GB2,5–3 GB6 GB8K
Mistral 7B Q4~4,5 GB5 GB8 GB32K
Llama 3.1 8B Q4~5 GB6 GB12 GB128K

So führen Sie CPU-only-Modus aus

Ollama (am einfachsten): Führen Sie einfach `ollama run phi:mini` aus. Ollama erkennt CPU-only auf Systemen ohne NVIDIA/AMD-GPUs automatisch und nutzt System-RAM. LM Studio: Öffnen Sie Einstellungen → wählen Sie "Keine" unter GPU, um CPU-Modus zu erzwingen. Llama.cpp: Verwenden Sie das Flag `--n-gpu-layers 0`, um GPU-Offloading zu deaktivieren.

bash
ollama run phi:mini
# Ollama erkennt CPU-only-Systeme automatisch

Optimierungstipps für CPU-Inferenz

Um maximale Leistung aus CPU-Inferenz herauszuholen:

  • Verwenden Sie Q4_K_M-Quantisierung — reduziert GGUF-Größe um ~70%, minimaler Qualitätsverlust, 10–20% Geschwindigkeitssteigerung durch besseres Cache-Verhalten.
  • Reduzieren Sie das Kontextfenster — längere Kontexte = langsamere Inferenz. Verwenden Sie `--context 2048`, um den Kontext auf 2K Token zu begrenzen.
  • Aktivieren Sie Multi-Threading — Ollama und llama.cpp erkennen die CPU-Kernanzahl automatisch. Überprüfen Sie mit `nproc`, ob sie übereinstimmt.
  • Verwenden Sie AVX-512 oder ARM NEON — moderne Intel/AMD/ARM-CPUs haben Vektorinstruktionen. Überprüfen Sie CPU-Flags: `cat /proc/cpuinfo | grep avx512` (Linux) oder Apple Info → Systembericht (Mac).
  • Batch-Größe = 1 — CPU verarbeitet Single-Sequence-Inferenz am besten. Versuchen Sie nicht Multi-Batch auf CPU.
  • Threads an Kernen fixieren — auf Linux verwenden Sie `numactl --cpunodebind=0 ollama run phi:mini`, um Kern-Wechsel-Overhead zu vermeiden.

Wann Sie CPU vs GPU nutzen

AnwendungsfallCPUGPU
Echtzeit-Chat (Latenz < 1 Sekunde)❌ Zu langsam (12 Token/Sekunde = 5 Sekunden für 60 Token)✅ 80+ Token/Sekunde
Batch-Verarbeitung (Dokumente, Logs)✅ Gut (Geschwindigkeit spielt keine Rolle)⚠️ Overkill
Produktions-API (kostenbegrenzt)✅ €0 Hardware-Kosten⚠️ 200 €+ GPU + Strom
Edge-Gerät (Raspberry Pi)✅ Keine Alternative❌ Begrenzte GPU-Optionen
Entwicklung / lokale Tests✅ Niedrigere Leistung, leiser⚠️ Overkill
LLM-Feinabstimmung❌ Zu langsam (Stunden → Tage)✅ 10–30× Beschleunigung

FAQ

Wie schnell ist CPU-only-Inferenz im Vergleich zu einer GPU?

CPU: 8–15 Token/Sekunde auf modernen Prozessoren. GPU (RTX 3060): 80 Token/Sekunde. GPU (RTX 4090): 120+ Token/Sekunde. CPU ist 10–30× langsamer, erfordert aber eine €0 GPU-Investition.

Welches ist das kleinste Modell, das auf CPU noch kohärente Ausgaben produziert?

Gemma 3 2B (1,5 GB) produziert angemessene Antworten. Darunter sinkt die Qualität. Für beste Qualität auf 8 GB RAM verwenden Sie Phi-4 Mini (3,8B) oder Llama 3.2 3B (2 GB).

Kann ich ein 13B-Modell auf CPU ausführen?

Ja, mit Q4_K_M-Quantisierung ist ein 13B-Modell ~6,5 GB. Benötigt 8–12 GB System-RAM. Geschwindigkeit: ~2–3 Token/Sekunde. Unbequem für interaktive Nutzung, funktioniert aber für Batch-Verarbeitung.

Verwendet CPU-Inferenz die GPU überhaupt?

Nein. CPU-only-Modus in Ollama/llama.cpp deaktiviert GPU-Nutzung explizit und nutzt ausschließlich System-RAM.

Ist CPU-only-Inferenz stabil?

Ja, stabiler als GPU. Keine Treiberabstürze, keine GPU-Speicherfehlermeldungen. Das einzige Risiko ist System-RAM-Sättigung, die Sie durch Modellwahl kontrollieren.

Muss ich Einstellungen für Apple Silicon CPUs anpassen?

Nein. Ollama erkennt M1/M2/M3/M4 automatisch und nutzt einheitlichen Speicher effizient. Apple Silicon ist ~10–20% schneller als äquivalente Intel-CPUs aufgrund der Speicherarchitektur.

Muss ich bei der Verwendung von CPU-only LLMs die DSGVO beachten?

Ja, aber positiv für DSGVO-Compliance. CPU-only-Inferenz bedeutet, dass alle Daten lokal verbleiben — Sie kontrollieren die Datenspeicherung vollständig. Für sensible berufliche Daten erfüllt dies die DSGVO-Anforderungen an Datenresidenz und Verarbeitung. Ein großes Pluspunkt: Sie benötigen keine Cloud-Infrastruktur oder Datenübertragungen, was die DSGVO-Compliance vereinfacht. Stellen Sie sicher, dass Ihr System selbst nach BSI-Grundschutz-Katalogen gesichert ist.

Sind CPU-only-Modelle für den deutschen Mittelstand geeignet?

Absolut. Für Mittelständler sind CPU-only LLMs ideal: (1) Keine GPU-Hardware-Investitionen erforderlich — verwenden Sie vorhandene Unternehmens-Server oder Arbeitsplatz-Hardware. (2) Erfüllt IT-Sicherheitsstandards — lokal gehostete Modelle erfüllen BSI-Grundschutz-Kataloge besser als Cloud-APIs. (3) Kosteneffizient für Dokumentenverarbeitung, Kundenservice-Chatbots und Datenbankabfragen — Durchsatz ist nicht zeitkritisch. (4) Datenschutz — sensitive Kundendaten bleiben im Unternehmen. Ideale Anwendungsfälle: Rechnungsverarbeitung, Vertragsanalyse, interne Wissensbasen, HR-Chatbots.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum kostenlos testen →

← Zurück zu Lokale LLMs

Beste CPU-only LLMs 2026: Phi-4 Mini vs Gemma 3 vs Llama 3.2 (4–8 GB RAM)