PromptQuorumPromptQuorum

Die besten Ollama-Modelle nur für die CPU?

Schnelle Antwort

Ohne GPU bietet Phi-4 Mini bei Q4 die beste Balance aus Qualität und Geschwindigkeit auf der CPU. Llama 3 8B Q4 funktioniert mit 8+ GB RAM. Gemma 2B ist die schnellste CPU-Option.

  • Phi-4 Mini Q4: bestes Qualitäts-/Geschwindigkeitsverhältnis auf der CPU, benötigt 4 GB RAM
  • Llama 3 8B Q4: beste Qualität, benötigt 8 GB RAM (langsamer)
  • Gemma 2B: schnellste CPU-Inferenz, 2 GB RAM

Aktualisiert: 2026-05

Ollama

Wichtigste Punkte

  • CPU-Inferenz ist 5–10× langsamer als GPU — rechnen Sie mit 3–6 tok/s auf einem modernen 8-Kern-Desktop-CPU
  • Phi-4 Mini Q4 ist die beste CPU-only-Wahl: 4 GB RAM, ~5 tok/s, starke Reasoning-Qualität
  • Gemma 2B ist auf der CPU am schnellsten (~6 tok/s), hat jedoch eine geringere Reasoning-Qualität als Phi-4 Mini
  • CPU-Inferenz ist praktisch für Batch-Jobs und Einzelanfragen; für interaktiven Chat ist sie zu langsam

Die Realität der CPU-Geschwindigkeit

Stand Mai 2026 läuft CPU-Inferenz auf einem modernen 8-Kern-Desktop-CPU mit 3–6 Tokens pro Sekunde — etwa 5–10× langsamer als eine Mid-Range-GPU. Ein 7B-Modell bei Q4 erzeugt auf der CPU ungefähr alle 200–300 Millisekunden ein Wort.

Diese Geschwindigkeit ist für zwei Anwendungsfälle akzeptabel: nächtliche Stapelverarbeitung wie das Zusammenfassen von Dokumenten oder das Klassifizieren von Daten sowie Einzelanfragen, bei denen eine Wartezeit von 30 Sekunden akzeptabel ist. Für interaktiven Chat oder Echtzeit-Code-Vervollständigung ist CPU-Inferenz zu langsam.

Der eigentliche Engpass ist die Speicherbandbreite, nicht die CPU-Taktfrequenz. Consumer-CPUs lesen RAM mit 40–80 GB/s. Eine dedizierte GPU liest VRAM mit 400–900 GB/s. LLM-Inferenz skaliert direkt mit der Speicherbandbreite — weshalb selbst eine Mid-Range-GPU eine dramatisch schnellere Inferenz liefert als eine High-End-CPU.

Top 3 Modelle für den reinen CPU-Betrieb

Das richtige CPU-only-Modell hängt davon ab, ob Sie Qualität oder Geschwindigkeit priorisieren. Phi-4 Mini Q4 bietet die beste Balance — es liefert Reasoning-Qualität nahe an Llama 3 8B, benötigt aber nur 4 GB RAM und läuft spürbar schneller.

Gemma 2B ist die einzige praktikable Option, wenn der RAM auf 2 GB begrenzt ist. Es erreicht ~6 tok/s auf der CPU, liefert bei mehrstufigen Reasoning-Aufgaben jedoch spürbar schlechtere Antworten als Phi-4 Mini.

Eine vollständige Übersicht der CPU-only-Konfigurationen einschließlich RAM-Anforderungen und OS-Level-Optimierungen finden Sie im Leitfaden für die besten CPU-only-LLMs.

ModellBenötigter RAMCPU-Geschwindigkeit
Phi-4 Mini Q44 GB~4–5 tok/s
Llama 3 8B Q48 GB~3 tok/s
Gemma 2B2 GB~6 tok/s

Schnelle Antworten zu CPU-only-LLMs

Wie viel RAM benötige ich für CPU-only Ollama?
Mindestens 2 GB für Gemma 2B. 4 GB für Phi-4 Mini Q4. 8 GB für Llama 3 8B Q4. Rechnen Sie 1–2 GB zusätzlich zum Modell-Größe für den Overhead von Betriebssystem und Ollama-Laufzeitumgebung.
Warum ist CPU-Inferenz so viel langsamer als GPU?
LLM-Inferenz ist durch die Speicherbandbreite begrenzt. Consumer-CPUs lesen RAM mit 40–80 GB/s. Eine Mid-Range-GPU liest VRAM mit 400–900 GB/s. Dieser 10-fache Bandbreitenunterschied übersetzt sich direkt in eine 5–10-fach langsamere Token-Generierung.
Kann ich Ollama auf einem Laptop ohne dedizierte GPU verwenden?
Ja. Ollama läuft automatisch auf der CPU, wenn keine GPU erkannt wird. Rechnen Sie mit 3–5 tok/s auf einem modernen Laptop-CPU. Unter den besten Ollama-Modellen aktuell finden Sie GPU-Tier-Empfehlungen, falls Sie später aufrüsten.
Welche CPUs sind für lokale LLM-Inferenz am schnellsten?
Apple M-series-Chips (M3, M4) nutzen eine Unified-Memory-Architektur und erreichen 15–30 tok/s bei 7B-Modellen — weit überlegen gegenüber x86-CPUs bei reiner CPU-Inferenz. Unter den x86-CPUs schneiden diejenigen mit höherer Speicherbandbreite und großem L3-Cache am besten ab.