Skip to main content
PromptQuorumPromptQuorum
Startseite/Lokale LLMs/GPU vs CPU vs Apple Silicon für lokale LLMs 2026: Was gewinnt?
Hardware & Leistung

GPU vs CPU vs Apple Silicon für lokale LLMs 2026: Was gewinnt?

·11 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Apple M5 Pro (64 GB, ~2.399 $) ist der beste Allround-Sieger 2026 — größere Modelle als jede einzelne GPU, günstig im Verbrauch (10× weniger Strom als RTX 5090). RTX 50-Serie nur wählen für maximale Geschwindigkeit bei 7B–14B oder Produktionsworkloads.

Apple M5 Pro (64 GB, ~2.399 $) ist 2026 die beste Allround-Plattform für lokale LLMs. Er führt 30B+-Modelle im einheitlichen Speicher mit 40–60 Tok/s bei geringer Leistungsaufnahme (~25 W) aus. Die NVIDIA RTX 5090 ist bei 7B–14B-Modellen schneller, kann jedoch 30B+ nicht ohne CPU-Offloading laden. Nur-CPU ist für 7B-Modelle mit 10–20 Tok/s auf moderner Hardware nutzbar.

Präsentation: GPU vs CPU vs Apple Silicon für lokale LLMs 2026: Was gewinnt?

Das Folien-Deck unten deckt ab: NVIDIA GPU vs Apple Silicon vs CPU Leistung (150 Tok/s vs 25 Tok/s vs 5 Tok/s), Kosten-pro-Token-Analyse, wann man sich für jede Plattform entscheidet, häufige Fehler bei der Hardware-Wahl. Laden Sie die PDF als GPU vs CPU Hardware-Vergleichs-Referenzkarte herunter.

Folien unten ansehen oder als PDF herunterladen. Präsentation herunterladen (PDF)

Wichtigste Erkenntnisse

  • GPU (NVIDIA RTX 5090): 200 Token/s bei 8B-Modellen. Beste Leistung, 2.000 €.
  • GPU (NVIDIA RTX 4090): 150 Token/s bei 8B-Modellen. Bestes Preis-Leistungs-Verhältnis: RTX 4070 Ti mit 80 Tok/s für 600 €.
  • Apple Silicon M2 Ultra: 60 Token/s bei 8B, 35 Tok/s bei 70B *nativ* (ohne Auslagerung). Einzigartiger Vorteil: Mac Studio einzige Consumer-Hardware, die 70B-Modelle ohne Qualitätsverlust ausführt.
  • CPU (Intel i9): 5–6 Token/s. Unpraktisch für Echtzeit-Chat (5–10 Sekunden Latenz).
  • Für ernsthafte Arbeit: GPU gewinnt bei Geschwindigkeit (30–40× schneller durch Speicherbandbreite). Apple M2 Ultra gewinnt bei großen Modellen (native 70B-Ausführung).

📍 In einem Satz

Für lokale LLMs: Apple M5 Pro 64 GB (~2.399 $) ist das beste Allround-Gerät mit 40–60 Tok/s bei 30B-Modellen; RTX 5090 32 GB (~2.000 $) ist am schnellsten für 7B–14B (150–200 Tok/s), aber kein 30B+; RTX 5070 12 GB (~600 $) bietet bestes GPU-Preis-Leistungs-Verhältnis; CPU-only: 10–20 Tok/s bei 7B.

💬 In einfachen Worten

GPUs sind bei kleinen Modellen (unter 14B) am schnellsten dank hoher Compute-Bandbreite. Apple Silicon gewinnt bei größeren Modellen (30B+) durch integrierten Speicher und niedrige Leistungsaufnahme. CPU-only ist am langsamsten, funktioniert aber auf jedem Laptop.

Leistungsvergleich: Geschwindigkeit und Durchsatz

*mit Auslagerung auf RAM – erheblicher Qualitätsverlust

HardwareLlama 3.2 8BLlama 3.3 70BQwen3 32BKosten
RTX 5090 (GPU, 32 GB)200 Tok/s50 Tok/s70 Tok/s2.000 €
RTX 4090 (GPU, 24 GB)150 Tok/s10 Tok/s*50 Tok/s2.310 €
RTX 4070 Ti (GPU, 12 GB)80 Tok/sNicht möglich25 Tok/s600 €
Mac Studio M2 Ultra (192 GB)60 Tok/s35 Tok/s45 Tok/s4.000 €
MacBook Pro M4 Max (128 GB)35 Tok/s8 Tok/s*22 Tok/s4.000 €
MacBook Pro M5 Max (96 GB)25 Tok/s5 Tok/s*15 Tok/s3.500 €
Intel i9 14900K (nur CPU)5 Tok/s1 Tok/s2 Tok/s600 €
AMD Ryzen 9 7950X (nur CPU)6 Tok/s1 Tok/s2 Tok/s650 €
GPU dominiert bei 8B-Modellen: RTX 5090 mit 200 Tok/s (40× schneller als CPU mit 5 Tok/s). Mac Studio M2 Ultra ist einzigartig: einzige Consumer-Hardware, die Llama 3.3 70B nativ mit 35 Tok/s ausführt.
GPU dominiert bei 8B-Modellen: RTX 5090 mit 200 Tok/s (40× schneller als CPU mit 5 Tok/s). Mac Studio M2 Ultra ist einzigartig: einzige Consumer-Hardware, die Llama 3.3 70B nativ mit 35 Tok/s ausführt.

NVIDIA GPU: Der Leistungskönig

NVIDIA-GPUs (RTX 40/50 Serie) sind derzeit das Beste für lokale LLMs im April 2026. Die Dominanz beruht auf:

  • CUDA-Ökosystem: 20+ Jahre KI-spezifische Optimierung. Die meisten Modelle sind zuerst für CUDA optimiert.
  • Tensor Cores: Spezialisierte Hardware für Matrixoperationen (das Herzstück der LLM-Inferenz).
  • Speicherbandbreite: RTX 5090 hat 1.792 GB/s (GDDR7); RTX 4090 hat 1.008 GB/s; weit über Systemen mit einheitlichem Speicher.
  • Reife Software: vLLM, llama.cpp, LM Studio alle für NVIDIA optimiert. Beste Inferenzleistung bei nativer Präzision.
  • RTX 5090 (2025er Flaggschiff): 200 Tok/s auf Llama 3.2 8B, kann 70B mit 50 Tok/s verarbeiten.

Trade-off: Hohe Anschaffungskosten (600–2.000 €), Stromverbrauch (350–575 W), benötigt gute Kühlung und 1.200 W Stromversorgung.

Nur CPU: Wann und warum man es vermeiden sollte

CPUs können LLMs ausführen, sind aber für Echtzeitinferenz unpraktisch:

  • Latenz: 5–10 Sekunden pro Antwort bei 7B-Modellen. Unbrauchbar für Chat.
  • Stromverbrauch: CPUs unter Last können 200 W+ verbrauchen (ineffizient für Inferenz).
  • Kontext: CPUs skalieren schlecht mit langen Kontexten (Key-Value-Cache).

CPU ist nur für Batch-Verarbeitung offline geeignet (z. B. Dokumente über Nacht verarbeiten, ohne Echtzeitantwort).

Apple Silicon: Einzigartige Stärke bei großen Modellen

Apple M-Serie (M2 Ultra, M3/M4 Max) zeichnet sich durch das native Ausführen großer Modelle aus – ein einzigartiger Vorteil:

  • Einheitlicher Speicher: CPU und GPU teilen sich den Speicherpool, wodurch Übertragungsaufwand entfällt.
  • Fähigkeit für große Modelle: Mac Studio M2 Ultra (192 GB) führt Llama 3.3 70B mit 35 Tok/s nativ aus, keine Auslagerung. Einzigartig für Apple Silicon.
  • Effizienz pro Watt: M5 Max verarbeitet 7B mit 25 Tok/s bei nur 25 W. M4 Max ist schneller (~35 Tok/s).
  • Integration: Nativ auf macOS, keine Treiberprobleme, funktioniert sofort.
  • Einschränkung gegenüber GPU: Gemeinsamer Speicher bedeutet keine diskrete VRAM-Aufrüstung. Modellgröße ≤ Systemspeicher.

Mac Studio M2 Ultra (192 GB): 60 Tok/s bei 8B, 35 Tok/s bei 70B – einzige Consumer-Hardware mit dieser Fähigkeit. Forschungsteams, die 70B+ ausführen, sollten Mac Studio in Betracht ziehen.

MacBook Pro: M4 Max (128 GB) mit 35 Tok/s für 8B ist solide für mobil. M5 Max (96 GB) mit 25 Tok/s funktioniert für leichtere Anforderungen.

Speicherbandbreite: Der echte Geschwindigkeitsbottleneck

LLM-Inferenz ist speichergebunden, nicht rechengebunden. Die Token-Generierungsgeschwindigkeit wird dadurch begrenzt, wie schnell Sie Modellgewichte aus dem Speicher laden können. Höhere Speicherbandbreite = schnellere Token-Generierung.

Die Formel: Inferenzgeschwindigkeit ≈ Speicherbandbreite ÷ Modellgewichte im Speicher

  • Diese Bandbreitenlücke erklärt, warum GPUs 30–40× schneller als CPU für Inferenz sind.
  • Apple Silicons einheitlicher Speicher hat niedrigere Bandbreite pro Byte als NVIDIA GDDR7/GDDR6X, ist aber immer noch 9× schneller als DDR5 RAM.
  • Vorteil des einheitlichen Speichers: Kein CPU↔GPU-Übertragungsaufwand. Modell bleibt in einem Speicherpool.
  • GPU-Nachteil bei großen Modellen: Begrenzt VRAM (24 GB max für RTX 4090). Auslagerung auf Systemspeicher (89 GB/s) erzeugt 10× Geschwindigkeitsstrafe.
  • Warum Mac Studio M2 Ultra (192 GB einheitlich) einzigartig ist: Kann 70B-Modelle nativ mit 800 GB/s Bandbreite ausführen – keine Auslagierungsstrafe, kein Geschwindigkeitsabfall.
PlattformSpeicherbandbreiteEffektive Geschwindigkeit (8B)
RTX 5090 (GDDR7)1.792 GB/s200 Tok/s
RTX 4090 (GDDR6X)1.008 GB/s150 Tok/s
RTX 4070 Ti (GDDR6X)504 GB/s80 Tok/s
Mac Studio M2 Ultra (einheitlich)800 GB/s60 Tok/s
MacBook Pro M4 Max (einheitlich)546 GB/s35 Tok/s
MacBook Pro M5 Max (einheitlich)400 GB/s25 Tok/s
DDR5-5600 RAM (nur CPU)89 GB/s5 Tok/s
DDR4-3200 RAM (nur CPU)51 GB/s3 Tok/s

Kosten pro Token: Echte Kostenanalyse

Berücksichtigen Sie die Gesamtinferenzkosten (Hardware amortisiert über die Zeit):

HardwareAnfangskostenTokens/SekTokens/Jahr (24/7)Langfristkosten
RTX 4090 (3-jährige Nutzungsdauer)2.310 €1504,7 Mrd.0,0004 € pro 1 Million Tokens
RTX 4070 Ti (3-jährige Nutzungsdauer)600 €802,5 Mrd.0,0002 € pro 1 Million Tokens
M5 Max Mac (bereits vorhanden)0 €250,79 Mrd.0 € pro 1 Million Tokens
OpenAI API (0,01 € pro 1.000 Tokens)Pay-per-UseUnbegrenztUnbegrenzt10 € pro 1 Million Tokens
Kosten vs. Leistung: RTX 4070 Ti (600 €, 80 Tok/s) bietet das beste Preis-Leistungs-Verhältnis. M5 Max ist kostenlos, wenn Sie bereits einen Mac besitzen. RTX 4090 dominiert die Leistung, kostet aber 2.310 €.
Kosten vs. Leistung: RTX 4070 Ti (600 €, 80 Tok/s) bietet das beste Preis-Leistungs-Verhältnis. M5 Max ist kostenlos, wenn Sie bereits einen Mac besitzen. RTX 4090 dominiert die Leistung, kostet aber 2.310 €.

Wann man sich für welche Plattform entscheidet

Entscheidungsrahmen:

  • GPU wählen: Sie benötigen Echtzeit-Chat (<1 Sekunde Latenz), führen Modelle 24/7 aus oder verarbeiten große Datensätze im Batch.
  • Nur CPU wählen: Sie sind offline, müssen Dokumente über Nacht im Batch verarbeiten oder möchten null Hardware-Investitionen.
  • Apple Silicon wählen: Sie besitzen einen Mac, führen nur 7B-Modelle aus und schätzen niedrigen Stromverbrauch.
Entscheidungsmatrix: GPU gewinnt für produktive KI und Echtzeit-Chat. M5 Max ist ideal für Mac-Benutzer, die 7–13B-Modelle ausführen. Nur CPU ist für interaktive Nutzung unpraktisch.
Entscheidungsmatrix: GPU gewinnt für produktive KI und Echtzeit-Chat. M5 Max ist ideal für Mac-Benutzer, die 7–13B-Modelle ausführen. Nur CPU ist für interaktive Nutzung unpraktisch.

Häufige Fehler bei der Hardware-Wahl

  • Denken, dass CPU für Chat geeignet ist. 5 Sekunden Latenz pro Antwort ist nicht praktisch. Das Nutzererlebnis ist unbrauchbar.
  • Ältere Generation GPU kaufen, die ähnliche Leistung erwartet. RTX 2080 ist 10× langsamer als RTX 4070 Ti durch Architekturverbesserungen.
  • Annehmen, dass M5 Max 70B-Modelle verarbeitet. Das kann es nicht, auch nicht bei extremer Quantisierung. Begrenzt durch einheitliche Speicherarchitektur.
  • Stromversorgungs- und Kühlungsanforderungen ignorieren. RTX 4090 benötigt 1.200 W PSU und gute Case-Belüftung, nicht nur einen "GPU-Slot".

Häufig gestellte Fragen

Ist GPU oder CPU besser zum Ausführen lokaler LLMs?

GPU ist deutlich besser für Echtzeitinferenz. NVIDIA RTX 4090 führt 7B-Modelle mit 150 Token/s aus; eine High-End-CPU wie Intel i9 führt das gleiche Modell mit 3–5 Token/s aus. CPU-Inferenz erzeugt 5–10 Sekunden Antwortlatenz, was interaktiven Chat unpraktisch macht.

Kann Apple Silicon lokale LLMs ausführen?

Ja. Apple M-Serie (M3, M4) führt 7B-Modelle mit 25–30 Token/s mit einheitlichem Speicher aus – deutlich besser als nur CPU x86-Systeme, aber langsamer als diskrete NVIDIA-GPUs. Apple Silicon kann 70B-Modelle nicht ausführen, da einheitliche Speicherlimits gelten (maximaler Systemspeicher = Modellspeicherlimit).

Was ist der minimale GPU VRAM für lokale LLMs?

6 GB VRAM führt 7B-Modelle mit Q4-Quantisierung (4,1 GB verwendet) aus. 8 GB ist das praktische Minimum für ein reibungsloses Erlebnis mit 7B-Modellen bei Q5. 16+ GB VRAM ist für 13B-Modelle erforderlich. 24 GB verarbeitet 30B-Modelle.

Wie viel schneller ist GPU vs CPU bei der LLM-Inferenz?

NVIDIA-GPUs sind 30–100× schneller als CPUs für LLM-Inferenz. RTX 4090 generiert 150 Token/s für 7B-Modelle; Intel i9 generiert 3–5 Token/s. Der Geschwindigkeitsunterschied kommt von CUDA-Parallelverarbeitung und spezialisierten Tensor Cores, nicht nur Taktfrequenz.

Lohnt sich der GPU-Kauf nur für lokale LLMs?

RTX 4070 Ti (12 GB VRAM, ~600 €) amortisiert über 3 Jahre kostet weniger als OpenAI API-Gebühren für Heavy-User mit 2+ Stunden pro Tag. Mit 80 Token/s verarbeitet es Echtzeit-Chat, Kodierassistenz und Dokumentzusammenfassung. Light-User (unter 30 Min./Tag) werden durch API besser bedient.

Kann ich mehrere CPU-Kerne zur Beschleunigung der LLM-Inferenz nutzen?

Mehr CPU-Kerne helfen marginal. llama.cpp nutzt alle verfügbaren Threads, aber der Bottleneck ist Speicherbandbreite (50–100 GB/s für Systemspeicher vs. 2.000+ GB/s für GPU VRAM). Mehr Kerne lösen das Bandbreitenproblem nicht – nur GPU oder Apple M-Serie mit einheitlicher Speicherarchitektur.

Was ist Speicherbandbreite und warum ist sie für LLMs wichtig?

LLM-Inferenz ist speichergebunden, nicht rechengebunden. Die Token-Generierungsgeschwindigkeit hängt davon ab, wie schnell Sie Modellgewichte aus dem Speicher laden. RTX 5090 hat 1.792 GB/s (GDDR7); DDR5 RAM hat 89 GB/s. Diese Bandbreitenlücke erklärt, warum GPUs 30–40× schneller als CPU für Inferenz sind.

Welcher Apple Silicon Chip ist am besten für lokale LLMs?

Mac Studio M2 Ultra (192 GB) zum nativen Ausführen von 70B-Modellen mit 35 Tok/s – ein einzigartiger Vorteil, den keine Consumer-GPU erreicht. MacBook Pro M4 Max (128 GB) für tragbare Nutzung mit 35 Tok/s bei 8B-Modellen. M5 Max (96 GB) funktioniert für 7–13B-Modelle. Vermeiden Sie Base M4/M3 (8 GB RAM) für ernsthafte LLM-Arbeit.

Kann Apple Silicon 70B-Modelle ausführen?

Mac Studio M2 Ultra mit 192 GB einheitlichem Speicher führt Llama 3.3 70B mit 35 Tok/s nativ aus, ohne Auslagerung. Dies ist einzigartig – keine Consumer-GPU kann das. Kleinere Mac-Modelle lagern teilweise auf RAM aus, was eine 5–10× Geschwindigkeitsstrafe erzeugt. Volle 70B-Qualität nur auf Mac Studio M2 Ultra.

Lohnt sich RTX 5090 für 2.000 € für lokale LLMs?

Nur, wenn Sie 70B-Modelle regelmäßig oder für produktive Workloads ausführen. RTX 5090 (200 Tok/s bei 8B) ist 2,5× schneller als RTX 4090 (2.310 €). Besserer Wert: RTX 4070 Ti (600 €, 80 Tok/s) für 8B–32B-Modelle; Mac Studio M2 Ultra (4.000 €) wenn Sie native 70B-Unterstützung benötigen.

Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?

Ja. DSGVO Artikel 28 (Prozessor vs. Verantwortlicher), BSI-IT-Grundschutz-Kataloge. RTX 4070 Ti oder Mac Studio: Lokale GPU-Inferenz hält Eingabe- und Ausgabedaten auf Ihrer eigenen Hardware — das Art.-44-Transferrisiko für die KI-Schicht entfällt. DSGVO-Konformität und BSI-IT-Grundschutz hängen vom Gesamtsystem und Ihren TOMs ab, nicht vom GPU-Modell.

Ist lokale LLM-Hardware für den deutschen Mittelstand geeignet?

Ja, besonders für den Mittelstand. RTX 4070 Ti (600 €) ist ein kostengünstiger Einstieg, keine Abhängigkeit von US-Cloud-APIs. Lokale GPU-Inferenz hält Eingabe- und Ausgabedaten auf Ihrer eigenen Hardware — das Art.-44-Transferrisiko für die KI-Schicht entfällt. DSGVO-Konformität und BSI-IT-Grundschutz-Konformität hängen vom Gesamtsystem und Ihren TOMs ab, nicht vom GPU-Modell. Lokale Hardware in Deutschland/Österreich/Schweiz vermeidet Datentransfers ins Ausland.

Quellen

Hinweis zu Drittanbieter-Fakten

Dieser Artikel referenziert KI-Modelle, Benchmarks, Preise und Lizenzen von Drittanbietern. Die KI-Landschaft verändert sich schnell. Benchmark-Werte, Lizenzbedingungen, Modellnamen und API-Preise können sich zwischen dem Zeitpunkt der Erstellung und dem Zeitpunkt ändern, zu dem Sie dies lesen. Bevor Sie Bereitstellungs- oder Compliance-Entscheidungen auf Basis dieses Artikels treffen, überprüfen Sie aktuelle Zahlen bei der offiziellen Quelle jedes Anbieters: Hugging-Face-Modellkarten für Lizenzen und Benchmarks, Anbieter-Websites für API-Preise und EUR-Lex für den aktuellen DSGVO- und EU-KI-Gesetz-Text. Dieser Artikel spiegelt öffentlich verfügbare Informationen vom Mai 2026 wider.

Nutzen Sie PromptQuorum mit einem lokalen LLM, eigenen API-Schlüsseln oder beidem — Sie wählen das Backend.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs