Die RTX 5090 dominiert mit 200 Tok/s auf Llama 3.2 8B, aber Mac Studio M2 Ultra (192 GB einheitlicher Speicher) führt Llama 3.3 70B nativ mit 35 Tok/s aus – etwas, das keine Consumer-GPU erreicht. CPU-Inferenz mit 5 Tok/s ist für Echtzeitanwendungen unpraktisch. Dieser Leitfaden vergleicht alle drei Architekturen hinsichtlich Speicherbandbreite, Kosten und Anwendungsfällen (April 2026).

Wichtigste Erkenntnisse

GPU (NVIDIA RTX 5090): 200 Token/s bei 8B-Modellen. Beste Leistung, 2.000 €.
GPU (NVIDIA RTX 4090): 150 Token/s bei 8B-Modellen. Bestes Preis-Leistungs-Verhältnis: RTX 4070 Ti mit 80 Tok/s für 600 €.
Apple Silicon M2 Ultra: 60 Token/s bei 8B, 35 Tok/s bei 70B *nativ* (ohne Auslagerung). Einzigartiger Vorteil: Mac Studio einzige Consumer-Hardware, die 70B-Modelle ohne Qualitätsverlust ausführt.
CPU (Intel i9): 5–6 Token/s. Unpraktisch für Echtzeit-Chat (5–10 Sekunden Latenz).
Für ernsthafte Arbeit: GPU gewinnt bei Geschwindigkeit (30–40× schneller durch Speicherbandbreite). Apple M2 Ultra gewinnt bei großen Modellen (native 70B-Ausführung).

Leistungsvergleich: Geschwindigkeit und Durchsatz

*mit Auslagerung auf RAM – erheblicher Qualitätsverlust

Hardware	Llama 3.2 8B	Llama 3.3 70B	Qwen2.5 32B	Kosten
RTX 5090 (GPU, 32 GB)	200 Tok/s	50 Tok/s	70 Tok/s	2.000 €
RTX 4090 (GPU, 24 GB)	150 Tok/s	10 Tok/s*	50 Tok/s	2.310 €
RTX 4070 Ti (GPU, 12 GB)	80 Tok/s	Nicht möglich	25 Tok/s	600 €
Mac Studio M2 Ultra (192 GB)	60 Tok/s	35 Tok/s	45 Tok/s	4.000 €
MacBook Pro M4 Max (128 GB)	35 Tok/s	8 Tok/s*	22 Tok/s	4.000 €
MacBook Pro M5 Max (96 GB)	25 Tok/s	5 Tok/s*	15 Tok/s	3.500 €
Intel i9 14900K (nur CPU)	5 Tok/s	1 Tok/s	2 Tok/s	600 €
AMD Ryzen 9 7950X (nur CPU)	6 Tok/s	1 Tok/s	2 Tok/s	650 €

GPU dominiert bei 8B-Modellen: RTX 5090 mit 200 Tok/s (40× schneller als CPU mit 5 Tok/s). Mac Studio M2 Ultra ist einzigartig: einzige Consumer-Hardware, die Llama 3.3 70B nativ mit 35 Tok/s ausführt.

NVIDIA GPU: Der Leistungskönig

NVIDIA-GPUs (RTX 40/50 Serie) sind derzeit das Beste für lokale LLMs im April 2026. Die Dominanz beruht auf:

- CUDA-Ökosystem: 20+ Jahre KI-spezifische Optimierung. Die meisten Modelle sind zuerst für CUDA optimiert.

- Tensor Cores: Spezialisierte Hardware für Matrixoperationen (das Herzstück der LLM-Inferenz).

- Speicherbandbreite: RTX 5090 hat 1.792 GB/s (GDDR7); RTX 4090 hat 1.008 GB/s; weit über Systemen mit einheitlichem Speicher.

- Reife Software: vLLM, llama.cpp, LM Studio alle für NVIDIA optimiert. Beste Inferenzleistung bei nativer Präzision.

- RTX 5090 (2025er Flaggschiff): 200 Tok/s auf Llama 3.2 8B, kann 70B mit 50 Tok/s verarbeiten.

Trade-off: Hohe Anschaffungskosten (600–2.000 €), Stromverbrauch (350–575 W), benötigt gute Kühlung und 1.200 W Stromversorgung.

Nur CPU: Wann und warum man es vermeiden sollte

CPUs können LLMs ausführen, sind aber für Echtzeitinferenz unpraktisch:

- Latenz: 5–10 Sekunden pro Antwort bei 7B-Modellen. Unbrauchbar für Chat.

- Stromverbrauch: CPUs unter Last können 200 W+ verbrauchen (ineffizient für Inferenz).

- Kontext: CPUs skalieren schlecht mit langen Kontexten (Key-Value-Cache).

CPU ist nur für Batch-Verarbeitung offline geeignet (z. B. Dokumente über Nacht verarbeiten, ohne Echtzeitantwort).

Apple Silicon: Einzigartige Stärke bei großen Modellen

Apple M-Serie (M2 Ultra, M3/M4 Max) zeichnet sich durch das native Ausführen großer Modelle aus – ein einzigartiger Vorteil:

- Einheitlicher Speicher: CPU und GPU teilen sich den Speicherpool, wodurch Übertragungsaufwand entfällt.

- Fähigkeit für große Modelle: Mac Studio M2 Ultra (192 GB) führt Llama 3.3 70B mit 35 Tok/s nativ aus, keine Auslagerung. Einzigartig für Apple Silicon.

- Effizienz pro Watt: M5 Max verarbeitet 7B mit 25 Tok/s bei nur 25 W. M4 Max ist schneller (~35 Tok/s).

- Integration: Nativ auf macOS, keine Treiberprobleme, funktioniert sofort.

- Einschränkung gegenüber GPU: Gemeinsamer Speicher bedeutet keine diskrete VRAM-Aufrüstung. Modellgröße ≤ Systemspeicher.

Mac Studio M2 Ultra (192 GB): 60 Tok/s bei 8B, 35 Tok/s bei 70B – einzige Consumer-Hardware mit dieser Fähigkeit. Forschungsteams, die 70B+ ausführen, sollten Mac Studio in Betracht ziehen.

MacBook Pro: M4 Max (128 GB) mit 35 Tok/s für 8B ist solide für mobil. M5 Max (96 GB) mit 25 Tok/s funktioniert für leichtere Anforderungen.

Speicherbandbreite: Der echte Geschwindigkeitsbottleneck

LLM-Inferenz ist speichergebunden, nicht rechengebunden. Die Token-Generierungsgeschwindigkeit wird dadurch begrenzt, wie schnell Sie Modellgewichte aus dem Speicher laden können. Höhere Speicherbandbreite = schnellere Token-Generierung.

Die Formel: Inferenzgeschwindigkeit ≈ Speicherbandbreite ÷ Modellgewichte im Speicher

Diese Bandbreitenlücke erklärt, warum GPUs 30–40× schneller als CPU für Inferenz sind.
Apple Silicons einheitlicher Speicher hat niedrigere Bandbreite pro Byte als NVIDIA GDDR7/GDDR6X, ist aber immer noch 9× schneller als DDR5 RAM.
Vorteil des einheitlichen Speichers: Kein CPU↔GPU-Übertragungsaufwand. Modell bleibt in einem Speicherpool.
GPU-Nachteil bei großen Modellen: Begrenzt VRAM (24 GB max für RTX 4090). Auslagerung auf Systemspeicher (89 GB/s) erzeugt 10× Geschwindigkeitsstrafe.
Warum Mac Studio M2 Ultra (192 GB einheitlich) einzigartig ist: Kann 70B-Modelle nativ mit 800 GB/s Bandbreite ausführen – keine Auslagierungsstrafe, kein Geschwindigkeitsabfall.

Plattform	Speicherbandbreite	Effektive Geschwindigkeit (8B)
RTX 5090 (GDDR7)	1.792 GB/s	200 Tok/s
RTX 4090 (GDDR6X)	1.008 GB/s	150 Tok/s
RTX 4070 Ti (GDDR6X)	504 GB/s	80 Tok/s
Mac Studio M2 Ultra (einheitlich)	800 GB/s	60 Tok/s
MacBook Pro M4 Max (einheitlich)	546 GB/s	35 Tok/s
MacBook Pro M5 Max (einheitlich)	400 GB/s	25 Tok/s
DDR5-5600 RAM (nur CPU)	89 GB/s	5 Tok/s
DDR4-3200 RAM (nur CPU)	51 GB/s	3 Tok/s

Kosten pro Token: Echte Kostenanalyse

Berücksichtigen Sie die Gesamtinferenzkosten (Hardware amortisiert über die Zeit):

Hardware	Anfangskosten	Tokens/Sek	Tokens/Jahr (24/7)	Langfristkosten
RTX 4090 (3-jährige Nutzungsdauer)	2.310 €	150	4,7 Mrd.	0,0004 € pro 1 Million Tokens
RTX 4070 Ti (3-jährige Nutzungsdauer)	600 €	80	2,5 Mrd.	0,0002 € pro 1 Million Tokens
M5 Max Mac (bereits vorhanden)	0 €	25	0,79 Mrd.	0 € pro 1 Million Tokens
OpenAI API (0,01 € pro 1.000 Tokens)	Pay-per-Use	Unbegrenzt	Unbegrenzt	10 € pro 1 Million Tokens

Kosten vs. Leistung: RTX 4070 Ti (600 €, 80 Tok/s) bietet das beste Preis-Leistungs-Verhältnis. M5 Max ist kostenlos, wenn Sie bereits einen Mac besitzen. RTX 4090 dominiert die Leistung, kostet aber 2.310 €.

Wann man sich für welche Plattform entscheidet

Entscheidungsrahmen:

GPU wählen: Sie benötigen Echtzeit-Chat (<1 Sekunde Latenz), führen Modelle 24/7 aus oder verarbeiten große Datensätze im Batch.
Nur CPU wählen: Sie sind offline, müssen Dokumente über Nacht im Batch verarbeiten oder möchten null Hardware-Investitionen.
Apple Silicon wählen: Sie besitzen einen Mac, führen nur 7B-Modelle aus und schätzen niedrigen Stromverbrauch.

Entscheidungsmatrix: GPU gewinnt für produktive KI und Echtzeit-Chat. M5 Max ist ideal für Mac-Benutzer, die 7–13B-Modelle ausführen. Nur CPU ist für interaktive Nutzung unpraktisch.

Häufige Fehler bei der Hardware-Wahl

Denken, dass CPU für Chat geeignet ist. 5 Sekunden Latenz pro Antwort ist nicht praktisch. Das Nutzererlebnis ist unbrauchbar.
Ältere Generation GPU kaufen, die ähnliche Leistung erwartet. RTX 2080 ist 10× langsamer als RTX 4070 Ti durch Architekturverbesserungen.
Annehmen, dass M5 Max 70B-Modelle verarbeitet. Das kann es nicht, auch nicht bei extremer Quantisierung. Begrenzt durch einheitliche Speicherarchitektur.
Stromversorgungs- und Kühlungsanforderungen ignorieren. RTX 4090 benötigt 1.200 W PSU und gute Case-Belüftung, nicht nur einen "GPU-Slot".

Häufig gestellte Fragen

Ist GPU oder CPU besser zum Ausführen lokaler LLMs?

GPU ist deutlich besser für Echtzeitinferenz. NVIDIA RTX 4090 führt 7B-Modelle mit 150 Token/s aus; eine High-End-CPU wie Intel i9 führt das gleiche Modell mit 3–5 Token/s aus. CPU-Inferenz erzeugt 5–10 Sekunden Antwortlatenz, was interaktiven Chat unpraktisch macht.

Kann Apple Silicon lokale LLMs ausführen?

Ja. Apple M-Serie (M3, M4) führt 7B-Modelle mit 25–30 Token/s mit einheitlichem Speicher aus – deutlich besser als nur CPU x86-Systeme, aber langsamer als diskrete NVIDIA-GPUs. Apple Silicon kann 70B-Modelle nicht ausführen, da einheitliche Speicherlimits gelten (maximaler Systemspeicher = Modellspeicherlimit).

Was ist der minimale GPU VRAM für lokale LLMs?

6 GB VRAM führt 7B-Modelle mit Q4-Quantisierung (4,1 GB verwendet) aus. 8 GB ist das praktische Minimum für ein reibungsloses Erlebnis mit 7B-Modellen bei Q5. 16+ GB VRAM ist für 13B-Modelle erforderlich. 24 GB verarbeitet 30B-Modelle.

Wie viel schneller ist GPU vs CPU bei der LLM-Inferenz?

NVIDIA-GPUs sind 30–100× schneller als CPUs für LLM-Inferenz. RTX 4090 generiert 150 Token/s für 7B-Modelle; Intel i9 generiert 3–5 Token/s. Der Geschwindigkeitsunterschied kommt von CUDA-Parallelverarbeitung und spezialisierten Tensor Cores, nicht nur Taktfrequenz.

Lohnt sich der GPU-Kauf nur für lokale LLMs?

RTX 4070 Ti (12 GB VRAM, ~600 €) amortisiert über 3 Jahre kostet weniger als OpenAI API-Gebühren für Heavy-User mit 2+ Stunden pro Tag. Mit 80 Token/s verarbeitet es Echtzeit-Chat, Kodierassistenz und Dokumentzusammenfassung. Light-User (unter 30 Min./Tag) werden durch API besser bedient.

Kann ich mehrere CPU-Kerne zur Beschleunigung der LLM-Inferenz nutzen?

Mehr CPU-Kerne helfen marginal. llama.cpp nutzt alle verfügbaren Threads, aber der Bottleneck ist Speicherbandbreite (50–100 GB/s für Systemspeicher vs. 2.000+ GB/s für GPU VRAM). Mehr Kerne lösen das Bandbreitenproblem nicht – nur GPU oder Apple M-Serie mit einheitlicher Speicherarchitektur.

Was ist Speicherbandbreite und warum ist sie für LLMs wichtig?

LLM-Inferenz ist speichergebunden, nicht rechengebunden. Die Token-Generierungsgeschwindigkeit hängt davon ab, wie schnell Sie Modellgewichte aus dem Speicher laden. RTX 5090 hat 1.792 GB/s (GDDR7); DDR5 RAM hat 89 GB/s. Diese Bandbreitenlücke erklärt, warum GPUs 30–40× schneller als CPU für Inferenz sind.

Welcher Apple Silicon Chip ist am besten für lokale LLMs?

Mac Studio M2 Ultra (192 GB) zum nativen Ausführen von 70B-Modellen mit 35 Tok/s – ein einzigartiger Vorteil, den keine Consumer-GPU erreicht. MacBook Pro M4 Max (128 GB) für tragbare Nutzung mit 35 Tok/s bei 8B-Modellen. M5 Max (96 GB) funktioniert für 7–13B-Modelle. Vermeiden Sie Base M4/M3 (8 GB RAM) für ernsthafte LLM-Arbeit.

Kann Apple Silicon 70B-Modelle ausführen?

Mac Studio M2 Ultra mit 192 GB einheitlichem Speicher führt Llama 3.3 70B mit 35 Tok/s nativ aus, ohne Auslagerung. Dies ist einzigartig – keine Consumer-GPU kann das. Kleinere Mac-Modelle lagern teilweise auf RAM aus, was eine 5–10× Geschwindigkeitsstrafe erzeugt. Volle 70B-Qualität nur auf Mac Studio M2 Ultra.

Lohnt sich RTX 5090 für 2.000 € für lokale LLMs?

Nur, wenn Sie 70B-Modelle regelmäßig oder für produktive Workloads ausführen. RTX 5090 (200 Tok/s bei 8B) ist 2,5× schneller als RTX 4090 (2.310 €). Besserer Wert: RTX 4070 Ti (600 €, 80 Tok/s) für 8B–32B-Modelle; Mac Studio M2 Ultra (4.000 €) wenn Sie native 70B-Unterstützung benötigen.

Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?

Ja. DSGVO Artikel 28 (Prozessor vs. Verantwortlicher), BSI-Grundschutz-Kataloge Compliance. Lokale Inferenz erfüllt Datenschutzanforderungen für deutsche/europäische Unternehmen. GPU oder Apple Silicon ohne Cloud = vollständige Datenkontrolle. RTX 4070 Ti oder Mac Studio sind DSGVO-konform und ermöglichen volle Datenhoheit ohne abhängig von US Cloud APIs zu sein.

Ist lokale LLM-Hardware für den deutschen Mittelstand geeignet?

Ja, besonders für den Mittelstand. RTX 4070 Ti (600 €) ist ein kostengünstiger Einstieg. DSGVO-konform, keine Abhängigkeit von US Cloud APIs. BSI-Grundschutz-zertifizierbar. Für mittelständische Unternehmen in Deutschland/Österreich/Schweiz: Lokale Hardware vermeidet Datentransfers ins Ausland und erfüllt strikte Compliance-Standards.

Quellen

NVIDIA GPU-Spezifikationen — RTX 40/50 Serie GPU-Spezifikationen, VRAM, Speicherbandbreite.
Apple M3 Leistung — M5 Max einheitliche Speicherarchitektur und Inferenzleistung.
vLLM-Benchmarks — Produktions-LLM-Inferenz-Durchsatz-Benchmarks.

GPU vs CPU vs Apple Silicon für lokale LLMs: Leistungsanalyse

Präsentation: GPU vs CPU vs Apple Silicon für lokale LLMs: Leistungsanalyse

Leistungsvergleich: Geschwindigkeit und Durchsatz

NVIDIA GPU: Der Leistungskönig

Nur CPU: Wann und warum man es vermeiden sollte

Apple Silicon: Einzigartige Stärke bei großen Modellen

Speicherbandbreite: Der echte Geschwindigkeitsbottleneck

Kosten pro Token: Echte Kostenanalyse

Wann man sich für welche Plattform entscheidet

Häufige Fehler bei der Hardware-Wahl

Häufig gestellte Fragen

Ist GPU oder CPU besser zum Ausführen lokaler LLMs?

Kann Apple Silicon lokale LLMs ausführen?

Was ist der minimale GPU VRAM für lokale LLMs?

Wie viel schneller ist GPU vs CPU bei der LLM-Inferenz?

Lohnt sich der GPU-Kauf nur für lokale LLMs?

Kann ich mehrere CPU-Kerne zur Beschleunigung der LLM-Inferenz nutzen?

Was ist Speicherbandbreite und warum ist sie für LLMs wichtig?

Welcher Apple Silicon Chip ist am besten für lokale LLMs?

Kann Apple Silicon 70B-Modelle ausführen?

Lohnt sich RTX 5090 für 2.000 € für lokale LLMs?

Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?

Ist lokale LLM-Hardware für den deutschen Mittelstand geeignet?

Quellen

A Note on Third-Party Facts

GPU vs CPU vs Apple Silicon für lokale LLMs: Leistungsanalyse

Präsentation: GPU vs CPU vs Apple Silicon für lokale LLMs: Leistungsanalyse

Leistungsvergleich: Geschwindigkeit und Durchsatz

NVIDIA GPU: Der Leistungskönig

Nur CPU: Wann und warum man es vermeiden sollte

Apple Silicon: Einzigartige Stärke bei großen Modellen

Speicherbandbreite: Der echte Geschwindigkeitsbottleneck

Kosten pro Token: Echte Kostenanalyse

Wann man sich für welche Plattform entscheidet

Häufige Fehler bei der Hardware-Wahl

Häufig gestellte Fragen

Ist GPU oder CPU besser zum Ausführen lokaler LLMs?

Kann Apple Silicon lokale LLMs ausführen?

Was ist der minimale GPU VRAM für lokale LLMs?

Wie viel schneller ist GPU vs CPU bei der LLM-Inferenz?

Lohnt sich der GPU-Kauf nur für lokale LLMs?

Kann ich mehrere CPU-Kerne zur Beschleunigung der LLM-Inferenz nutzen?

Was ist Speicherbandbreite und warum ist sie für LLMs wichtig?

Welcher Apple Silicon Chip ist am besten für lokale LLMs?

Kann Apple Silicon 70B-Modelle ausführen?

Lohnt sich RTX 5090 für 2.000 € für lokale LLMs?

Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?

Ist lokale LLM-Hardware für den deutschen Mittelstand geeignet?

Empfohlene Lektüre

Quellen

A Note on Third-Party Facts