Wichtigste Erkenntnisse
- GPU (NVIDIA RTX 5090): 200 Token/s bei 8B-Modellen. Beste Leistung, 2.000 €.
- GPU (NVIDIA RTX 4090): 150 Token/s bei 8B-Modellen. Bestes Preis-Leistungs-Verhältnis: RTX 4070 Ti mit 80 Tok/s für 600 €.
- Apple Silicon M2 Ultra: 60 Token/s bei 8B, 35 Tok/s bei 70B *nativ* (ohne Auslagerung). Einzigartiger Vorteil: Mac Studio einzige Consumer-Hardware, die 70B-Modelle ohne Qualitätsverlust ausführt.
- CPU (Intel i9): 5–6 Token/s. Unpraktisch für Echtzeit-Chat (5–10 Sekunden Latenz).
- Für ernsthafte Arbeit: GPU gewinnt bei Geschwindigkeit (30–40× schneller durch Speicherbandbreite). Apple M2 Ultra gewinnt bei großen Modellen (native 70B-Ausführung).
Leistungsvergleich: Geschwindigkeit und Durchsatz
*mit Auslagerung auf RAM – erheblicher Qualitätsverlust
| Hardware | Llama 3.2 8B | Llama 3.3 70B | Qwen2.5 32B | Kosten |
|---|---|---|---|---|
| RTX 5090 (GPU, 32 GB) | 200 Tok/s | 50 Tok/s | 70 Tok/s | 2.000 € |
| RTX 4090 (GPU, 24 GB) | 150 Tok/s | 10 Tok/s* | 50 Tok/s | 2.310 € |
| RTX 4070 Ti (GPU, 12 GB) | 80 Tok/s | Nicht möglich | 25 Tok/s | 600 € |
| Mac Studio M2 Ultra (192 GB) | 60 Tok/s | 35 Tok/s | 45 Tok/s | 4.000 € |
| MacBook Pro M4 Max (128 GB) | 35 Tok/s | 8 Tok/s* | 22 Tok/s | 4.000 € |
| MacBook Pro M5 Max (96 GB) | 25 Tok/s | 5 Tok/s* | 15 Tok/s | 3.500 € |
| Intel i9 14900K (nur CPU) | 5 Tok/s | 1 Tok/s | 2 Tok/s | 600 € |
| AMD Ryzen 9 7950X (nur CPU) | 6 Tok/s | 1 Tok/s | 2 Tok/s | 650 € |
NVIDIA GPU: Der Leistungskönig
NVIDIA-GPUs (RTX 40/50 Serie) sind derzeit das Beste für lokale LLMs im April 2026. Die Dominanz beruht auf:
- CUDA-Ökosystem: 20+ Jahre KI-spezifische Optimierung. Die meisten Modelle sind zuerst für CUDA optimiert.
- Tensor Cores: Spezialisierte Hardware für Matrixoperationen (das Herzstück der LLM-Inferenz).
- Speicherbandbreite: RTX 5090 hat 1.792 GB/s (GDDR7); RTX 4090 hat 1.008 GB/s; weit über Systemen mit einheitlichem Speicher.
- Reife Software: vLLM, llama.cpp, LM Studio alle für NVIDIA optimiert. Beste Inferenzleistung bei nativer Präzision.
- RTX 5090 (2025er Flaggschiff): 200 Tok/s auf Llama 3.2 8B, kann 70B mit 50 Tok/s verarbeiten.
Trade-off: Hohe Anschaffungskosten (600–2.000 €), Stromverbrauch (350–575 W), benötigt gute Kühlung und 1.200 W Stromversorgung.
Nur CPU: Wann und warum man es vermeiden sollte
CPUs können LLMs ausführen, sind aber für Echtzeitinferenz unpraktisch:
- Latenz: 5–10 Sekunden pro Antwort bei 7B-Modellen. Unbrauchbar für Chat.
- Stromverbrauch: CPUs unter Last können 200 W+ verbrauchen (ineffizient für Inferenz).
- Kontext: CPUs skalieren schlecht mit langen Kontexten (Key-Value-Cache).
CPU ist nur für Batch-Verarbeitung offline geeignet (z. B. Dokumente über Nacht verarbeiten, ohne Echtzeitantwort).
Apple Silicon: Einzigartige Stärke bei großen Modellen
Apple M-Serie (M2 Ultra, M3/M4 Max) zeichnet sich durch das native Ausführen großer Modelle aus – ein einzigartiger Vorteil:
- Einheitlicher Speicher: CPU und GPU teilen sich den Speicherpool, wodurch Übertragungsaufwand entfällt.
- Fähigkeit für große Modelle: Mac Studio M2 Ultra (192 GB) führt Llama 3.3 70B mit 35 Tok/s nativ aus, keine Auslagerung. Einzigartig für Apple Silicon.
- Effizienz pro Watt: M5 Max verarbeitet 7B mit 25 Tok/s bei nur 25 W. M4 Max ist schneller (~35 Tok/s).
- Integration: Nativ auf macOS, keine Treiberprobleme, funktioniert sofort.
- Einschränkung gegenüber GPU: Gemeinsamer Speicher bedeutet keine diskrete VRAM-Aufrüstung. Modellgröße ≤ Systemspeicher.
Mac Studio M2 Ultra (192 GB): 60 Tok/s bei 8B, 35 Tok/s bei 70B – einzige Consumer-Hardware mit dieser Fähigkeit. Forschungsteams, die 70B+ ausführen, sollten Mac Studio in Betracht ziehen.
MacBook Pro: M4 Max (128 GB) mit 35 Tok/s für 8B ist solide für mobil. M5 Max (96 GB) mit 25 Tok/s funktioniert für leichtere Anforderungen.
Speicherbandbreite: Der echte Geschwindigkeitsbottleneck
LLM-Inferenz ist speichergebunden, nicht rechengebunden. Die Token-Generierungsgeschwindigkeit wird dadurch begrenzt, wie schnell Sie Modellgewichte aus dem Speicher laden können. Höhere Speicherbandbreite = schnellere Token-Generierung.
Die Formel: Inferenzgeschwindigkeit ≈ Speicherbandbreite ÷ Modellgewichte im Speicher
- Diese Bandbreitenlücke erklärt, warum GPUs 30–40× schneller als CPU für Inferenz sind.
- Apple Silicons einheitlicher Speicher hat niedrigere Bandbreite pro Byte als NVIDIA GDDR7/GDDR6X, ist aber immer noch 9× schneller als DDR5 RAM.
- Vorteil des einheitlichen Speichers: Kein CPU↔GPU-Übertragungsaufwand. Modell bleibt in einem Speicherpool.
- GPU-Nachteil bei großen Modellen: Begrenzt VRAM (24 GB max für RTX 4090). Auslagerung auf Systemspeicher (89 GB/s) erzeugt 10× Geschwindigkeitsstrafe.
- Warum Mac Studio M2 Ultra (192 GB einheitlich) einzigartig ist: Kann 70B-Modelle nativ mit 800 GB/s Bandbreite ausführen – keine Auslagierungsstrafe, kein Geschwindigkeitsabfall.
| Plattform | Speicherbandbreite | Effektive Geschwindigkeit (8B) |
|---|---|---|
| RTX 5090 (GDDR7) | 1.792 GB/s | 200 Tok/s |
| RTX 4090 (GDDR6X) | 1.008 GB/s | 150 Tok/s |
| RTX 4070 Ti (GDDR6X) | 504 GB/s | 80 Tok/s |
| Mac Studio M2 Ultra (einheitlich) | 800 GB/s | 60 Tok/s |
| MacBook Pro M4 Max (einheitlich) | 546 GB/s | 35 Tok/s |
| MacBook Pro M5 Max (einheitlich) | 400 GB/s | 25 Tok/s |
| DDR5-5600 RAM (nur CPU) | 89 GB/s | 5 Tok/s |
| DDR4-3200 RAM (nur CPU) | 51 GB/s | 3 Tok/s |
Kosten pro Token: Echte Kostenanalyse
Berücksichtigen Sie die Gesamtinferenzkosten (Hardware amortisiert über die Zeit):
| Hardware | Anfangskosten | Tokens/Sek | Tokens/Jahr (24/7) | Langfristkosten |
|---|---|---|---|---|
| RTX 4090 (3-jährige Nutzungsdauer) | 2.310 € | 150 | 4,7 Mrd. | 0,0004 € pro 1 Million Tokens |
| RTX 4070 Ti (3-jährige Nutzungsdauer) | 600 € | 80 | 2,5 Mrd. | 0,0002 € pro 1 Million Tokens |
| M5 Max Mac (bereits vorhanden) | 0 € | 25 | 0,79 Mrd. | 0 € pro 1 Million Tokens |
| OpenAI API (0,01 € pro 1.000 Tokens) | Pay-per-Use | Unbegrenzt | Unbegrenzt | 10 € pro 1 Million Tokens |
Wann man sich für welche Plattform entscheidet
Entscheidungsrahmen:
- GPU wählen: Sie benötigen Echtzeit-Chat (<1 Sekunde Latenz), führen Modelle 24/7 aus oder verarbeiten große Datensätze im Batch.
- Nur CPU wählen: Sie sind offline, müssen Dokumente über Nacht im Batch verarbeiten oder möchten null Hardware-Investitionen.
- Apple Silicon wählen: Sie besitzen einen Mac, führen nur 7B-Modelle aus und schätzen niedrigen Stromverbrauch.
Häufige Fehler bei der Hardware-Wahl
- Denken, dass CPU für Chat geeignet ist. 5 Sekunden Latenz pro Antwort ist nicht praktisch. Das Nutzererlebnis ist unbrauchbar.
- Ältere Generation GPU kaufen, die ähnliche Leistung erwartet. RTX 2080 ist 10× langsamer als RTX 4070 Ti durch Architekturverbesserungen.
- Annehmen, dass M5 Max 70B-Modelle verarbeitet. Das kann es nicht, auch nicht bei extremer Quantisierung. Begrenzt durch einheitliche Speicherarchitektur.
- Stromversorgungs- und Kühlungsanforderungen ignorieren. RTX 4090 benötigt 1.200 W PSU und gute Case-Belüftung, nicht nur einen "GPU-Slot".
Häufig gestellte Fragen
Ist GPU oder CPU besser zum Ausführen lokaler LLMs?
GPU ist deutlich besser für Echtzeitinferenz. NVIDIA RTX 4090 führt 7B-Modelle mit 150 Token/s aus; eine High-End-CPU wie Intel i9 führt das gleiche Modell mit 3–5 Token/s aus. CPU-Inferenz erzeugt 5–10 Sekunden Antwortlatenz, was interaktiven Chat unpraktisch macht.
Kann Apple Silicon lokale LLMs ausführen?
Ja. Apple M-Serie (M3, M4) führt 7B-Modelle mit 25–30 Token/s mit einheitlichem Speicher aus – deutlich besser als nur CPU x86-Systeme, aber langsamer als diskrete NVIDIA-GPUs. Apple Silicon kann 70B-Modelle nicht ausführen, da einheitliche Speicherlimits gelten (maximaler Systemspeicher = Modellspeicherlimit).
Was ist der minimale GPU VRAM für lokale LLMs?
6 GB VRAM führt 7B-Modelle mit Q4-Quantisierung (4,1 GB verwendet) aus. 8 GB ist das praktische Minimum für ein reibungsloses Erlebnis mit 7B-Modellen bei Q5. 16+ GB VRAM ist für 13B-Modelle erforderlich. 24 GB verarbeitet 30B-Modelle.
Wie viel schneller ist GPU vs CPU bei der LLM-Inferenz?
NVIDIA-GPUs sind 30–100× schneller als CPUs für LLM-Inferenz. RTX 4090 generiert 150 Token/s für 7B-Modelle; Intel i9 generiert 3–5 Token/s. Der Geschwindigkeitsunterschied kommt von CUDA-Parallelverarbeitung und spezialisierten Tensor Cores, nicht nur Taktfrequenz.
Lohnt sich der GPU-Kauf nur für lokale LLMs?
RTX 4070 Ti (12 GB VRAM, ~600 €) amortisiert über 3 Jahre kostet weniger als OpenAI API-Gebühren für Heavy-User mit 2+ Stunden pro Tag. Mit 80 Token/s verarbeitet es Echtzeit-Chat, Kodierassistenz und Dokumentzusammenfassung. Light-User (unter 30 Min./Tag) werden durch API besser bedient.
Kann ich mehrere CPU-Kerne zur Beschleunigung der LLM-Inferenz nutzen?
Mehr CPU-Kerne helfen marginal. llama.cpp nutzt alle verfügbaren Threads, aber der Bottleneck ist Speicherbandbreite (50–100 GB/s für Systemspeicher vs. 2.000+ GB/s für GPU VRAM). Mehr Kerne lösen das Bandbreitenproblem nicht – nur GPU oder Apple M-Serie mit einheitlicher Speicherarchitektur.
Was ist Speicherbandbreite und warum ist sie für LLMs wichtig?
LLM-Inferenz ist speichergebunden, nicht rechengebunden. Die Token-Generierungsgeschwindigkeit hängt davon ab, wie schnell Sie Modellgewichte aus dem Speicher laden. RTX 5090 hat 1.792 GB/s (GDDR7); DDR5 RAM hat 89 GB/s. Diese Bandbreitenlücke erklärt, warum GPUs 30–40× schneller als CPU für Inferenz sind.
Welcher Apple Silicon Chip ist am besten für lokale LLMs?
Mac Studio M2 Ultra (192 GB) zum nativen Ausführen von 70B-Modellen mit 35 Tok/s – ein einzigartiger Vorteil, den keine Consumer-GPU erreicht. MacBook Pro M4 Max (128 GB) für tragbare Nutzung mit 35 Tok/s bei 8B-Modellen. M5 Max (96 GB) funktioniert für 7–13B-Modelle. Vermeiden Sie Base M4/M3 (8 GB RAM) für ernsthafte LLM-Arbeit.
Kann Apple Silicon 70B-Modelle ausführen?
Mac Studio M2 Ultra mit 192 GB einheitlichem Speicher führt Llama 3.3 70B mit 35 Tok/s nativ aus, ohne Auslagerung. Dies ist einzigartig – keine Consumer-GPU kann das. Kleinere Mac-Modelle lagern teilweise auf RAM aus, was eine 5–10× Geschwindigkeitsstrafe erzeugt. Volle 70B-Qualität nur auf Mac Studio M2 Ultra.
Lohnt sich RTX 5090 für 2.000 € für lokale LLMs?
Nur, wenn Sie 70B-Modelle regelmäßig oder für produktive Workloads ausführen. RTX 5090 (200 Tok/s bei 8B) ist 2,5× schneller als RTX 4090 (2.310 €). Besserer Wert: RTX 4070 Ti (600 €, 80 Tok/s) für 8B–32B-Modelle; Mac Studio M2 Ultra (4.000 €) wenn Sie native 70B-Unterstützung benötigen.
Muss ich bei der Verwendung lokaler LLMs die DSGVO beachten?
Ja. DSGVO Artikel 28 (Prozessor vs. Verantwortlicher), BSI-Grundschutz-Kataloge Compliance. Lokale Inferenz erfüllt Datenschutzanforderungen für deutsche/europäische Unternehmen. GPU oder Apple Silicon ohne Cloud = vollständige Datenkontrolle. RTX 4070 Ti oder Mac Studio sind DSGVO-konform und ermöglichen volle Datenhoheit ohne abhängig von US Cloud APIs zu sein.
Ist lokale LLM-Hardware für den deutschen Mittelstand geeignet?
Ja, besonders für den Mittelstand. RTX 4070 Ti (600 €) ist ein kostengünstiger Einstieg. DSGVO-konform, keine Abhängigkeit von US Cloud APIs. BSI-Grundschutz-zertifizierbar. Für mittelständische Unternehmen in Deutschland/Österreich/Schweiz: Lokale Hardware vermeidet Datentransfers ins Ausland und erfüllt strikte Compliance-Standards.
Quellen
- NVIDIA GPU-Spezifikationen — RTX 40/50 Serie GPU-Spezifikationen, VRAM, Speicherbandbreite.
- Apple M3 Leistung — M5 Max einheitliche Speicherarchitektur und Inferenzleistung.
- vLLM-Benchmarks — Produktions-LLM-Inferenz-Durchsatz-Benchmarks.