Wichtigste Erkenntnisse
- Multi-GPU: Teilen Sie ein großes Modell auf 2+ GPUs auf. Beispiel: 70B-Modell gleichmäßig auf 2× RTX 4090 verteilt = 48 GB insgesamt VRAM.
- Geschwindigkeitsstrafe: ~5–10 % langsamer als einzelne GPU (GPU-zu-GPU-Kommunikations-Overhead).
- Am besten für: 70B-Modelle, High-Concurrency-Services (50+ gleichzeitige Benutzer).
- Automatisch: Moderne Tools (vLLM, Ollama, llama.cpp) erkennen mehrere GPUs automatisch.
- Ab April 2026 ist dies Standard für Produktionsbereitstellungen.
Wie funktionieren Layer Splitting und Tensor Parallelism?
Ein 70B Transformer-Modell hat 80 Layer. Mit Layer Splitting könnte Ollama platzieren:
- GPU 1: Layer 1–40
- GPU 2: Layer 41–80
Wenn ein Token generiert wird, fließt es durch GPU 1, dann GPU 2, dann zurück für das nächste Token. Minimaler Kommunikations-Overhead.
•💡: Pro-Tipp: Layer sind leichtgewichtig – was zählt, ist die GPU-zu-GPU-Kommunikationsgeschwindigkeit. Layer 1–40 auf GPU1, Layer 41–80 auf GPU2 bedeutet eine GPU-Übertragung pro Token. Deshalb ist NVLink wichtig.
Multi-GPU-Setup mit vLLM
vLLM unterstützt Tensor-Parallelismus sofort mit einem einzelnen Befehl. Verwenden Sie das `--tensor-parallel-size`-Flag, um die Anzahl der GPUs anzugeben:
# Führen Sie ein 70B-Modell auf 2 GPUs aus
vllm serve meta-llama/Llama-3.1-70B \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--port 8000
# API befindet sich jetzt unter http://localhost:8000/v1
# Gleiche API, automatisches Multi-GPU-Handling•⚠️: Warnung: Beide GPUs müssen den gleichen VRAM haben. Wenn Sie RTX 4090 (24 GB) + RTX 4080 (16 GB) kombinieren, wird vLLM auf 16 GB pro GPU begrenzt. Verwenden Sie übereinstimmende GPUs für optimale Leistung.
Multi-GPU-Setup mit Ollama
Ollama erkennt mehrere GPUs automatisch und teilt diese automatisch auf:
1. Führen Sie Ollama normalerweise aus: `ollama serve`
2. Ollama erkennt 2+ GPUs und teilt Modelle automatisch auf
3. Keine Konfiguration erforderlich – es funktioniert einfach.
Verifizieren Sie mit `nvidia-smi` oder `rocm-smi`, um zu sehen, dass beide GPUs geladen werden.
•🛠️: Best Practice: Überprüfen Sie das Multi-GPU-Setup, indem Sie `nvidia-smi` ausführen und die GPU-Speichernutzung überprüfen. Wenn nur eine GPU geladen wird, hat Ollama die zweite GPU möglicherweise nicht erkannt. Überprüfen Sie die Treiberversionen und führen Sie ein Upgrade durch, falls erforderlich.
Performance mit 2 GPUs
| Setup | Model | Speed | Cost |
|---|---|---|---|
| 1× RTX 4090 (24 GB) | 7B | 150 tok/sec | €1.999 |
| 1× RTX 4090 (24 GB) | 70B | Passt nicht | €1.999 |
| 2× RTX 4090 (48 GB) | 70B Q4 | 100 tok/sec | €3.998 |
| 2× RTX 4090 (48 GB) | 70B Q5 | 90 tok/sec | €3.998 |
| 1× RTX 5090 (32 GB) | 70B Q4 | 40–50 tok/sec | €2.199 |
| 2× RTX 5090 (64 GB) | 70B Q8 | 120 tok/sec | €4.398 |
| 2× RTX 5090 (64 GB) | 405B Q4 | 25–35 tok/sec | €4.398 |
| RTX 6000 Ada + RTX 4090 | 70B FP16 | 110 tok/sec | €7.499 |
•📌: Wichtiger Punkt: Zwei RTX 4090s liefern etwa 100 tok/sec bei 70B-Modellen – etwa 90 % der Geschwindigkeit einer einzelnen GPU aufgrund von 5–10 % Kommunikations-Overhead. Der RTX 5090 (32 GB GDDR7, Marktstart Januar 2026) änderte die Rechnung: Eine einzelne 5090 führt 70B Q4 ohne Splitting bei 40–50 tok/sec aus. Dual 5090s (64 GB kombiniert) sind das erste Consumer-Setup, das 405B Q4-Modelle bewältigen kann.
Wann sollte man Multi-GPU nutzen?
Multi-GPU ist kostengünstig, wenn Sie 70B+ Modelle benötigen oder High-Concurrency-Services haben. Verwenden Sie mehrere GPUs, wenn:
- Sie 70B+ Modelle ausführen müssen.
- Sie 50+ gleichzeitige Benutzer bedienen (Batch-Verarbeitung).
- Sie mehrere 13B-Modelle gleichzeitig ausführen möchten.
- Sie Produktionsservices betreiben (nicht Experimente).
•💡: Pro-Tipp: Für Experimente mit 70B-Modellen versuchen Sie zuerst Single-GPU-CPU-Offloading (8–10 tok/sec auf RTX 4090). Sobald die Produktionsnachfrage bestätigt ist, investieren Sie in eine zweite RTX 4090 für Multi-GPU-Setup (100 tok/sec).
Häufige Multi-GPU-Fehler
- Erwartet 2× Speedup mit 2 GPUs. Sie bekommen etwa 90 % der Single-GPU-Geschwindigkeit (5–10 % Overhead aus GPU-Kommunikation).
- Annahme, dass GPUs identisch sein müssen. Sie können RTX 4090 + RTX 4080 kombinieren, aber vLLM wird durch die langsamere GPU begrenzt.
- NVLink nicht für Kommunikation nutzen. Ohne NVLink ist die Multi-GPU-Kommunikation langsamer. NVLink ist selten auf Consumer-GPUs.
- PCIe-Bandbreite vergessen. GPU-zu-GPU-Kommunikation läuft über PCIe, was Bandbreite begrenzt (~16 GB/sec auf PCIe 4.0).
- Eine zweite GPU kaufen, bevor Single-GPU-Optionen versucht werden. Bevor Sie €1.999+ in eine zweite RTX 4090 investieren, versuchen Sie: (1) Q4-Quantisierung statt Q5/Q8 (halbiert VRAM), (2) CPU-Offloading über Ollama (8–10 tok/sec für 70B auf einzelner 4090), (3) RTX 5090 32 GB Single-Card (führt 70B Q4 ohne Splitting für €2.199 aus). Multi-GPU sollte die letzte Optimierung sein, nicht die erste.
•⚠️: Warnung: Das Abgleichen von GPU-Modellen ist für konsistente Leistung unerlässlich. Nicht übereinstimmende GPUs (z. B. 4090 + 4080) erzeugen Engpässe, bei denen die langsamere Karte die Systemgeschwindigkeit vorgibt. Verwenden Sie in der Produktion immer identische GPUs.
Häufig gestellte Fragen
•💬: Wussten Sie schon? NVLink-Bandbreite (900 GB/sec) vs. PCIe-Bandbreite (64 GB/sec) ist der verborgene Faktor bei der Multi-GPU-Leistung. A100/H100 Professional-GPUs mit NVLink können nahezu lineares Skalieren erreichen (z. B. 2× Speedup mit 2 GPUs). Consumer RTX-Karten sind auf PCIe begrenzt, was 5–10 % Overhead verursacht.
Wann sollte ich mehrere GPUs für lokale LLMs verwenden?
Verwenden Sie mehrere GPUs, wenn eine einzelne GPU nicht genug VRAM für Ihr Zielmodell hat. Zwei RTX 4090s (48 GB kombiniert) führen 70B-Modelle bei Q5-Quantisierung mit etwa 100 Token/sec aus. Single GPU mit Offloading erreicht nur 8–10 Token/sec für das gleiche Modell. Multi-GPU ist kostengünstig für 70B+ Modelle, wenn Sie bereits eine zweite GPU haben oder erwerben können.
Wie funktioniert vLLM Tensor Parallelism über GPUs?
vLLM teilt Modell-Layer über GPUs mit Tensor-Parallelismus (`--tensor-parallel-size 2`) auf. Jede GPU hält die Hälfte der Modellgewichtmatrizen; Berechnungen erfolgen parallel mit Ergebnissen, die über NVLink oder PCIe kommuniziert werden. NVLink (NVLink 4.0: 900 GB/sec bidirektional) ist erheblich schneller als PCIe (64 GB/sec) für GPU-übergreifende Kommunikation.
Macht NVLink einen signifikanten Unterschied für LLM-Inferenz?
NVLink verbessert den Durchsatz bei großen Modellen, die häufige GPU-zu-GPU-Kommunikation erfordern, um 10–30 % gegenüber PCIe. Für 70B-Modelle, die auf zwei GPUs aufgeteilt sind, reduziert NVLink den Kommunikations-Overhead von etwa 15 % auf etwa 3–5 %. Consumer RTX-Karten verwenden PCIe; NVLink ist auf Professional A100/H100-GPUs verfügbar. Für die Heimnutzung ist PCIe ausreichend.
Kann ich verschiedene GPU-Modelle (z. B. RTX 4090 + RTX 4080) für Layer Splitting mischen?
Technisch ja – vLLM und llama.cpp unterstützen gemischte GPU-Setups. In der Praxis begrenzt die langsamere GPU das Paar. Ein 4090+4080-Paar leistet näher an zwei 4080s als zwei 4090s. Das Abgleichen von GPU-Modellen wird für Produktionsbereitstellungen stark empfohlen.
Wie viele GPUs benötige ich für 70B- und 405B-Modelle?
70B bei Q4: passt in 2× RTX 4090 (35 GB benötigt, 48 GB verfügbar). 70B bei Q8: benötigt 4× RTX 4090 (70 GB benötigt). 405B bei Q4: benötigt 4× RTX 4090 (200 GB benötigt – knapp passend). Für 405B ist Professional A100 80GB×4 (320 GB kombiniert) die empfohlene Plattform.
Wie hoch ist die Geschwindigkeitsstrafe für Layer Splitting vs. einzelne GPU?
Layer Splitting verursacht 5–10 % Overhead aus GPU-zu-GPU-Kommunikation. Zwei RTX 4090s, die ein 70B-Modell ausführen, erreichen etwa 100 Token/sec – ungefähr 90 % dessen, was eine einzelne theoretische 48-GB-GPU erreichen würde. Dies ist weit besser als CPU-Offloading (8–10 Token/sec) oder eine einzelne 4090, die ein unmögliches 70B-Modell ausführt.
Kann ich 70B auf einer einzelnen RTX 5090 ohne Multi-GPU ausführen?
Ja – der RTX 5090 (32 GB GDDR7, Januar 2026) passt zu Llama 3.3 70B bei Q4_K_M (etwa 40 GB mit KV-Cache bei kurzem Kontext, eng passend bei 32 GB mit 4K-Kontext). Performance: 40–50 tok/sec. Für 70B bei längerem Kontext (32K+) oder höherer Quantisierung (Q5+) werden noch duale GPUs benötigt. Der 5090 eliminierte die Notwendigkeit für Multi-GPU für 70B Q4 bei kurzem Kontext.
Lohnt sich PCIe 5.0 für Multi-GPU-LLM-Setups?
PCIe 5.0 verdoppelt die Bandbreite auf etwa 128 GB/sec gegenüber 64 GB/sec auf PCIe 4.0. Für Dual-GPU-70B-Inferenz reduziert dies den Kommunikations-Overhead von etwa 10 % auf etwa 6–7 %. Die Verbesserung ist bemerkenswert, aber nicht transformativ – NVLink (900 GB/sec) bleibt der einzige Weg, um nahezu lineales Skalieren zu erreichen. Für Consumer-Builds werden PCIe 5.0-Motherboards empfohlen, wenn Sie neu kaufen, aber ein Upgrade von PCIe 4.0 nur für Multi-GPU ist nicht kostengünstig.
Muss ich bei der Verwendung von Multi-GPU-Setups die DSGVO beachten?
Ja – wenn Sie Benutzerdaten verarbeiten, müssen Sie DSGVO-Bestimmungen einhalten, besonders Artikel 28 (Datenverarbeiterverträge). Lokale Multi-GPU-Inferenz bietet einen großen Vorteil: Daten bleiben auf Ihren Servern, was Datenschutz und Sovereignty unterstützt. Stellen Sie sicher, dass Sie BSI-Grundschutz-Kataloge befolgen (für Bundeseinrichtungen und Unternehmen in kritischen Infrastrukturen). Multi-GPU-Setups mit lokaler Verarbeitung erfüllen DSGVO-Anforderungen besser als Cloud-basierte Inferenz.
Ist Multi-GPU-Inferenz für den deutschen Mittelstand geeignet?
Absolut. Der Mittelstand profitiert von lokalen Multi-GPU-Setups, weil sie Daten in-house halten und IT-Sicherheitsstandards (BSI-Grundschutz) erfüllen. Mit zwei RTX 4090s (€3.998) können Mittelstandsunternehmen 70B-Modelle mit 100 tok/sec ausführen – ausreichend für Kundenbetreuung, Dokumentenanalyse und Datenverarbeitung. Im Vergleich dazu kostet Cloud-basierte Inferenz schnell €500–2.000 pro Monat. Multi-GPU ist eine Investition, die sich in 2–3 Monaten amortisiert, wenn Sie damit ein internes Projekt monetarisieren.
Quellen
- vLLM Tensor Parallelism Dokumentation -- Offizielle vLLM-Dokumentation zu verteiltem Servieren und Tensor-Parallelismus.
- Ollama Multi-GPU-Unterstützung -- Ollama GitHub-Dokumentation für GPU-Erkennung und Layer-Splitting.
- PyTorch Verteilte Tensoren -- Kerngerüst-Dokumentation für verteilte Tensoroperationen.