Mit mehreren GPUs können Sie 70B+ Modelle ausführen, die nicht in den VRAM einer einzelnen GPU passen. Zwei RTX 4090s (insgesamt 48 GB) führen Llama 3.3 70B bei Q4-Quantisierung mit etwa 100 Token/Sekunde aus – nur 5–10 % langsamer als eine theoretische einzelne 48-GB-GPU aufgrund des Overhead der GPU-zu-GPU-Kommunikation. Ab April 2026 unterstützen sowohl vLLM (Tensor-Parallelismus) als auch Ollama (automatisches Layer-Splitting) Multi-GPU aus dem Kasten heraus. NVLink reduziert den Overhead auf 3–5 %, ist aber auf Consumer-RTX-Karten nicht verfügbar – PCIe 4.0/5.0 ist für die meisten Dual-GPU-Setups ausreichend.

Wichtigste Erkenntnisse

Multi-GPU: Teilen Sie ein großes Modell auf 2+ GPUs auf. Beispiel: 70B-Modell gleichmäßig auf 2× RTX 4090 verteilt = 48 GB insgesamt VRAM.
Geschwindigkeitsstrafe: ~5–10 % langsamer als einzelne GPU (GPU-zu-GPU-Kommunikations-Overhead).
Am besten für: 70B-Modelle, High-Concurrency-Services (50+ gleichzeitige Benutzer).
Automatisch: Moderne Tools (vLLM, Ollama, llama.cpp) erkennen mehrere GPUs automatisch.
Ab April 2026 ist dies Standard für Produktionsbereitstellungen.

Wie funktionieren Layer Splitting und Tensor Parallelism?

Ein 70B Transformer-Modell hat 80 Layer. Mit Layer Splitting könnte Ollama platzieren:

- GPU 1: Layer 1–40

- GPU 2: Layer 41–80

Wenn ein Token generiert wird, fließt es durch GPU 1, dann GPU 2, dann zurück für das nächste Token. Minimaler Kommunikations-Overhead.

Schichtenaufteilung über 2 GPUs: 80-Schichten-70B-Modell verteilt (Schichten 1–40 auf GPU 1, Schichten 41–80 auf GPU 2), PCIe-Kommunikation zwischen GPUs verursacht ~10% Overhead (~100 tok/sec auf dualen RTX 4090).

•💡: Pro-Tipp: Layer sind leichtgewichtig – was zählt, ist die GPU-zu-GPU-Kommunikationsgeschwindigkeit. Layer 1–40 auf GPU1, Layer 41–80 auf GPU2 bedeutet eine GPU-Übertragung pro Token. Deshalb ist NVLink wichtig.

Multi-GPU-Setup mit vLLM

vLLM unterstützt Tensor-Parallelismus sofort mit einem einzelnen Befehl. Verwenden Sie das `--tensor-parallel-size`-Flag, um die Anzahl der GPUs anzugeben:

bash

# Führen Sie ein 70B-Modell auf 2 GPUs aus
vllm serve meta-llama/Llama-3.1-70B \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --port 8000

# API befindet sich jetzt unter http://localhost:8000/v1
# Gleiche API, automatisches Multi-GPU-Handling

•⚠️: Warnung: Beide GPUs müssen den gleichen VRAM haben. Wenn Sie RTX 4090 (24 GB) + RTX 4080 (16 GB) kombinieren, wird vLLM auf 16 GB pro GPU begrenzt. Verwenden Sie übereinstimmende GPUs für optimale Leistung.

Multi-GPU-Setup mit Ollama

Ollama erkennt mehrere GPUs automatisch und teilt diese automatisch auf:

1. Führen Sie Ollama normalerweise aus: `ollama serve`

2. Ollama erkennt 2+ GPUs und teilt Modelle automatisch auf

3. Keine Konfiguration erforderlich – es funktioniert einfach.

Verifizieren Sie mit `nvidia-smi` oder `rocm-smi`, um zu sehen, dass beide GPUs geladen werden.

•🛠️: Best Practice: Überprüfen Sie das Multi-GPU-Setup, indem Sie `nvidia-smi` ausführen und die GPU-Speichernutzung überprüfen. Wenn nur eine GPU geladen wird, hat Ollama die zweite GPU möglicherweise nicht erkannt. Überprüfen Sie die Treiberversionen und führen Sie ein Upgrade durch, falls erforderlich.

Performance mit 2 GPUs

Setup	Model	Speed	Cost
1× RTX 4090 (24 GB)	7B	150 tok/sec	€1.999
1× RTX 4090 (24 GB)	70B	Passt nicht	€1.999
2× RTX 4090 (48 GB)	70B Q4	100 tok/sec	€3.998
2× RTX 4090 (48 GB)	70B Q5	90 tok/sec	€3.998
1× RTX 5090 (32 GB)	70B Q4	40–50 tok/sec	€2.199
2× RTX 5090 (64 GB)	70B Q8	120 tok/sec	€4.398
2× RTX 5090 (64 GB)	405B Q4	25–35 tok/sec	€4.398
RTX 6000 Ada + RTX 4090	70B FP16	110 tok/sec	€7.499

8-Zeilen-GPU-Leistungsvergleich für 70B-Modelle: einzelne RTX 4090 passt nicht zu 70B, duale RTX 4090 liefert 100 tok/sec (€3.998), RTX 5090 32GB führt 70B Q4 bei 40–50 tok/sec (€2.199) aus, duale RTX 5090 verarbeitet 405B Q4 bei 25–35 tok/sec (€4.398).

•📌: Wichtiger Punkt: Zwei RTX 4090s liefern etwa 100 tok/sec bei 70B-Modellen – etwa 90 % der Geschwindigkeit einer einzelnen GPU aufgrund von 5–10 % Kommunikations-Overhead. Der RTX 5090 (32 GB GDDR7, Marktstart Januar 2026) änderte die Rechnung: Eine einzelne 5090 führt 70B Q4 ohne Splitting bei 40–50 tok/sec aus. Dual 5090s (64 GB kombiniert) sind das erste Consumer-Setup, das 405B Q4-Modelle bewältigen kann.

Wann sollte man Multi-GPU nutzen?

Multi-GPU ist kostengünstig, wenn Sie 70B+ Modelle benötigen oder High-Concurrency-Services haben. Verwenden Sie mehrere GPUs, wenn:

Sie 70B+ Modelle ausführen müssen.
Sie 50+ gleichzeitige Benutzer bedienen (Batch-Verarbeitung).
Sie mehrere 13B-Modelle gleichzeitig ausführen möchten.
Sie Produktionsservices betreiben (nicht Experimente).

Multi-GPU-Entscheidungsmatrix: Verwenden Sie, wenn Sie 70B+-Modelle ausführen, 50+ gleichzeitige Benutzer bedienen oder 100+ tok/sec für die Produktion benötigen; überspringen Sie, wenn Sie noch keine 2. GPU gekauft haben oder für Experimente testen.

•💡: Pro-Tipp: Für Experimente mit 70B-Modellen versuchen Sie zuerst Single-GPU-CPU-Offloading (8–10 tok/sec auf RTX 4090). Sobald die Produktionsnachfrage bestätigt ist, investieren Sie in eine zweite RTX 4090 für Multi-GPU-Setup (100 tok/sec).

Häufige Multi-GPU-Fehler

Erwartet 2× Speedup mit 2 GPUs. Sie bekommen etwa 90 % der Single-GPU-Geschwindigkeit (5–10 % Overhead aus GPU-Kommunikation).
Annahme, dass GPUs identisch sein müssen. Sie können RTX 4090 + RTX 4080 kombinieren, aber vLLM wird durch die langsamere GPU begrenzt.
NVLink nicht für Kommunikation nutzen. Ohne NVLink ist die Multi-GPU-Kommunikation langsamer. NVLink ist selten auf Consumer-GPUs.
PCIe-Bandbreite vergessen. GPU-zu-GPU-Kommunikation läuft über PCIe, was Bandbreite begrenzt (~16 GB/sec auf PCIe 4.0).
Eine zweite GPU kaufen, bevor Single-GPU-Optionen versucht werden. Bevor Sie €1.999+ in eine zweite RTX 4090 investieren, versuchen Sie: (1) Q4-Quantisierung statt Q5/Q8 (halbiert VRAM), (2) CPU-Offloading über Ollama (8–10 tok/sec für 70B auf einzelner 4090), (3) RTX 5090 32 GB Single-Card (führt 70B Q4 ohne Splitting für €2.199 aus). Multi-GPU sollte die letzte Optimierung sein, nicht die erste.

•⚠️: Warnung: Das Abgleichen von GPU-Modellen ist für konsistente Leistung unerlässlich. Nicht übereinstimmende GPUs (z. B. 4090 + 4080) erzeugen Engpässe, bei denen die langsamere Karte die Systemgeschwindigkeit vorgibt. Verwenden Sie in der Produktion immer identische GPUs.

Häufig gestellte Fragen

•💬: Wussten Sie schon? NVLink-Bandbreite (900 GB/sec) vs. PCIe-Bandbreite (64 GB/sec) ist der verborgene Faktor bei der Multi-GPU-Leistung. A100/H100 Professional-GPUs mit NVLink können nahezu lineares Skalieren erreichen (z. B. 2× Speedup mit 2 GPUs). Consumer RTX-Karten sind auf PCIe begrenzt, was 5–10 % Overhead verursacht.

Wann sollte ich mehrere GPUs für lokale LLMs verwenden?

Verwenden Sie mehrere GPUs, wenn eine einzelne GPU nicht genug VRAM für Ihr Zielmodell hat. Zwei RTX 4090s (48 GB kombiniert) führen 70B-Modelle bei Q5-Quantisierung mit etwa 100 Token/sec aus. Single GPU mit Offloading erreicht nur 8–10 Token/sec für das gleiche Modell. Multi-GPU ist kostengünstig für 70B+ Modelle, wenn Sie bereits eine zweite GPU haben oder erwerben können.

Wie funktioniert vLLM Tensor Parallelism über GPUs?

vLLM teilt Modell-Layer über GPUs mit Tensor-Parallelismus (`--tensor-parallel-size 2`) auf. Jede GPU hält die Hälfte der Modellgewichtmatrizen; Berechnungen erfolgen parallel mit Ergebnissen, die über NVLink oder PCIe kommuniziert werden. NVLink (NVLink 4.0: 900 GB/sec bidirektional) ist erheblich schneller als PCIe (64 GB/sec) für GPU-übergreifende Kommunikation.

Macht NVLink einen signifikanten Unterschied für LLM-Inferenz?

NVLink verbessert den Durchsatz bei großen Modellen, die häufige GPU-zu-GPU-Kommunikation erfordern, um 10–30 % gegenüber PCIe. Für 70B-Modelle, die auf zwei GPUs aufgeteilt sind, reduziert NVLink den Kommunikations-Overhead von etwa 15 % auf etwa 3–5 %. Consumer RTX-Karten verwenden PCIe; NVLink ist auf Professional A100/H100-GPUs verfügbar. Für die Heimnutzung ist PCIe ausreichend.

Kann ich verschiedene GPU-Modelle (z. B. RTX 4090 + RTX 4080) für Layer Splitting mischen?

Technisch ja – vLLM und llama.cpp unterstützen gemischte GPU-Setups. In der Praxis begrenzt die langsamere GPU das Paar. Ein 4090+4080-Paar leistet näher an zwei 4080s als zwei 4090s. Das Abgleichen von GPU-Modellen wird für Produktionsbereitstellungen stark empfohlen.

Wie viele GPUs benötige ich für 70B- und 405B-Modelle?

70B bei Q4: passt in 2× RTX 4090 (35 GB benötigt, 48 GB verfügbar). 70B bei Q8: benötigt 4× RTX 4090 (70 GB benötigt). 405B bei Q4: benötigt 4× RTX 4090 (200 GB benötigt – knapp passend). Für 405B ist Professional A100 80GB×4 (320 GB kombiniert) die empfohlene Plattform.

Wie hoch ist die Geschwindigkeitsstrafe für Layer Splitting vs. einzelne GPU?

Layer Splitting verursacht 5–10 % Overhead aus GPU-zu-GPU-Kommunikation. Zwei RTX 4090s, die ein 70B-Modell ausführen, erreichen etwa 100 Token/sec – ungefähr 90 % dessen, was eine einzelne theoretische 48-GB-GPU erreichen würde. Dies ist weit besser als CPU-Offloading (8–10 Token/sec) oder eine einzelne 4090, die ein unmögliches 70B-Modell ausführt.

Kann ich 70B auf einer einzelnen RTX 5090 ohne Multi-GPU ausführen?

Ja – der RTX 5090 (32 GB GDDR7, Januar 2026) passt zu Llama 3.3 70B bei Q4_K_M (etwa 40 GB mit KV-Cache bei kurzem Kontext, eng passend bei 32 GB mit 4K-Kontext). Performance: 40–50 tok/sec. Für 70B bei längerem Kontext (32K+) oder höherer Quantisierung (Q5+) werden noch duale GPUs benötigt. Der 5090 eliminierte die Notwendigkeit für Multi-GPU für 70B Q4 bei kurzem Kontext.

Lohnt sich PCIe 5.0 für Multi-GPU-LLM-Setups?

PCIe 5.0 verdoppelt die Bandbreite auf etwa 128 GB/sec gegenüber 64 GB/sec auf PCIe 4.0. Für Dual-GPU-70B-Inferenz reduziert dies den Kommunikations-Overhead von etwa 10 % auf etwa 6–7 %. Die Verbesserung ist bemerkenswert, aber nicht transformativ – NVLink (900 GB/sec) bleibt der einzige Weg, um nahezu lineales Skalieren zu erreichen. Für Consumer-Builds werden PCIe 5.0-Motherboards empfohlen, wenn Sie neu kaufen, aber ein Upgrade von PCIe 4.0 nur für Multi-GPU ist nicht kostengünstig.

Muss ich bei der Verwendung von Multi-GPU-Setups die DSGVO beachten?

Ja – wenn Sie Benutzerdaten verarbeiten, müssen Sie DSGVO-Bestimmungen einhalten, besonders Artikel 28 (Datenverarbeiterverträge). Lokale Multi-GPU-Inferenz bietet einen großen Vorteil: Daten bleiben auf Ihren Servern, was Datenschutz und Sovereignty unterstützt. Stellen Sie sicher, dass Sie BSI-Grundschutz-Kataloge befolgen (für Bundeseinrichtungen und Unternehmen in kritischen Infrastrukturen). Multi-GPU-Setups mit lokaler Verarbeitung erfüllen DSGVO-Anforderungen besser als Cloud-basierte Inferenz.

Ist Multi-GPU-Inferenz für den deutschen Mittelstand geeignet?

Absolut. Der Mittelstand profitiert von lokalen Multi-GPU-Setups, weil sie Daten in-house halten und IT-Sicherheitsstandards (BSI-Grundschutz) erfüllen. Mit zwei RTX 4090s (€3.998) können Mittelstandsunternehmen 70B-Modelle mit 100 tok/sec ausführen – ausreichend für Kundenbetreuung, Dokumentenanalyse und Datenverarbeitung. Im Vergleich dazu kostet Cloud-basierte Inferenz schnell €500–2.000 pro Monat. Multi-GPU ist eine Investition, die sich in 2–3 Monaten amortisiert, wenn Sie damit ein internes Projekt monetarisieren.

Quellen

vLLM Tensor Parallelism Dokumentation -- Offizielle vLLM-Dokumentation zu verteiltem Servieren und Tensor-Parallelismus.
Ollama Multi-GPU-Unterstützung -- Ollama GitHub-Dokumentation für GPU-Erkennung und Layer-Splitting.
PyTorch Verteilte Tensoren -- Kerngerüst-Dokumentation für verteilte Tensoroperationen.

Multi-GPU Lokale LLMs 2026: 70B-Modelle auf 2+ GPUs mit vLLM und Ollama ausführen

Präsentation: Multi-GPU Lokale LLMs 2026: 70B-Modelle auf 2+ GPUs mit vLLM und Ollama ausführen

Wie funktionieren Layer Splitting und Tensor Parallelism?

Multi-GPU-Setup mit vLLM

Multi-GPU-Setup mit Ollama

Performance mit 2 GPUs

Wann sollte man Multi-GPU nutzen?

Häufige Multi-GPU-Fehler

Häufig gestellte Fragen

Wann sollte ich mehrere GPUs für lokale LLMs verwenden?

Wie funktioniert vLLM Tensor Parallelism über GPUs?

Macht NVLink einen signifikanten Unterschied für LLM-Inferenz?

Kann ich verschiedene GPU-Modelle (z. B. RTX 4090 + RTX 4080) für Layer Splitting mischen?

Wie viele GPUs benötige ich für 70B- und 405B-Modelle?

Wie hoch ist die Geschwindigkeitsstrafe für Layer Splitting vs. einzelne GPU?

Kann ich 70B auf einer einzelnen RTX 5090 ohne Multi-GPU ausführen?

Lohnt sich PCIe 5.0 für Multi-GPU-LLM-Setups?

Muss ich bei der Verwendung von Multi-GPU-Setups die DSGVO beachten?

Ist Multi-GPU-Inferenz für den deutschen Mittelstand geeignet?

Quellen

A Note on Third-Party Facts

Multi-GPU Lokale LLMs 2026: 70B-Modelle auf 2+ GPUs mit vLLM und Ollama ausführen

Präsentation: Multi-GPU Lokale LLMs 2026: 70B-Modelle auf 2+ GPUs mit vLLM und Ollama ausführen

Wie funktionieren Layer Splitting und Tensor Parallelism?

Multi-GPU-Setup mit vLLM

Multi-GPU-Setup mit Ollama

Performance mit 2 GPUs

Wann sollte man Multi-GPU nutzen?

Häufige Multi-GPU-Fehler

Häufig gestellte Fragen

Wann sollte ich mehrere GPUs für lokale LLMs verwenden?

Wie funktioniert vLLM Tensor Parallelism über GPUs?

Macht NVLink einen signifikanten Unterschied für LLM-Inferenz?

Kann ich verschiedene GPU-Modelle (z. B. RTX 4090 + RTX 4080) für Layer Splitting mischen?

Wie viele GPUs benötige ich für 70B- und 405B-Modelle?

Wie hoch ist die Geschwindigkeitsstrafe für Layer Splitting vs. einzelne GPU?

Kann ich 70B auf einer einzelnen RTX 5090 ohne Multi-GPU ausführen?

Lohnt sich PCIe 5.0 für Multi-GPU-LLM-Setups?

Muss ich bei der Verwendung von Multi-GPU-Setups die DSGVO beachten?

Ist Multi-GPU-Inferenz für den deutschen Mittelstand geeignet?

Weiterführende Lektüre

Quellen

A Note on Third-Party Facts