L'utilisation de plusieurs GPUs vous permet d'exécuter des modèles 70B+ qui ne rentrent pas dans la VRAM d'une seule GPU. Deux RTX 4090s (48 Go combinés) exécutent Llama 3.3 70B en quantification Q4 à environ 100 tokens/seconde – seulement 5–10 % plus lent qu'une GPU unique théorique de 48 Go en raison du surcoût de communication GPU-à-GPU. Depuis avril 2026, vLLM (parallélisme tensoriel) et Ollama (division de couches automatique) supportent tous les deux multi-GPU directement. NVLink réduit le surcoût à 3–5 % mais n'est pas disponible sur les GPUs RTX grand public – PCIe 4.0/5.0 est suffisant pour la plupart des configurations dual-GPU.

Points clés

Multi-GPU : divisez un grand modèle sur 2+ GPUs. Exemple : modèle 70B divisé équitablement sur 2× RTX 4090 = 48 Go VRAM total.
Surcoût de vitesse : ~5–10 % plus lent qu'une GPU unique (surcoût de communication GPU-à-GPU).
Idéal pour : modèles 70B, services haute concurrence (50+ utilisateurs simultanés).
Automatique : les outils modernes (vLLM, Ollama, llama.cpp) détectent plusieurs GPUs automatiquement.
Depuis avril 2026, c'est standard pour les déploiements de production.

Comment fonctionnent le Layer Splitting et Tensor Parallelism ?

Un modèle Transformer 70B a 80 couches. Avec le layer splitting, Ollama pourrait placer :

- GPU 1 : Couches 1–40

- GPU 2 : Couches 41–80

Quand un token est généré, il passe par GPU 1, puis GPU 2, puis revient pour le token suivant. Surcoût de communication minimal.

Répartition des couches sur 2 GPU : modèle 70B à 80 couches distribué (couches 1–40 GPU 1, couches 41–80 GPU 2), communication inter-GPU PCIe ajoutant ~10% de surcharge (~100 tok/sec sur dual RTX 4090).

•💡: Conseil Pro : les couches sont légères – ce qui compte, c'est la vitesse de communication GPU-à-GPU. Couches 1–40 sur GPU1, couches 41–80 sur GPU2 signifie un transfert GPU par token. C'est pourquoi NVLink est important.

Configuration Multi-GPU avec vLLM

vLLM supporte le parallélisme tensoriel directement avec une seule commande. Utilisez le flag `--tensor-parallel-size` pour spécifier le nombre de GPUs :

bash

# Exécuter un modèle 70B sur 2 GPUs
vllm serve meta-llama/Llama-3.1-70B \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --port 8000

# L'API est maintenant sur http://localhost:8000/v1
# Même API, gestion multi-GPU automatique

Configuration vLLM en 4 étapes : vérifier les GPUs (nvidia-smi) → installer vLLM (pip install) → démarrer avec --tensor-parallel-size 2 → vérifier l'API sur localhost:8000/v1.

•⚠️: Avertissement : les deux GPUs doivent avoir la même VRAM. Si vous associez RTX 4090 (24 Go) + RTX 4080 (16 Go), vLLM sera limité à 16 Go par GPU. Utilisez des GPUs appariées pour une performance optimale.

Configuration Multi-GPU avec Ollama

Ollama détecte plusieurs GPUs automatiquement et les divise automatiquement :

1. Exécutez Ollama normalement : `ollama serve`

2. Ollama détecte 2+ GPUs et divise automatiquement les modèles

3. Aucune configuration requise – ça marche tout simplement.

Vérifiez avec `nvidia-smi` ou `rocm-smi` pour voir les deux GPUs se charger.

•🛠️: Bonne pratique : vérifiez que le setup multi-GPU fonctionne en exécutant `nvidia-smi` et en vérifiant l'utilisation mémoire GPU. Si une seule GPU se charge, Ollama n'a peut-être pas détecté la seconde. Vérifiez les versions du driver et mettez à jour si nécessaire.

Performance avec 2 GPUs

Configuration	Modèle	Vitesse	Coût
1× RTX 4090 (24 Go)	7B	150 tok/sec	€1.699
1× RTX 4090 (24 Go)	70B	Ne rentre pas	€1.699
2× RTX 4090 (48 Go)	70B Q4	100 tok/sec	€3.398
2× RTX 4090 (48 Go)	70B Q5	90 tok/sec	€3.398
1× RTX 5090 (32 Go)	70B Q4	40–50 tok/sec	€1.999
2× RTX 5090 (64 Go)	70B Q8	120 tok/sec	€3.998
2× RTX 5090 (64 Go)	405B Q4	25–35 tok/sec	€3.998
RTX 6000 Ada + RTX 4090	70B FP16	110 tok/sec	€6.499

Tableau de performance : 8 configurations GPU allant de RTX 4090 (€1.699 pour 7B à 150 tok/sec) à dual RTX 5090 (€3.998 pour 70B Q8 à 120 tok/sec). Configuration la plus économique pour 70B : 2× RTX 4090 à 100 tok/sec pour €3.398.

•📌: Point clé : deux RTX 4090s fournissent environ 100 tok/sec sur les modèles 70B – environ 90 % de la vitesse d'une GPU unique en raison du surcoût de communication de 5–10 %. Le RTX 5090 (32 Go GDDR7, lancé en janvier 2026) a changé l'équation : une seule 5090 exécute 70B Q4 sans division à 40–50 tok/sec. Deux 5090s (64 Go combinés) sont le premier setup grand public capable de gérer les modèles 405B Q4.

Quand utiliser Multi-GPU ?

Multi-GPU est rentable quand vous avez besoin de modèles 70B+ ou de services haute concurrence. Utilisez plusieurs GPUs quand :

Vous avez besoin d'exécuter des modèles 70B+.
Vous servez 50+ utilisateurs simultanés (traitement par lot).
Vous voulez exécuter plusieurs modèles 13B simultanément.
Vous exploitez des services de production (pas d'expériences).

Matrice de décision : utilisez multi-GPU si vous avez besoin de modèles 70B+ (✓) OU servez 50+ utilisateurs simultanés (✓). N'investissez dans une 2e GPU que si vous avez la demande (✗ sinon).

•💡: Conseil Pro : pour les expériences avec les modèles 70B, essayez d'abord le déchargement CPU sur GPU unique (8–10 tok/sec sur RTX 4090). Une fois la demande de production confirmée, investissez dans une seconde RTX 4090 pour le setup multi-GPU (100 tok/sec).

Erreurs courantes Multi-GPU

S'attendre à un speedup 2× avec 2 GPUs. Vous obtenez environ 90 % de la vitesse GPU unique (surcoût de communication GPU de 5–10 %).
Assumer que les GPUs doivent être identiques. Vous pouvez mélanger RTX 4090 + RTX 4080, mais vLLM sera limité par la GPU plus lente.
Ne pas utiliser NVLink pour la communication. Sans NVLink, la communication multi-GPU est plus lente. NVLink est rare sur les GPUs grand public.
Oublier la bande passante PCIe. La communication GPU-à-GPU passe par PCIe, qui limite la bande passante (~16 Go/sec sur PCIe 4.0).
Acheter une seconde GPU avant d'essayer les options single-GPU. Avant d'investir €1.699+ dans une seconde RTX 4090, essayez : (1) quantification Q4 au lieu de Q5/Q8 (réduit de moitié la VRAM), (2) déchargement CPU via Ollama (8–10 tok/sec pour 70B sur 4090 unique), (3) RTX 5090 32 Go carte unique (exécute 70B Q4 sans division pour €1.999). Multi-GPU doit être la dernière optimisation, pas la première.

•⚠️: Avertissement : l'appairage des modèles GPU est essentiel pour une performance cohérente. Des GPUs non appariées (par ex. 4090 + 4080) créent des goulots d'étranglement où la carte plus lente dicte la vitesse système. En production, associez toujours des GPUs identiques.

Questions fréquemment posées

•💬: Le saviez-vous ? La bande passante NVLink (900 Go/sec) par rapport à PCIe (64 Go/sec) est le facteur caché de la performance multi-GPU. Les GPUs professionnelles A100/H100 avec NVLink peuvent atteindre une mise à l'échelle quasi linéaire (par ex. 2× speedup avec 2 GPUs). Les GPUs RTX grand public sont limitées à PCIe, causant 5–10 % de surcoût.

Quand dois-je utiliser plusieurs GPUs pour les LLMs locaux ?

Utilisez plusieurs GPUs quand une GPU unique n'a pas assez de VRAM pour votre modèle cible. Deux RTX 4090s (48 Go combinés) exécutent les modèles 70B en quantification Q5 à environ 100 tokens/sec. Une GPU unique avec déchargement ne réalise que 8–10 tokens/sec pour le même modèle. Multi-GPU est rentable pour les modèles 70B+ quand vous avez déjà une seconde GPU ou pouvez en acquérir une.

Comment fonctionne le parallélisme tensoriel vLLM sur les GPUs ?

vLLM divise les couches de modèle sur les GPUs en utilisant le parallélisme tensoriel (`--tensor-parallel-size 2`). Chaque GPU contient la moitié des matrices de poids du modèle ; les calculs se font en parallèle avec les résultats communiqués via NVLink ou PCIe. NVLink (NVLink 4.0 : 900 Go/sec bidirectionnel) est nettement plus rapide que PCIe (64 Go/sec) pour la communication inter-GPU.

NVLink fait-il une différence significative pour l'inférence LLM ?

NVLink améliore le débit de 10–30 % par rapport à PCIe pour les grands modèles nécessitant une communication GPU-à-GPU fréquente. Pour les modèles 70B divisés sur deux GPUs, NVLink réduit le surcoût de communication d'environ 15 % à environ 3–5 %. Les GPUs RTX grand public utilisent PCIe ; NVLink est disponible sur les GPUs professionnelles A100/H100. Pour un usage domestique, PCIe est suffisant.

Puis-je mélanger différents modèles de GPU (par ex. RTX 4090 + RTX 4080) pour la division de couches ?

Techniquement oui – vLLM et llama.cpp supportent les setups GPU mixtes. En pratique, la GPU plus lente goulotte le couple. Une paire 4090+4080 fonctionne plus près de deux 4080s que deux 4090s. L'appairage des modèles GPU est fortement recommandé pour les déploiements de production.

De combien de GPUs ai-je besoin pour les modèles 70B et 405B ?

70B en Q4 : rentre dans 2× RTX 4090 (35 Go nécessaires, 48 Go disponibles). 70B en Q8 : nécessite 4× RTX 4090 (70 Go nécessaires). 405B en Q4 : nécessite 4× RTX 4090 (200 Go nécessaires – juste). Pour 405B, les GPUs professionnelles A100 80Go×4 (320 Go combinés) sont la plateforme recommandée.

Quel est le surcoût de vitesse pour la division de couches par rapport à une GPU unique ?

La division de couches ajoute 5–10 % de surcoût par rapport à la communication GPU-à-GPU. Deux RTX 4090s exécutant un modèle 70B atteignent environ 100 tokens/sec – environ 90 % de ce qu'une GPU unique théorique de 48 Go réaliserait. C'est bien mieux que le déchargement CPU (8–10 tokens/sec) ou une 4090 unique tentant un modèle 70B impossible.

Puis-je exécuter 70B sur une unique RTX 5090 sans multi-GPU ?

Oui – le RTX 5090 (32 Go GDDR7, janvier 2026) rentre dans Llama 3.3 70B en Q4_K_M (environ 40 Go avec cache KV en contexte court, juste à 32 Go en contexte 4K). Performance : 40–50 tok/sec. Pour 70B en contexte plus long (32K+) ou quantification plus haute (Q5+), les GPUs duales sont encore nécessaires. Le 5090 a éliminé le besoin multi-GPU pour 70B Q4 en contexte court.

PCIe 5.0 vaut-il le coup pour les setups multi-GPU LLM ?

PCIe 5.0 double la bande passante à environ 128 Go/sec par rapport à 64 Go/sec sur PCIe 4.0. Pour l'inférence dual-GPU 70B, cela réduit le surcoût de communication d'environ 10 % à environ 6–7 %. L'amélioration est notable mais pas transformative – NVLink (900 Go/sec) reste le seul moyen d'atteindre une mise à l'échelle quasi linéaire. Pour les builds grand public, les cartes mères PCIe 5.0 sont recommandées si vous achetez neuf, mais la mise à niveau de PCIe 4.0 uniquement pour multi-GPU n'est pas rentable.

Comment les données sensibles sont-elles traitées avec multi-GPU local ?

L'inférence locale sur multi-GPU vous permet de traiter les données financières, médicales et légales sans les envoyer à des services cloud. Pour les données sensibles (financière, médicale, légale), l'inférence locale satisfait les recommandations de la CNIL sur le traitement local. Documentez votre politique de traitement et assurez-vous que les modèles locaux sont mis à jour régulièrement.

Quel est l'intérêt multi-GPU pour les petites entreprises ?

Pour les petites entreprises qui traitent des données sensibles, multi-GPU local offre confidentialité, conformité réglementaire (CNIL, RGPD) et autonomie. Deux RTX 4090s (€3.398) livrent 100 tok/sec – assez pour le service client, l'analyse documentaire et le traitement de données. Par rapport aux services cloud payants (€500–2.000/mois), l'investissement multi-GPU se rentabilise en 2–3 mois quand vous avez un projet interne à exploiter.

Sources

Documentation vLLM Tensor Parallelism -- Documentation officielle vLLM sur la distribution et le parallélisme tensoriel.
Support Multi-GPU Ollama -- Documentation GitHub Ollama pour la détection GPU et la division de couches.
Tenseurs distribués PyTorch -- Documentation du framework pour les opérations tensorielles distribuées.

Multi-GPU LLMs Locaux 2026 : Exécuter les Modèles 70B sur 2+ GPUs avec vLLM et Ollama

Présentation: Multi-GPU LLMs Locaux 2026 : Exécuter les Modèles 70B sur 2+ GPUs avec vLLM et Ollama

Comment fonctionnent le Layer Splitting et Tensor Parallelism ?

Configuration Multi-GPU avec vLLM

Configuration Multi-GPU avec Ollama

Performance avec 2 GPUs

Quand utiliser Multi-GPU ?

Erreurs courantes Multi-GPU

Questions fréquemment posées

Quand dois-je utiliser plusieurs GPUs pour les LLMs locaux ?

Comment fonctionne le parallélisme tensoriel vLLM sur les GPUs ?

NVLink fait-il une différence significative pour l'inférence LLM ?

Puis-je mélanger différents modèles de GPU (par ex. RTX 4090 + RTX 4080) pour la division de couches ?

De combien de GPUs ai-je besoin pour les modèles 70B et 405B ?

Quel est le surcoût de vitesse pour la division de couches par rapport à une GPU unique ?

Puis-je exécuter 70B sur une unique RTX 5090 sans multi-GPU ?

PCIe 5.0 vaut-il le coup pour les setups multi-GPU LLM ?

Comment les données sensibles sont-elles traitées avec multi-GPU local ?

Quel est l'intérêt multi-GPU pour les petites entreprises ?

Sources

A Note on Third-Party Facts

Multi-GPU LLMs Locaux 2026 : Exécuter les Modèles 70B sur 2+ GPUs avec vLLM et Ollama

Présentation: Multi-GPU LLMs Locaux 2026 : Exécuter les Modèles 70B sur 2+ GPUs avec vLLM et Ollama

Comment fonctionnent le Layer Splitting et Tensor Parallelism ?

Configuration Multi-GPU avec vLLM

Configuration Multi-GPU avec Ollama

Performance avec 2 GPUs

Quand utiliser Multi-GPU ?

Erreurs courantes Multi-GPU

Questions fréquemment posées

Quand dois-je utiliser plusieurs GPUs pour les LLMs locaux ?

Comment fonctionne le parallélisme tensoriel vLLM sur les GPUs ?

NVLink fait-il une différence significative pour l'inférence LLM ?

Puis-je mélanger différents modèles de GPU (par ex. RTX 4090 + RTX 4080) pour la division de couches ?

De combien de GPUs ai-je besoin pour les modèles 70B et 405B ?

Quel est le surcoût de vitesse pour la division de couches par rapport à une GPU unique ?

Puis-je exécuter 70B sur une unique RTX 5090 sans multi-GPU ?

PCIe 5.0 vaut-il le coup pour les setups multi-GPU LLM ?

Comment les données sensibles sont-elles traitées avec multi-GPU local ?

Quel est l'intérêt multi-GPU pour les petites entreprises ?

Lectures complémentaires

Sources

A Note on Third-Party Facts