Points clés
- Multi-GPU : divisez un grand modèle sur 2+ GPUs. Exemple : modèle 70B divisé équitablement sur 2× RTX 4090 = 48 Go VRAM total.
- Surcoût de vitesse : ~5–10 % plus lent qu'une GPU unique (surcoût de communication GPU-à-GPU).
- Idéal pour : modèles 70B, services haute concurrence (50+ utilisateurs simultanés).
- Automatique : les outils modernes (vLLM, Ollama, llama.cpp) détectent plusieurs GPUs automatiquement.
- Depuis avril 2026, c'est standard pour les déploiements de production.
Comment fonctionnent le Layer Splitting et Tensor Parallelism ?
Un modèle Transformer 70B a 80 couches. Avec le layer splitting, Ollama pourrait placer :
- GPU 1 : Couches 1–40
- GPU 2 : Couches 41–80
Quand un token est généré, il passe par GPU 1, puis GPU 2, puis revient pour le token suivant. Surcoût de communication minimal.
•💡: Conseil Pro : les couches sont légères – ce qui compte, c'est la vitesse de communication GPU-à-GPU. Couches 1–40 sur GPU1, couches 41–80 sur GPU2 signifie un transfert GPU par token. C'est pourquoi NVLink est important.
Configuration Multi-GPU avec vLLM
vLLM supporte le parallélisme tensoriel directement avec une seule commande. Utilisez le flag `--tensor-parallel-size` pour spécifier le nombre de GPUs :
# Exécuter un modèle 70B sur 2 GPUs
vllm serve meta-llama/Llama-3.1-70B \
--tensor-parallel-size 2 \
--gpu-memory-utilization 0.95 \
--port 8000
# L'API est maintenant sur http://localhost:8000/v1
# Même API, gestion multi-GPU automatique•⚠️: Avertissement : les deux GPUs doivent avoir la même VRAM. Si vous associez RTX 4090 (24 Go) + RTX 4080 (16 Go), vLLM sera limité à 16 Go par GPU. Utilisez des GPUs appariées pour une performance optimale.
Configuration Multi-GPU avec Ollama
Ollama détecte plusieurs GPUs automatiquement et les divise automatiquement :
1. Exécutez Ollama normalement : `ollama serve`
2. Ollama détecte 2+ GPUs et divise automatiquement les modèles
3. Aucune configuration requise – ça marche tout simplement.
Vérifiez avec `nvidia-smi` ou `rocm-smi` pour voir les deux GPUs se charger.
•🛠️: Bonne pratique : vérifiez que le setup multi-GPU fonctionne en exécutant `nvidia-smi` et en vérifiant l'utilisation mémoire GPU. Si une seule GPU se charge, Ollama n'a peut-être pas détecté la seconde. Vérifiez les versions du driver et mettez à jour si nécessaire.
Performance avec 2 GPUs
| Configuration | Modèle | Vitesse | Coût |
|---|---|---|---|
| 1× RTX 4090 (24 Go) | 7B | 150 tok/sec | €1.699 |
| 1× RTX 4090 (24 Go) | 70B | Ne rentre pas | €1.699 |
| 2× RTX 4090 (48 Go) | 70B Q4 | 100 tok/sec | €3.398 |
| 2× RTX 4090 (48 Go) | 70B Q5 | 90 tok/sec | €3.398 |
| 1× RTX 5090 (32 Go) | 70B Q4 | 40–50 tok/sec | €1.999 |
| 2× RTX 5090 (64 Go) | 70B Q8 | 120 tok/sec | €3.998 |
| 2× RTX 5090 (64 Go) | 405B Q4 | 25–35 tok/sec | €3.998 |
| RTX 6000 Ada + RTX 4090 | 70B FP16 | 110 tok/sec | €6.499 |
•📌: Point clé : deux RTX 4090s fournissent environ 100 tok/sec sur les modèles 70B – environ 90 % de la vitesse d'une GPU unique en raison du surcoût de communication de 5–10 %. Le RTX 5090 (32 Go GDDR7, lancé en janvier 2026) a changé l'équation : une seule 5090 exécute 70B Q4 sans division à 40–50 tok/sec. Deux 5090s (64 Go combinés) sont le premier setup grand public capable de gérer les modèles 405B Q4.
Quand utiliser Multi-GPU ?
Multi-GPU est rentable quand vous avez besoin de modèles 70B+ ou de services haute concurrence. Utilisez plusieurs GPUs quand :
- Vous avez besoin d'exécuter des modèles 70B+.
- Vous servez 50+ utilisateurs simultanés (traitement par lot).
- Vous voulez exécuter plusieurs modèles 13B simultanément.
- Vous exploitez des services de production (pas d'expériences).
•💡: Conseil Pro : pour les expériences avec les modèles 70B, essayez d'abord le déchargement CPU sur GPU unique (8–10 tok/sec sur RTX 4090). Une fois la demande de production confirmée, investissez dans une seconde RTX 4090 pour le setup multi-GPU (100 tok/sec).
Erreurs courantes Multi-GPU
- S'attendre à un speedup 2× avec 2 GPUs. Vous obtenez environ 90 % de la vitesse GPU unique (surcoût de communication GPU de 5–10 %).
- Assumer que les GPUs doivent être identiques. Vous pouvez mélanger RTX 4090 + RTX 4080, mais vLLM sera limité par la GPU plus lente.
- Ne pas utiliser NVLink pour la communication. Sans NVLink, la communication multi-GPU est plus lente. NVLink est rare sur les GPUs grand public.
- Oublier la bande passante PCIe. La communication GPU-à-GPU passe par PCIe, qui limite la bande passante (~16 Go/sec sur PCIe 4.0).
- Acheter une seconde GPU avant d'essayer les options single-GPU. Avant d'investir €1.699+ dans une seconde RTX 4090, essayez : (1) quantification Q4 au lieu de Q5/Q8 (réduit de moitié la VRAM), (2) déchargement CPU via Ollama (8–10 tok/sec pour 70B sur 4090 unique), (3) RTX 5090 32 Go carte unique (exécute 70B Q4 sans division pour €1.999). Multi-GPU doit être la dernière optimisation, pas la première.
•⚠️: Avertissement : l'appairage des modèles GPU est essentiel pour une performance cohérente. Des GPUs non appariées (par ex. 4090 + 4080) créent des goulots d'étranglement où la carte plus lente dicte la vitesse système. En production, associez toujours des GPUs identiques.
Questions fréquemment posées
•💬: Le saviez-vous ? La bande passante NVLink (900 Go/sec) par rapport à PCIe (64 Go/sec) est le facteur caché de la performance multi-GPU. Les GPUs professionnelles A100/H100 avec NVLink peuvent atteindre une mise à l'échelle quasi linéaire (par ex. 2× speedup avec 2 GPUs). Les GPUs RTX grand public sont limitées à PCIe, causant 5–10 % de surcoût.
Quand dois-je utiliser plusieurs GPUs pour les LLMs locaux ?
Utilisez plusieurs GPUs quand une GPU unique n'a pas assez de VRAM pour votre modèle cible. Deux RTX 4090s (48 Go combinés) exécutent les modèles 70B en quantification Q5 à environ 100 tokens/sec. Une GPU unique avec déchargement ne réalise que 8–10 tokens/sec pour le même modèle. Multi-GPU est rentable pour les modèles 70B+ quand vous avez déjà une seconde GPU ou pouvez en acquérir une.
Comment fonctionne le parallélisme tensoriel vLLM sur les GPUs ?
vLLM divise les couches de modèle sur les GPUs en utilisant le parallélisme tensoriel (`--tensor-parallel-size 2`). Chaque GPU contient la moitié des matrices de poids du modèle ; les calculs se font en parallèle avec les résultats communiqués via NVLink ou PCIe. NVLink (NVLink 4.0 : 900 Go/sec bidirectionnel) est nettement plus rapide que PCIe (64 Go/sec) pour la communication inter-GPU.
NVLink fait-il une différence significative pour l'inférence LLM ?
NVLink améliore le débit de 10–30 % par rapport à PCIe pour les grands modèles nécessitant une communication GPU-à-GPU fréquente. Pour les modèles 70B divisés sur deux GPUs, NVLink réduit le surcoût de communication d'environ 15 % à environ 3–5 %. Les GPUs RTX grand public utilisent PCIe ; NVLink est disponible sur les GPUs professionnelles A100/H100. Pour un usage domestique, PCIe est suffisant.
Puis-je mélanger différents modèles de GPU (par ex. RTX 4090 + RTX 4080) pour la division de couches ?
Techniquement oui – vLLM et llama.cpp supportent les setups GPU mixtes. En pratique, la GPU plus lente goulotte le couple. Une paire 4090+4080 fonctionne plus près de deux 4080s que deux 4090s. L'appairage des modèles GPU est fortement recommandé pour les déploiements de production.
De combien de GPUs ai-je besoin pour les modèles 70B et 405B ?
70B en Q4 : rentre dans 2× RTX 4090 (35 Go nécessaires, 48 Go disponibles). 70B en Q8 : nécessite 4× RTX 4090 (70 Go nécessaires). 405B en Q4 : nécessite 4× RTX 4090 (200 Go nécessaires – juste). Pour 405B, les GPUs professionnelles A100 80Go×4 (320 Go combinés) sont la plateforme recommandée.
Quel est le surcoût de vitesse pour la division de couches par rapport à une GPU unique ?
La division de couches ajoute 5–10 % de surcoût par rapport à la communication GPU-à-GPU. Deux RTX 4090s exécutant un modèle 70B atteignent environ 100 tokens/sec – environ 90 % de ce qu'une GPU unique théorique de 48 Go réaliserait. C'est bien mieux que le déchargement CPU (8–10 tokens/sec) ou une 4090 unique tentant un modèle 70B impossible.
Puis-je exécuter 70B sur une unique RTX 5090 sans multi-GPU ?
Oui – le RTX 5090 (32 Go GDDR7, janvier 2026) rentre dans Llama 3.3 70B en Q4_K_M (environ 40 Go avec cache KV en contexte court, juste à 32 Go en contexte 4K). Performance : 40–50 tok/sec. Pour 70B en contexte plus long (32K+) ou quantification plus haute (Q5+), les GPUs duales sont encore nécessaires. Le 5090 a éliminé le besoin multi-GPU pour 70B Q4 en contexte court.
PCIe 5.0 vaut-il le coup pour les setups multi-GPU LLM ?
PCIe 5.0 double la bande passante à environ 128 Go/sec par rapport à 64 Go/sec sur PCIe 4.0. Pour l'inférence dual-GPU 70B, cela réduit le surcoût de communication d'environ 10 % à environ 6–7 %. L'amélioration est notable mais pas transformative – NVLink (900 Go/sec) reste le seul moyen d'atteindre une mise à l'échelle quasi linéaire. Pour les builds grand public, les cartes mères PCIe 5.0 sont recommandées si vous achetez neuf, mais la mise à niveau de PCIe 4.0 uniquement pour multi-GPU n'est pas rentable.
Comment les données sensibles sont-elles traitées avec multi-GPU local ?
L'inférence locale sur multi-GPU vous permet de traiter les données financières, médicales et légales sans les envoyer à des services cloud. Pour les données sensibles (financière, médicale, légale), l'inférence locale satisfait les recommandations de la CNIL sur le traitement local. Documentez votre politique de traitement et assurez-vous que les modèles locaux sont mis à jour régulièrement.
Quel est l'intérêt multi-GPU pour les petites entreprises ?
Pour les petites entreprises qui traitent des données sensibles, multi-GPU local offre confidentialité, conformité réglementaire (CNIL, RGPD) et autonomie. Deux RTX 4090s (€3.398) livrent 100 tok/sec – assez pour le service client, l'analyse documentaire et le traitement de données. Par rapport aux services cloud payants (€500–2.000/mois), l'investissement multi-GPU se rentabilise en 2–3 mois quand vous avez un projet interne à exploiter.
Sources
- Documentation vLLM Tensor Parallelism -- Documentation officielle vLLM sur la distribution et le parallélisme tensoriel.
- Support Multi-GPU Ollama -- Documentation GitHub Ollama pour la détection GPU et la division de couches.
- Tenseurs distribués PyTorch -- Documentation du framework pour les opérations tensorielles distribuées.