PromptQuorumPromptQuorum
Accueil/LLMs locaux/Multi-GPU LLMs Locaux 2026 : Exécuter les Modèles 70B sur 2+ GPUs avec vLLM et Ollama
Hardware & Performance

Multi-GPU LLMs Locaux 2026 : Exécuter les Modèles 70B sur 2+ GPUs avec vLLM et Ollama

·11 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Deux RTX 4090s (48 Go combinés) exécutent Llama 3.3 70B à environ 100 tokens/seconde – seulement 5–10 % plus lent qu'une GPU unique théorique de 48 Go. C'est la configuration multi-GPU la plus rentable pour les modèles 70B en 2026.

L'utilisation de plusieurs GPUs vous permet d'exécuter des modèles 70B+ qui ne rentrent pas dans la VRAM d'une seule GPU. Deux RTX 4090s (48 Go combinés) exécutent Llama 3.3 70B en quantification Q4 à environ 100 tokens/seconde – seulement 5–10 % plus lent qu'une GPU unique théorique de 48 Go en raison du surcoût de communication GPU-à-GPU. Depuis avril 2026, vLLM (parallélisme tensoriel) et Ollama (division de couches automatique) supportent tous les deux multi-GPU directement. NVLink réduit le surcoût à 3–5 % mais n'est pas disponible sur les GPUs RTX grand public – PCIe 4.0/5.0 est suffisant pour la plupart des configurations dual-GPU.

Présentation: Multi-GPU LLMs Locaux 2026 : Exécuter les Modèles 70B sur 2+ GPUs avec vLLM et Ollama

Le diaporama couvre : comment deux RTX 4090 (48 Go combinés) exécutent Llama 3.3 70B à 100 tok/sec avec seulement 5 à 10 % de surcoût, la configuration du parallélisme tensoriel vLLM (--tensor-parallel-size 2), la répartition automatique Ollama, la comparaison NVLink vs PCIe (900 Go/s vs 64 Go/s), un tableau de performances à 8 lignes et 5 erreurs courantes. Téléchargez le PDF comme référence pour l'inférence LLM multi-GPU.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • Multi-GPU : divisez un grand modèle sur 2+ GPUs. Exemple : modèle 70B divisé équitablement sur 2× RTX 4090 = 48 Go VRAM total.
  • Surcoût de vitesse : ~5–10 % plus lent qu'une GPU unique (surcoût de communication GPU-à-GPU).
  • Idéal pour : modèles 70B, services haute concurrence (50+ utilisateurs simultanés).
  • Automatique : les outils modernes (vLLM, Ollama, llama.cpp) détectent plusieurs GPUs automatiquement.
  • Depuis avril 2026, c'est standard pour les déploiements de production.

Comment fonctionnent le Layer Splitting et Tensor Parallelism ?

Un modèle Transformer 70B a 80 couches. Avec le layer splitting, Ollama pourrait placer :

- GPU 1 : Couches 1–40

- GPU 2 : Couches 41–80

Quand un token est généré, il passe par GPU 1, puis GPU 2, puis revient pour le token suivant. Surcoût de communication minimal.

Répartition des couches sur 2 GPU : modèle 70B à 80 couches distribué (couches 1–40 GPU 1, couches 41–80 GPU 2), communication inter-GPU PCIe ajoutant ~10% de surcharge (~100 tok/sec sur dual RTX 4090).
Répartition des couches sur 2 GPU : modèle 70B à 80 couches distribué (couches 1–40 GPU 1, couches 41–80 GPU 2), communication inter-GPU PCIe ajoutant ~10% de surcharge (~100 tok/sec sur dual RTX 4090).

💡: Conseil Pro : les couches sont légères – ce qui compte, c'est la vitesse de communication GPU-à-GPU. Couches 1–40 sur GPU1, couches 41–80 sur GPU2 signifie un transfert GPU par token. C'est pourquoi NVLink est important.

Configuration Multi-GPU avec vLLM

vLLM supporte le parallélisme tensoriel directement avec une seule commande. Utilisez le flag `--tensor-parallel-size` pour spécifier le nombre de GPUs :

bash
# Exécuter un modèle 70B sur 2 GPUs
vllm serve meta-llama/Llama-3.1-70B \
  --tensor-parallel-size 2 \
  --gpu-memory-utilization 0.95 \
  --port 8000

# L'API est maintenant sur http://localhost:8000/v1
# Même API, gestion multi-GPU automatique
Configuration vLLM en 4 étapes : vérifier les GPUs (nvidia-smi) → installer vLLM (pip install) → démarrer avec --tensor-parallel-size 2 → vérifier l'API sur localhost:8000/v1.
Configuration vLLM en 4 étapes : vérifier les GPUs (nvidia-smi) → installer vLLM (pip install) → démarrer avec --tensor-parallel-size 2 → vérifier l'API sur localhost:8000/v1.

⚠️: Avertissement : les deux GPUs doivent avoir la même VRAM. Si vous associez RTX 4090 (24 Go) + RTX 4080 (16 Go), vLLM sera limité à 16 Go par GPU. Utilisez des GPUs appariées pour une performance optimale.

Configuration Multi-GPU avec Ollama

Ollama détecte plusieurs GPUs automatiquement et les divise automatiquement :

1. Exécutez Ollama normalement : `ollama serve`

2. Ollama détecte 2+ GPUs et divise automatiquement les modèles

3. Aucune configuration requise – ça marche tout simplement.

Vérifiez avec `nvidia-smi` ou `rocm-smi` pour voir les deux GPUs se charger.

🛠️: Bonne pratique : vérifiez que le setup multi-GPU fonctionne en exécutant `nvidia-smi` et en vérifiant l'utilisation mémoire GPU. Si une seule GPU se charge, Ollama n'a peut-être pas détecté la seconde. Vérifiez les versions du driver et mettez à jour si nécessaire.

Performance avec 2 GPUs

ConfigurationModèleVitesseCoût
1× RTX 4090 (24 Go)7B150 tok/sec€1.699
1× RTX 4090 (24 Go)70BNe rentre pas€1.699
2× RTX 4090 (48 Go)70B Q4100 tok/sec€3.398
2× RTX 4090 (48 Go)70B Q590 tok/sec€3.398
1× RTX 5090 (32 Go)70B Q440–50 tok/sec€1.999
2× RTX 5090 (64 Go)70B Q8120 tok/sec€3.998
2× RTX 5090 (64 Go)405B Q425–35 tok/sec€3.998
RTX 6000 Ada + RTX 409070B FP16110 tok/sec€6.499
Tableau de performance : 8 configurations GPU allant de RTX 4090 (€1.699 pour 7B à 150 tok/sec) à dual RTX 5090 (€3.998 pour 70B Q8 à 120 tok/sec). Configuration la plus économique pour 70B : 2× RTX 4090 à 100 tok/sec pour €3.398.
Tableau de performance : 8 configurations GPU allant de RTX 4090 (€1.699 pour 7B à 150 tok/sec) à dual RTX 5090 (€3.998 pour 70B Q8 à 120 tok/sec). Configuration la plus économique pour 70B : 2× RTX 4090 à 100 tok/sec pour €3.398.

📌: Point clé : deux RTX 4090s fournissent environ 100 tok/sec sur les modèles 70B – environ 90 % de la vitesse d'une GPU unique en raison du surcoût de communication de 5–10 %. Le RTX 5090 (32 Go GDDR7, lancé en janvier 2026) a changé l'équation : une seule 5090 exécute 70B Q4 sans division à 40–50 tok/sec. Deux 5090s (64 Go combinés) sont le premier setup grand public capable de gérer les modèles 405B Q4.

Quand utiliser Multi-GPU ?

Multi-GPU est rentable quand vous avez besoin de modèles 70B+ ou de services haute concurrence. Utilisez plusieurs GPUs quand :

  • Vous avez besoin d'exécuter des modèles 70B+.
  • Vous servez 50+ utilisateurs simultanés (traitement par lot).
  • Vous voulez exécuter plusieurs modèles 13B simultanément.
  • Vous exploitez des services de production (pas d'expériences).
Matrice de décision : utilisez multi-GPU si vous avez besoin de modèles 70B+ (✓) OU servez 50+ utilisateurs simultanés (✓). N'investissez dans une 2e GPU que si vous avez la demande (✗ sinon).
Matrice de décision : utilisez multi-GPU si vous avez besoin de modèles 70B+ (✓) OU servez 50+ utilisateurs simultanés (✓). N'investissez dans une 2e GPU que si vous avez la demande (✗ sinon).

💡: Conseil Pro : pour les expériences avec les modèles 70B, essayez d'abord le déchargement CPU sur GPU unique (8–10 tok/sec sur RTX 4090). Une fois la demande de production confirmée, investissez dans une seconde RTX 4090 pour le setup multi-GPU (100 tok/sec).

Erreurs courantes Multi-GPU

  • S'attendre à un speedup 2× avec 2 GPUs. Vous obtenez environ 90 % de la vitesse GPU unique (surcoût de communication GPU de 5–10 %).
  • Assumer que les GPUs doivent être identiques. Vous pouvez mélanger RTX 4090 + RTX 4080, mais vLLM sera limité par la GPU plus lente.
  • Ne pas utiliser NVLink pour la communication. Sans NVLink, la communication multi-GPU est plus lente. NVLink est rare sur les GPUs grand public.
  • Oublier la bande passante PCIe. La communication GPU-à-GPU passe par PCIe, qui limite la bande passante (~16 Go/sec sur PCIe 4.0).
  • Acheter une seconde GPU avant d'essayer les options single-GPU. Avant d'investir €1.699+ dans une seconde RTX 4090, essayez : (1) quantification Q4 au lieu de Q5/Q8 (réduit de moitié la VRAM), (2) déchargement CPU via Ollama (8–10 tok/sec pour 70B sur 4090 unique), (3) RTX 5090 32 Go carte unique (exécute 70B Q4 sans division pour €1.999). Multi-GPU doit être la dernière optimisation, pas la première.

⚠️: Avertissement : l'appairage des modèles GPU est essentiel pour une performance cohérente. Des GPUs non appariées (par ex. 4090 + 4080) créent des goulots d'étranglement où la carte plus lente dicte la vitesse système. En production, associez toujours des GPUs identiques.

Questions fréquemment posées

💬: Le saviez-vous ? La bande passante NVLink (900 Go/sec) par rapport à PCIe (64 Go/sec) est le facteur caché de la performance multi-GPU. Les GPUs professionnelles A100/H100 avec NVLink peuvent atteindre une mise à l'échelle quasi linéaire (par ex. 2× speedup avec 2 GPUs). Les GPUs RTX grand public sont limitées à PCIe, causant 5–10 % de surcoût.

Quand dois-je utiliser plusieurs GPUs pour les LLMs locaux ?

Utilisez plusieurs GPUs quand une GPU unique n'a pas assez de VRAM pour votre modèle cible. Deux RTX 4090s (48 Go combinés) exécutent les modèles 70B en quantification Q5 à environ 100 tokens/sec. Une GPU unique avec déchargement ne réalise que 8–10 tokens/sec pour le même modèle. Multi-GPU est rentable pour les modèles 70B+ quand vous avez déjà une seconde GPU ou pouvez en acquérir une.

Comment fonctionne le parallélisme tensoriel vLLM sur les GPUs ?

vLLM divise les couches de modèle sur les GPUs en utilisant le parallélisme tensoriel (`--tensor-parallel-size 2`). Chaque GPU contient la moitié des matrices de poids du modèle ; les calculs se font en parallèle avec les résultats communiqués via NVLink ou PCIe. NVLink (NVLink 4.0 : 900 Go/sec bidirectionnel) est nettement plus rapide que PCIe (64 Go/sec) pour la communication inter-GPU.

NVLink fait-il une différence significative pour l'inférence LLM ?

NVLink améliore le débit de 10–30 % par rapport à PCIe pour les grands modèles nécessitant une communication GPU-à-GPU fréquente. Pour les modèles 70B divisés sur deux GPUs, NVLink réduit le surcoût de communication d'environ 15 % à environ 3–5 %. Les GPUs RTX grand public utilisent PCIe ; NVLink est disponible sur les GPUs professionnelles A100/H100. Pour un usage domestique, PCIe est suffisant.

Puis-je mélanger différents modèles de GPU (par ex. RTX 4090 + RTX 4080) pour la division de couches ?

Techniquement oui – vLLM et llama.cpp supportent les setups GPU mixtes. En pratique, la GPU plus lente goulotte le couple. Une paire 4090+4080 fonctionne plus près de deux 4080s que deux 4090s. L'appairage des modèles GPU est fortement recommandé pour les déploiements de production.

De combien de GPUs ai-je besoin pour les modèles 70B et 405B ?

70B en Q4 : rentre dans 2× RTX 4090 (35 Go nécessaires, 48 Go disponibles). 70B en Q8 : nécessite 4× RTX 4090 (70 Go nécessaires). 405B en Q4 : nécessite 4× RTX 4090 (200 Go nécessaires – juste). Pour 405B, les GPUs professionnelles A100 80Go×4 (320 Go combinés) sont la plateforme recommandée.

Quel est le surcoût de vitesse pour la division de couches par rapport à une GPU unique ?

La division de couches ajoute 5–10 % de surcoût par rapport à la communication GPU-à-GPU. Deux RTX 4090s exécutant un modèle 70B atteignent environ 100 tokens/sec – environ 90 % de ce qu'une GPU unique théorique de 48 Go réaliserait. C'est bien mieux que le déchargement CPU (8–10 tokens/sec) ou une 4090 unique tentant un modèle 70B impossible.

Puis-je exécuter 70B sur une unique RTX 5090 sans multi-GPU ?

Oui – le RTX 5090 (32 Go GDDR7, janvier 2026) rentre dans Llama 3.3 70B en Q4_K_M (environ 40 Go avec cache KV en contexte court, juste à 32 Go en contexte 4K). Performance : 40–50 tok/sec. Pour 70B en contexte plus long (32K+) ou quantification plus haute (Q5+), les GPUs duales sont encore nécessaires. Le 5090 a éliminé le besoin multi-GPU pour 70B Q4 en contexte court.

PCIe 5.0 vaut-il le coup pour les setups multi-GPU LLM ?

PCIe 5.0 double la bande passante à environ 128 Go/sec par rapport à 64 Go/sec sur PCIe 4.0. Pour l'inférence dual-GPU 70B, cela réduit le surcoût de communication d'environ 10 % à environ 6–7 %. L'amélioration est notable mais pas transformative – NVLink (900 Go/sec) reste le seul moyen d'atteindre une mise à l'échelle quasi linéaire. Pour les builds grand public, les cartes mères PCIe 5.0 sont recommandées si vous achetez neuf, mais la mise à niveau de PCIe 4.0 uniquement pour multi-GPU n'est pas rentable.

Comment les données sensibles sont-elles traitées avec multi-GPU local ?

L'inférence locale sur multi-GPU vous permet de traiter les données financières, médicales et légales sans les envoyer à des services cloud. Pour les données sensibles (financière, médicale, légale), l'inférence locale satisfait les recommandations de la CNIL sur le traitement local. Documentez votre politique de traitement et assurez-vous que les modèles locaux sont mis à jour régulièrement.

Quel est l'intérêt multi-GPU pour les petites entreprises ?

Pour les petites entreprises qui traitent des données sensibles, multi-GPU local offre confidentialité, conformité réglementaire (CNIL, RGPD) et autonomie. Deux RTX 4090s (€3.398) livrent 100 tok/sec – assez pour le service client, l'analyse documentaire et le traitement de données. Par rapport aux services cloud payants (€500–2.000/mois), l'investissement multi-GPU se rentabilise en 2–3 mois quand vous avez un projet interne à exploiter.

Sources

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Multi-GPU LLMs Locaux 2026 : Dual RTX 4090 pour 70B à 100 tok/s