PromptQuorumPromptQuorum
Accueil/LLMs locaux/Construire un PC LLM local : meilleure workstation (GPU, VRAM, modèles 7B–70B)
Hardware Setups

Construire un PC LLM local : meilleure workstation (GPU, VRAM, modèles 7B–70B)

·10 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Station de travail 4 000–6 000 € : 2× RTX 4090 (48 GB VRAM), Threadripper 7970X (32 cœurs), 128 GB DDR5, refroidissement personnalisé, bloc 2 000 W. À partir d'avril 2026 : 2–3 utilisateurs 70B simultanés à 14 tok/s, ajustement Llama 3.3 en parallèle.

Une station de travail professionnelle pour l'inférence LLM locale en qualité production coûte 4 000–6 000 € et dispose de deux GPU RTX 4090 (48 GB VRAM combinée), CPU Threadripper 7970X (32 cœurs), 128 GB DDR5, refroidissement personnalisé et bloc d'alimentation 2 000 W. À partir d'avril 2026, ce système peut servir 2–3 utilisateurs 70B simultanés à 14 tok/s, exécuter l'ajustement Llama 3.3 70B en parallèle avec l'inférence et fournir un déploiement sur site sans frais d'API cloud.

Présentation: Construire un PC LLM local : meilleure workstation (GPU, VRAM, modèles 7B–70B)

Le diaporama ci-dessous couvre : architecture du poste de travail (Dual RTX 4090, Threadripper, 128 GB RAM), options de configuration GPU (côte à côte, NVLink, parallélisme tensoriel), solutions de refroidissement (liquide vs AIO), exigences d'alimentation (PSU 2000W, circuit 20A) et benchmarks de performance multi-utilisateurs (2-3 utilisateurs 70B simultanés à 14 tok/s). Téléchargez le PDF comme carte de référence du build du poste de travail.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • CPU : Threadripper 7970X (32 cœurs, 2 400–2 500 €) ou Intel Xeon W9-3495X (5 000 € +). Permet le fine-tuning parallèle tout en servant l'inférence.
  • GPU : 2× RTX 4090 24 GB (paire d'occasion ~1 900–2 100 €). 48 GB VRAM au total pour 70B multi-utilisateurs ou single 70B + tâches préparatoires.
  • RAM : 128 GB DDR5 (600–800 €). Supporte 8+ utilisateurs simultanés sur 70B ou single-user 70B + quantification en parallèle.
  • Stockage : 4–8 TB NVMe SSD + 12–24 TB HDD (800–1 200 €). Bibliothèque multi-modèle + sauvegardes + ensembles de données.
  • Bloc d'alimentation : 2× 1 200 W ou 1× 2 000 W (800–1 200 €). Dual 4090s consomment 900 W continu ; headroom pour pics essentiel.
  • Refroidissement : Boucle personnalisée ou AIO double 360 mm (1 000–2 000 €). GPU unique + CPU = 1 200 W de chaleur.
  • Réseau : Ethernet 10 Gbps optionnel (200–400 €). Accès LAN multi-utilisateurs sans goulot d'étranglement.
  • Total : 4 000–6 000 €. Supporte 8+ utilisateurs 70B simultanés ou 1 utilisateur fine-tuning + serving en parallèle.

Qui a besoin d'une station de €4K–6K ?

Ce niveau est destiné à :

  • PME/Entreprises : Exécuter une API LLM interne pour 5+ employés simultanément. Contrôle des données on-prem requis.
  • Chercheurs IA : Fine-tuning de grands modèles (70B LoRA) tout en servant l'inférence à l'équipe. Un seul rig à 2K € ne peut pas paralléliser.
  • Ingénieurs MLOps : Construire des clusters d'inférence internes. Commencer avec une station comme nœud serveur.
  • Studios de contenu (sérieux) : Exécuter 24/7 génération de sous-titres vidéo, génération de code, résumé sans frais d'API.

Quelle est la liste complète des composants ?

Une station de travail professionnelle commence par des RTX 4090 duaux (1 900–2 100 € pour paire d'occasion) et un CPU Threadripper (2 400–2 500 €), associé à 128 GB DDR5 et refroidissement liquide personnalisé. Voici la liste complète et ventilation des coûts :

ComposantModèlePrix (Avril 2026)Notes
GPU2× RTX 4090 24 GB (d'occasion)1 900–2 100 €Ponts NVLink optionnels. Testez les deux cartes avant appairage.
CPUThreadripper 7970X (32 cœurs)2 400–2 500 €32 cœurs parallèles pour fine-tuning tout en servant l'inférence sur les deux GPU.
Carte mèreTRX850 ou Xeon W90400–800 €Support GPU dual, PCIe 5.0, alimentation grade entreprise.
RAM128 GB DDR5 6000 MHz600–800 €Corsair Dominator Platinum. Supporte 8+ utilisateurs simultanés.
Stockage4 TB NVMe + 12 TB HDD800–1 200 €NVMe pour modèles chauds, HDD pour sauvegarde & ensembles.
Bloc d'alimentation2 000 W 80+ Platinum ou 2× 1 200 W1 000–1 500 €Dual 4090s = 900 W continu, besoin 2 000 W+ headroom.
RefroidissementBoucle personnalisée ou 2× 360 mm AIO1 500–2 500 €CPU + 2 GPU = 1 200 W chaleur. Refroidissement par air insuffisant.
BoîtierLian Li O11 Dynamic ou Corsair Crystal200–300 €Support GPU dual + grand AIO ou boucle.
Total--4 000–6 000 €Varie avec prix GPU & choix refroidissement.
Composants de la station de travail: GPU Threadripper 7970X dual RTX 4090 (48GB VRAM total), CPU (32 cœurs), RAM DDR5 128GB, bloc d'alimentation 2000W et refroidissement liquide pour dissipation 1 200W.
Composants de la station de travail: GPU Threadripper 7970X dual RTX 4090 (48GB VRAM total), CPU (32 cœurs), RAM DDR5 128GB, bloc d'alimentation 2000W et refroidissement liquide pour dissipation 1 200W.

Comment configurer les GPU duaux pour des performances maximales ?

Deux RTX 4090s vous donnent 48 GB VRAM et ~2× débit pour l'inférence. Vous avez trois options de configuration : opération indépendante côte à côte, fusion NVLink pour VRAM unifié, ou parallelism tenseur pour accélération single-modèle.

📍 En une phrase

Dual GPU fonctionnent soit modèles indépendants par carte (simplest) soit pool VRAM via NVLink (complexe mais modèles plus grands).

💬 En termes simples

Pensez-y comme deux ordinateurs séparés (côte à côte) vs un super-ordinateur partagé (NVLink). Côte à côte plus facile à setup ; partagé donne plus power modèles énormes.

  1. 1
    Côte à côte (pas NVLink) : Chaque GPU fonctionne indépendamment. Modèle A sur GPU 0, Modèle B sur GPU 1. Idéal pour charges hétérogènes (fine-tuning 7B + serving 70B).
  2. 2
    Pont NVLink : Fusionner VRAM (48 GB apparaît comme pool 48 GB unique). Permet plus grandes tailles de batch ou fenêtres contextes massives. Coût : 200–300 € pont + complexité setup.
  3. 3
    Inférence GPU dual : Shard un single modèle 70B sur 2 GPU pour 2× débit (28 tok/s au lieu de 14). Requiert vLLM ou support tensor-parallel llama.cpp.
Trois options de configuration dual-GPU: côte à côte indépendant (charges mixtes, pas NVLink), pont NVLink (VRAM unifié 48GB, grandes fenêtres de contexte) et parallélisation tensorielle (modèle 70B unique fragmenté sur GPUs pour débit 28 jetons/s).
Trois options de configuration dual-GPU: côte à côte indépendant (charges mixtes, pas NVLink), pont NVLink (VRAM unifié 48GB, grandes fenêtres de contexte) et parallélisation tensorielle (modèle 70B unique fragmenté sur GPUs pour débit 28 jetons/s).

💡 Pro Tip: Ignorer NVLink pour charges hétérogènes. Opération indépendante plus simple, moins chère (200 € économisé), élimine bugs firmware pont.

⚠️ Warning: Pont NVLink nécessite support driver propriétaire NVIDIA. ROCm open-source ou AMD équivalents ne supportent pas bridging GPU différents.

RTX 5090 Dual vs RTX 4090 Dual : Comparaison Valeur (Avril 2026)

Dual RTX 4090 d'occasion (1 900–2 100 €) reste choix valeur pour Q4 70B à 100 tok/s. Dual RTX 5090 neuf (4 000 €) gagne sur VRAM plus haut (64 GB) et qualité (format Q8) mais coûte 1 400–1 800 € plus. Single RTX 5090 (2 000 € neuf) adapte 70B Q4 à 40–50 tok/s sans complexité.

ConfigurationVRAMVitesse 70BCoût
Dual RTX 4090 (d'occasion)48 GB100 tok/s (Q4)1 900–2 100 €
Single RTX 5090 (neuf)32 GB40–50 tok/s (Q4)2 000 €
Dual RTX 5090 (neuf)64 GB120 tok/s (Q4)4 000 €

💡 Pro Tip: Pour Q4 70B inférence débit max : dual 4090 d'occasion (1 900–2 100 €) meilleure valeur avril 2026. Nouveaux 5090 coûtent 50%+ plus.

📌 Key Point: Dual 5090 gagne pour Q8 70B (sortie qualité plus haute) ou future-proofing. Single 5090 élimine complexité dual-GPU pour utilisateurs solo.

Comment refroidir 1 200 W de dissipation thermique ?

RTX 4090 (450 W) + RTX 4090 (450 W) + CPU (200 W) = 1 100 W continu, pics à 1 300 W.

  • Boucle liquide personnalisée : 1 500–2 500 €. Bloc eau CPU + blocs eau GPU + radiateur 360 mm. Garde GPU <75°C, CPU <80°C.
  • AIO double 360 mm : 600–900 €. Un AIO par GPU + refroidisseur CPU séparé. Plus modulaire, maintenance plus facile que boucle personnalisée.
  • Refroidissement air : Impossible. Throttling thermique garanti inférence 70B soutenue.
Dissipation thermique: 1 200W total des Dual RTX 4090s (450W chacun) et CPU Threadripper (200W). Solutions de refroidissement: boucle liquide personnalisée (€1 350–2 200), dual AIO 360mm (€540–810) ou refroidissement air (non recommandé, provoque limitation thermique).
Dissipation thermique: 1 200W total des Dual RTX 4090s (450W chacun) et CPU Threadripper (200W). Solutions de refroidissement: boucle liquide personnalisée (€1 350–2 200), dual AIO 360mm (€540–810) ou refroidissement air (non recommandé, provoque limitation thermique).

🛠️ Best Practice: Utiliser pâte thermique avec conductivité 5+ W/mK (Noctua NT-H2, Corsair TM30). Pâte bon marché ajoute 10–15°C et annule garantie GPU.

Quel bloc d'alimentation et configuration électrique choisir ?

Dual 4090s (900 W continu, pics à 1 300 W) nécessitent bloc 2 000 W minimum — moins cause effondrement tension et crashs sous charge. Vous pouvez choisir bloc 2 000 W unique ou dual 1 200 W pour redondance, mais vérifiez circuit maison/bureau supporte 2 000 W à pic.

  • Option 1 : Bloc 2 000 W unique : Seasonic, Corsair, ou EVGA 80+ Platinum. Routage câbles plus propre, point défaillance unique.
  • Option 2 : Dual bloc 1 200 W : Un bloc par GPU + carte mère partagée. Redondance (un échoue, inférence continue 50% vitesse). Setup complexe.
  • Règle capacité : 2 000 W pour dual 4090 minimum. Moins cause effondrement sous charge.
  • Planification circuit : Rig dual-GPU consomme 2 000 W à pic. Assurer circuit 20A (prise maison/bureau typique 15A, insuffisant). Utiliser ligne dédiée 240V si disponible.
Exigences d'alimentation: ~1 100W continu (450W + 450W GPUs, 200W CPU) avec pics à 1 300W. Options bloc d'alimentation: unique 2000W (plus simple, câbles propres) ou dual 1200W (redondant, configuration complexe). Les deux nécessitent un circuit dédié 20A 240V.
Exigences d'alimentation: ~1 100W continu (450W + 450W GPUs, 200W CPU) avec pics à 1 300W. Options bloc d'alimentation: unique 2000W (plus simple, câbles propres) ou dual 1200W (redondant, configuration complexe). Les deux nécessitent un circuit dédié 20A 240V.

⚠️ Warning: Prises maison typiquement 15A à 120V (1 800 W max). Rig dual-4090 déclenchera disjoncteur. Installer circuit dédié 240V 20A (200–400 € électricien).

📌 Key Point: Toujours utiliser blocs modulaires. Dual-GPU ont dizaines pins power ; câbles non-modulaires créent risques incendie contact-résistance multi-pin.

Quelles performances d'inférence multi-utilisateurs attendre ?

Avec 128 GB RAM et dual 4090s, pouvez servir 2–3 utilisateurs 70B simultanés à 14 tok/s chacun, ou 8+ utilisateurs 7B simultanés à 30+ tok/s chacun. Benchmarks supposent quantification Q4 et vLLM pour ordonnancement multi-utilisateurs :

  • Utilisateur unique, modèle 70B : 28 tokens/sec (2× 14 tok/s par GPU via tensor parallelism).
  • Deux utilisateurs simultanés, 70B each : 14 tokens/sec par utilisateur (multiplexage temps requêtes).
  • Quatre utilisateurs simultanés, 7B each : 120 tokens/sec total (chaque utilisateur 30 tok/s).
  • Fine-tuning 7B LoRA + serving 70B : Fine-tuning GPU 0 (100 W), inférence GPU 1 (450 W). Aucune interférence.

Quels sont les erreurs courantes à éviter ?

  • Acheter deux modèles GPU différents (5090 + 4090). Asymétrie cause problèmes load balancing. Rester cartes identiques.
  • Économiser bloc d'alimentation pour sauver 300 €. Bloc 1 500 W + dual 4090s throttle ou crash sous charge.
  • Utiliser refroidissement air au lieu liquide. Throttling thermique coupe débit 30–50% inférence soutenue.
  • Oublier coût électricité calculs TCO. Dual RTX 4090s inférence soutenue consomment 900 W. Tarif français moyen (~0,18 €/kWh) 24/7 : ~€1 400/année électricité. Sur 3 ans : €4 200–4 200 électricité seule. Facteur dans ROI vs cloud API.
  • Sous-estimer réseau setups multi-utilisateurs. Ethernet gigabit standard (1 Gbps = 125 MB/s) goulot 5+ utilisateurs simultanés réponses long contexte. Upgrade 2.5 Gbps ou 10 Gbps pour stations production servant équipes. Coût : 200–400 € NIC + switch.

⚠️ Warning: GPU non matching (modèles différents ou tailles VRAM) brisent tensor parallelism. vLLM fallback single-GPU, halving débit.

💡 Pro Tip: Acheter paires RTX 4090 d'occasion (vérifiées ensemble previous owner) au lieu cartes single neuf. Économiser 500–800 € éviter loterie hardware.

Questions Fréquemment Posées

🔍 Did You Know?: Dual RTX 4090s inférence pleine charge consomment 900 W continu. Facture électricité : ~€1 400/an tarif français moyen (0,18 €/kWh), opération 24/7.

Un CPU Threadripper est-il nécessaire, ou puis-je utiliser Ryzen 9 ?

Inférence seule : Ryzen 9 fonctionne bien. Inférence + fine-tuning parallèle : cœurs extra Threadripper (32 vs. 16) essentiels.

Dois-je utiliser NVLink pour fusionner les deux 4090s ?

Optionnel. Ignorer si modèles séparés chaque GPU (7B + 70B). Utiliser sharding single 70B dual GPU batch sizes plus hautes.

Combien utilisateurs simultanés rig dual-4090 supporter ?

Pour 70B : 2–3 utilisateurs (chacun 14 tok/s). Pour 7B : 8+ utilisateurs (chacun 30+ tok/s).

Puis-je upgrader RTX 5090 au lieu dual 4090 ?

Single 5090 : Performance similaire dual 4090, VRAM moitié (24 GB vs. 48 GB), 1 999 €. Dual 5090 : 4 000 € (overkill, valeur pire).

Quel est ROI station €4 000 vs cloud LLM API ?

Cloud : 0,0008 € pour 1K tokens. Station : 4 000 € amortis 2 ans = 2 000 €/an, ~0,000001 € par token. Seuil 2,5 mrd tokens/an (usage léger).

Une station nécessite-t-elle refroidissement datacenter ?

Non. Refroidissement liquide consumer-grade (2× 360 mm AIO ou boucle) suffisant. Refroidissement datacenter conçu densité ; station unique 1 200 W rentre HVAC bureau.

Dois-je attendre RTX 6090 au lieu acheter dual 4090 maintenant ?

RTX 60-série NVIDIA attendue fin 2026 à 2027 basé cycles refresh historiques 2-an. Besoin station maintenant : dual RTX 4090 d'occasion (1 900–2 100 €) meilleure valeur 70B avril 2026. Attendre 12–18 mois : RTX 6090 probablement 48 GB VRAM single-card, éliminant besoin GPU dual.

Quel est le niveau sonore station dual-4090 ?

Inférence 70B soutenue : 50–60 dB 1 mètre refroidissement liquide custom. Comparable conversation bureau normal. AIO double 360 mm : 55–65 dB (audiblement plus fort sous charge). Refroidissement air : 65–75 dB (bruyant, impratique usage bureau). Placement side-bureau : boucle custom ou AIO quiet essentiel. Placement server-room : bruit irrelevant.

Dois-je considérer des changements de conformité pour CNIL en utilisant LLMs locaux ?

Oui. Inférence locale satisfait automatiquement CNIL recommandations sur données sensibles professionnelles (finances, médical, juridique). Aucun partage données tiers-parties requis. Configuration contrôle d'accès (LDAP, Firewall) assure sécurité données. Pour déploiements entreprise : documenter flux données et politique suppression dans DPA (Data Processing Agreement) employeur.

Sources

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Station de Travail LLM Local 2026 : Dual RTX 4090, 4–6K €, 70B Prêt