Une station de travail professionnelle pour l'inférence LLM locale en qualité production coûte 4 000–6 000 € et dispose de deux GPU RTX 4090 (48 GB VRAM combinée), CPU Threadripper 7970X (32 cœurs), 128 GB DDR5, refroidissement personnalisé et bloc d'alimentation 2 000 W. À partir d'avril 2026, ce système peut servir 2–3 utilisateurs 70B simultanés à 14 tok/s, exécuter l'ajustement Llama 3.3 70B en parallèle avec l'inférence et fournir un déploiement sur site sans frais d'API cloud.

Points clés

CPU : Threadripper 7970X (32 cœurs, 2 400–2 500 €) ou Intel Xeon W9-3495X (5 000 € +). Permet le fine-tuning parallèle tout en servant l'inférence.
GPU : 2× RTX 4090 24 GB (paire d'occasion ~1 900–2 100 €). 48 GB VRAM au total pour 70B multi-utilisateurs ou single 70B + tâches préparatoires.
RAM : 128 GB DDR5 (600–800 €). Supporte 8+ utilisateurs simultanés sur 70B ou single-user 70B + quantification en parallèle.
Stockage : 4–8 TB NVMe SSD + 12–24 TB HDD (800–1 200 €). Bibliothèque multi-modèle + sauvegardes + ensembles de données.
Bloc d'alimentation : 2× 1 200 W ou 1× 2 000 W (800–1 200 €). Dual 4090s consomment 900 W continu ; headroom pour pics essentiel.
Refroidissement : Boucle personnalisée ou AIO double 360 mm (1 000–2 000 €). GPU unique + CPU = 1 200 W de chaleur.
Réseau : Ethernet 10 Gbps optionnel (200–400 €). Accès LAN multi-utilisateurs sans goulot d'étranglement.
Total : 4 000–6 000 €. Supporte 8+ utilisateurs 70B simultanés ou 1 utilisateur fine-tuning + serving en parallèle.

Qui a besoin d'une station de €4K–6K ?

Ce niveau est destiné à :

PME/Entreprises : Exécuter une API LLM interne pour 5+ employés simultanément. Contrôle des données on-prem requis.
Chercheurs IA : Fine-tuning de grands modèles (70B LoRA) tout en servant l'inférence à l'équipe. Un seul rig à 2K € ne peut pas paralléliser.
Ingénieurs MLOps : Construire des clusters d'inférence internes. Commencer avec une station comme nœud serveur.
Studios de contenu (sérieux) : Exécuter 24/7 génération de sous-titres vidéo, génération de code, résumé sans frais d'API.

Quelle est la liste complète des composants ?

Une station de travail professionnelle commence par des RTX 4090 duaux (1 900–2 100 € pour paire d'occasion) et un CPU Threadripper (2 400–2 500 €), associé à 128 GB DDR5 et refroidissement liquide personnalisé. Voici la liste complète et ventilation des coûts :

Composant	Modèle	Prix (Avril 2026)	Notes
GPU	2× RTX 4090 24 GB (d'occasion)	1 900–2 100 €	Ponts NVLink optionnels. Testez les deux cartes avant appairage.
CPU	Threadripper 7970X (32 cœurs)	2 400–2 500 €	32 cœurs parallèles pour fine-tuning tout en servant l'inférence sur les deux GPU.
Carte mère	TRX850 ou Xeon W90	400–800 €	Support GPU dual, PCIe 5.0, alimentation grade entreprise.
RAM	128 GB DDR5 6000 MHz	600–800 €	Corsair Dominator Platinum. Supporte 8+ utilisateurs simultanés.
Stockage	4 TB NVMe + 12 TB HDD	800–1 200 €	NVMe pour modèles chauds, HDD pour sauvegarde & ensembles.
Bloc d'alimentation	2 000 W 80+ Platinum ou 2× 1 200 W	1 000–1 500 €	Dual 4090s = 900 W continu, besoin 2 000 W+ headroom.
Refroidissement	Boucle personnalisée ou 2× 360 mm AIO	1 500–2 500 €	CPU + 2 GPU = 1 200 W chaleur. Refroidissement par air insuffisant.
Boîtier	Lian Li O11 Dynamic ou Corsair Crystal	200–300 €	Support GPU dual + grand AIO ou boucle.
Total	--	4 000–6 000 €	Varie avec prix GPU & choix refroidissement.

Composants de la station de travail: GPU Threadripper 7970X dual RTX 4090 (48GB VRAM total), CPU (32 cœurs), RAM DDR5 128GB, bloc d'alimentation 2000W et refroidissement liquide pour dissipation 1 200W.

Comment configurer les GPU duaux pour des performances maximales ?

Deux RTX 4090s vous donnent 48 GB VRAM et ~2× débit pour l'inférence. Vous avez trois options de configuration : opération indépendante côte à côte, fusion NVLink pour VRAM unifié, ou parallelism tenseur pour accélération single-modèle.

📍 En une phrase

Dual GPU fonctionnent soit modèles indépendants par carte (simplest) soit pool VRAM via NVLink (complexe mais modèles plus grands).

💬 En termes simples

Pensez-y comme deux ordinateurs séparés (côte à côte) vs un super-ordinateur partagé (NVLink). Côte à côte plus facile à setup ; partagé donne plus power modèles énormes.

1
Côte à côte (pas NVLink) : Chaque GPU fonctionne indépendamment. Modèle A sur GPU 0, Modèle B sur GPU 1. Idéal pour charges hétérogènes (fine-tuning 7B + serving 70B).
2
Pont NVLink : Fusionner VRAM (48 GB apparaît comme pool 48 GB unique). Permet plus grandes tailles de batch ou fenêtres contextes massives. Coût : 200–300 € pont + complexité setup.
3
Inférence GPU dual : Shard un single modèle 70B sur 2 GPU pour 2× débit (28 tok/s au lieu de 14). Requiert vLLM ou support tensor-parallel llama.cpp.

Trois options de configuration dual-GPU: côte à côte indépendant (charges mixtes, pas NVLink), pont NVLink (VRAM unifié 48GB, grandes fenêtres de contexte) et parallélisation tensorielle (modèle 70B unique fragmenté sur GPUs pour débit 28 jetons/s).

•💡 Pro Tip: Ignorer NVLink pour charges hétérogènes. Opération indépendante plus simple, moins chère (200 € économisé), élimine bugs firmware pont.

•⚠️ Warning: Pont NVLink nécessite support driver propriétaire NVIDIA. ROCm open-source ou AMD équivalents ne supportent pas bridging GPU différents.

RTX 5090 Dual vs RTX 4090 Dual : Comparaison Valeur (Avril 2026)

Dual RTX 4090 d'occasion (1 900–2 100 €) reste choix valeur pour Q4 70B à 100 tok/s. Dual RTX 5090 neuf (4 000 €) gagne sur VRAM plus haut (64 GB) et qualité (format Q8) mais coûte 1 400–1 800 € plus. Single RTX 5090 (2 000 € neuf) adapte 70B Q4 à 40–50 tok/s sans complexité.

Configuration	VRAM	Vitesse 70B	Coût
Dual RTX 4090 (d'occasion)	48 GB	100 tok/s (Q4)	1 900–2 100 €
Single RTX 5090 (neuf)	32 GB	40–50 tok/s (Q4)	2 000 €
Dual RTX 5090 (neuf)	64 GB	120 tok/s (Q4)	4 000 €

•💡 Pro Tip: Pour Q4 70B inférence débit max : dual 4090 d'occasion (1 900–2 100 €) meilleure valeur avril 2026. Nouveaux 5090 coûtent 50%+ plus.

•📌 Key Point: Dual 5090 gagne pour Q8 70B (sortie qualité plus haute) ou future-proofing. Single 5090 élimine complexité dual-GPU pour utilisateurs solo.

Comment refroidir 1 200 W de dissipation thermique ?

RTX 4090 (450 W) + RTX 4090 (450 W) + CPU (200 W) = 1 100 W continu, pics à 1 300 W.

Boucle liquide personnalisée : 1 500–2 500 €. Bloc eau CPU + blocs eau GPU + radiateur 360 mm. Garde GPU <75°C, CPU <80°C.
AIO double 360 mm : 600–900 €. Un AIO par GPU + refroidisseur CPU séparé. Plus modulaire, maintenance plus facile que boucle personnalisée.
Refroidissement air : Impossible. Throttling thermique garanti inférence 70B soutenue.

Dissipation thermique: 1 200W total des Dual RTX 4090s (450W chacun) et CPU Threadripper (200W). Solutions de refroidissement: boucle liquide personnalisée (€1 350–2 200), dual AIO 360mm (€540–810) ou refroidissement air (non recommandé, provoque limitation thermique).

•🛠️ Best Practice: Utiliser pâte thermique avec conductivité 5+ W/mK (Noctua NT-H2, Corsair TM30). Pâte bon marché ajoute 10–15°C et annule garantie GPU.

Quel bloc d'alimentation et configuration électrique choisir ?

Dual 4090s (900 W continu, pics à 1 300 W) nécessitent bloc 2 000 W minimum — moins cause effondrement tension et crashs sous charge. Vous pouvez choisir bloc 2 000 W unique ou dual 1 200 W pour redondance, mais vérifiez circuit maison/bureau supporte 2 000 W à pic.

Option 1 : Bloc 2 000 W unique : Seasonic, Corsair, ou EVGA 80+ Platinum. Routage câbles plus propre, point défaillance unique.
Option 2 : Dual bloc 1 200 W : Un bloc par GPU + carte mère partagée. Redondance (un échoue, inférence continue 50% vitesse). Setup complexe.
Règle capacité : 2 000 W pour dual 4090 minimum. Moins cause effondrement sous charge.
Planification circuit : Rig dual-GPU consomme 2 000 W à pic. Assurer circuit 20A (prise maison/bureau typique 15A, insuffisant). Utiliser ligne dédiée 240V si disponible.

Exigences d'alimentation: ~1 100W continu (450W + 450W GPUs, 200W CPU) avec pics à 1 300W. Options bloc d'alimentation: unique 2000W (plus simple, câbles propres) ou dual 1200W (redondant, configuration complexe). Les deux nécessitent un circuit dédié 20A 240V.

•⚠️ Warning: Prises maison typiquement 15A à 120V (1 800 W max). Rig dual-4090 déclenchera disjoncteur. Installer circuit dédié 240V 20A (200–400 € électricien).

•📌 Key Point: Toujours utiliser blocs modulaires. Dual-GPU ont dizaines pins power ; câbles non-modulaires créent risques incendie contact-résistance multi-pin.

Quelles performances d'inférence multi-utilisateurs attendre ?

Avec 128 GB RAM et dual 4090s, pouvez servir 2–3 utilisateurs 70B simultanés à 14 tok/s chacun, ou 8+ utilisateurs 7B simultanés à 30+ tok/s chacun. Benchmarks supposent quantification Q4 et vLLM pour ordonnancement multi-utilisateurs :

Utilisateur unique, modèle 70B : 28 tokens/sec (2× 14 tok/s par GPU via tensor parallelism).
Deux utilisateurs simultanés, 70B each : 14 tokens/sec par utilisateur (multiplexage temps requêtes).
Quatre utilisateurs simultanés, 7B each : 120 tokens/sec total (chaque utilisateur 30 tok/s).
Fine-tuning 7B LoRA + serving 70B : Fine-tuning GPU 0 (100 W), inférence GPU 1 (450 W). Aucune interférence.

Quels sont les erreurs courantes à éviter ?

Acheter deux modèles GPU différents (5090 + 4090). Asymétrie cause problèmes load balancing. Rester cartes identiques.
Économiser bloc d'alimentation pour sauver 300 €. Bloc 1 500 W + dual 4090s throttle ou crash sous charge.
Utiliser refroidissement air au lieu liquide. Throttling thermique coupe débit 30–50% inférence soutenue.
Oublier coût électricité calculs TCO. Dual RTX 4090s inférence soutenue consomment 900 W. Tarif français moyen (~0,18 €/kWh) 24/7 : ~€1 400/année électricité. Sur 3 ans : €4 200–4 200 électricité seule. Facteur dans ROI vs cloud API.
Sous-estimer réseau setups multi-utilisateurs. Ethernet gigabit standard (1 Gbps = 125 MB/s) goulot 5+ utilisateurs simultanés réponses long contexte. Upgrade 2.5 Gbps ou 10 Gbps pour stations production servant équipes. Coût : 200–400 € NIC + switch.

•⚠️ Warning: GPU non matching (modèles différents ou tailles VRAM) brisent tensor parallelism. vLLM fallback single-GPU, halving débit.

•💡 Pro Tip: Acheter paires RTX 4090 d'occasion (vérifiées ensemble previous owner) au lieu cartes single neuf. Économiser 500–800 € éviter loterie hardware.

Questions Fréquemment Posées

•🔍 Did You Know?: Dual RTX 4090s inférence pleine charge consomment 900 W continu. Facture électricité : ~€1 400/an tarif français moyen (0,18 €/kWh), opération 24/7.

Un CPU Threadripper est-il nécessaire, ou puis-je utiliser Ryzen 9 ?

Inférence seule : Ryzen 9 fonctionne bien. Inférence + fine-tuning parallèle : cœurs extra Threadripper (32 vs. 16) essentiels.

Dois-je utiliser NVLink pour fusionner les deux 4090s ?

Optionnel. Ignorer si modèles séparés chaque GPU (7B + 70B). Utiliser sharding single 70B dual GPU batch sizes plus hautes.

Combien utilisateurs simultanés rig dual-4090 supporter ?

Pour 70B : 2–3 utilisateurs (chacun 14 tok/s). Pour 7B : 8+ utilisateurs (chacun 30+ tok/s).

Puis-je upgrader RTX 5090 au lieu dual 4090 ?

Single 5090 : Performance similaire dual 4090, VRAM moitié (24 GB vs. 48 GB), 1 999 €. Dual 5090 : 4 000 € (overkill, valeur pire).

Quel est ROI station €4 000 vs cloud LLM API ?

Cloud : 0,0008 € pour 1K tokens. Station : 4 000 € amortis 2 ans = 2 000 €/an, ~0,000001 € par token. Seuil 2,5 mrd tokens/an (usage léger).

Une station nécessite-t-elle refroidissement datacenter ?

Non. Refroidissement liquide consumer-grade (2× 360 mm AIO ou boucle) suffisant. Refroidissement datacenter conçu densité ; station unique 1 200 W rentre HVAC bureau.

Dois-je attendre RTX 6090 au lieu acheter dual 4090 maintenant ?

RTX 60-série NVIDIA attendue fin 2026 à 2027 basé cycles refresh historiques 2-an. Besoin station maintenant : dual RTX 4090 d'occasion (1 900–2 100 €) meilleure valeur 70B avril 2026. Attendre 12–18 mois : RTX 6090 probablement 48 GB VRAM single-card, éliminant besoin GPU dual.

Quel est le niveau sonore station dual-4090 ?

Inférence 70B soutenue : 50–60 dB 1 mètre refroidissement liquide custom. Comparable conversation bureau normal. AIO double 360 mm : 55–65 dB (audiblement plus fort sous charge). Refroidissement air : 65–75 dB (bruyant, impratique usage bureau). Placement side-bureau : boucle custom ou AIO quiet essentiel. Placement server-room : bruit irrelevant.

Dois-je considérer des changements de conformité pour CNIL en utilisant LLMs locaux ?

Oui. Inférence locale satisfait automatiquement CNIL recommandations sur données sensibles professionnelles (finances, médical, juridique). Aucun partage données tiers-parties requis. Configuration contrôle d'accès (LDAP, Firewall) assure sécurité données. Pour déploiements entreprise : documenter flux données et politique suppression dans DPA (Data Processing Agreement) employeur.

Sources

PCPartPicker — Tarification composants en direct Threadripper, RTX 4090/5090, RAM DDR5 avril 2026.
Base Données CPU TechPowerUp — Spécifications officielles Threadripper 7970X consommation puissance core count.
Documentation NVIDIA NVLink — Specs NVLink officielles memory pooling tensor parallelism GPU RTX dual.
vLLM Distributed Serving — Configuration Multi-GPU tensor parallelism modèles 70B hardware consumer.

Construire un PC LLM local : meilleure workstation (GPU, VRAM, modèles 7B–70B)

Présentation: Construire un PC LLM local : meilleure workstation (GPU, VRAM, modèles 7B–70B)

Qui a besoin d'une station de €4K–6K ?

Quelle est la liste complète des composants ?

Comment configurer les GPU duaux pour des performances maximales ?

RTX 5090 Dual vs RTX 4090 Dual : Comparaison Valeur (Avril 2026)

Comment refroidir 1 200 W de dissipation thermique ?

Quel bloc d'alimentation et configuration électrique choisir ?

Quelles performances d'inférence multi-utilisateurs attendre ?

Quels sont les erreurs courantes à éviter ?

Questions Fréquemment Posées

Un CPU Threadripper est-il nécessaire, ou puis-je utiliser Ryzen 9 ?

Dois-je utiliser NVLink pour fusionner les deux 4090s ?

Combien utilisateurs simultanés rig dual-4090 supporter ?

Puis-je upgrader RTX 5090 au lieu dual 4090 ?

Quel est ROI station €4 000 vs cloud LLM API ?

Une station nécessite-t-elle refroidissement datacenter ?

Dois-je attendre RTX 6090 au lieu acheter dual 4090 maintenant ?

Quel est le niveau sonore station dual-4090 ?

Dois-je considérer des changements de conformité pour CNIL en utilisant LLMs locaux ?

Sources

A Note on Third-Party Facts

Construire un PC LLM local : meilleure workstation (GPU, VRAM, modèles 7B–70B)

Présentation: Construire un PC LLM local : meilleure workstation (GPU, VRAM, modèles 7B–70B)

Qui a besoin d'une station de €4K–6K ?

Quelle est la liste complète des composants ?

Comment configurer les GPU duaux pour des performances maximales ?

RTX 5090 Dual vs RTX 4090 Dual : Comparaison Valeur (Avril 2026)

Comment refroidir 1 200 W de dissipation thermique ?

Quel bloc d'alimentation et configuration électrique choisir ?

Quelles performances d'inférence multi-utilisateurs attendre ?

Quels sont les erreurs courantes à éviter ?

Questions Fréquemment Posées

Un CPU Threadripper est-il nécessaire, ou puis-je utiliser Ryzen 9 ?

Dois-je utiliser NVLink pour fusionner les deux 4090s ?

Combien utilisateurs simultanés rig dual-4090 supporter ?

Puis-je upgrader RTX 5090 au lieu dual 4090 ?

Quel est ROI station €4 000 vs cloud LLM API ?

Une station nécessite-t-elle refroidissement datacenter ?

Dois-je attendre RTX 6090 au lieu acheter dual 4090 maintenant ?

Quel est le niveau sonore station dual-4090 ?

Dois-je considérer des changements de conformité pour CNIL en utilisant LLMs locaux ?

Lecture Complémentaire

Sources

A Note on Third-Party Facts