Points clés
- CPU : Threadripper 7970X (32 cœurs, 2 400–2 500 €) ou Intel Xeon W9-3495X (5 000 € +). Permet le fine-tuning parallèle tout en servant l'inférence.
- GPU : 2× RTX 4090 24 GB (paire d'occasion ~1 900–2 100 €). 48 GB VRAM au total pour 70B multi-utilisateurs ou single 70B + tâches préparatoires.
- RAM : 128 GB DDR5 (600–800 €). Supporte 8+ utilisateurs simultanés sur 70B ou single-user 70B + quantification en parallèle.
- Stockage : 4–8 TB NVMe SSD + 12–24 TB HDD (800–1 200 €). Bibliothèque multi-modèle + sauvegardes + ensembles de données.
- Bloc d'alimentation : 2× 1 200 W ou 1× 2 000 W (800–1 200 €). Dual 4090s consomment 900 W continu ; headroom pour pics essentiel.
- Refroidissement : Boucle personnalisée ou AIO double 360 mm (1 000–2 000 €). GPU unique + CPU = 1 200 W de chaleur.
- Réseau : Ethernet 10 Gbps optionnel (200–400 €). Accès LAN multi-utilisateurs sans goulot d'étranglement.
- Total : 4 000–6 000 €. Supporte 8+ utilisateurs 70B simultanés ou 1 utilisateur fine-tuning + serving en parallèle.
Qui a besoin d'une station de €4K–6K ?
Ce niveau est destiné à :
- PME/Entreprises : Exécuter une API LLM interne pour 5+ employés simultanément. Contrôle des données on-prem requis.
- Chercheurs IA : Fine-tuning de grands modèles (70B LoRA) tout en servant l'inférence à l'équipe. Un seul rig à 2K € ne peut pas paralléliser.
- Ingénieurs MLOps : Construire des clusters d'inférence internes. Commencer avec une station comme nœud serveur.
- Studios de contenu (sérieux) : Exécuter 24/7 génération de sous-titres vidéo, génération de code, résumé sans frais d'API.
Quelle est la liste complète des composants ?
Une station de travail professionnelle commence par des RTX 4090 duaux (1 900–2 100 € pour paire d'occasion) et un CPU Threadripper (2 400–2 500 €), associé à 128 GB DDR5 et refroidissement liquide personnalisé. Voici la liste complète et ventilation des coûts :
| Composant | Modèle | Prix (Avril 2026) | Notes |
|---|---|---|---|
| GPU | 2× RTX 4090 24 GB (d'occasion) | 1 900–2 100 € | Ponts NVLink optionnels. Testez les deux cartes avant appairage. |
| CPU | Threadripper 7970X (32 cœurs) | 2 400–2 500 € | 32 cœurs parallèles pour fine-tuning tout en servant l'inférence sur les deux GPU. |
| Carte mère | TRX850 ou Xeon W90 | 400–800 € | Support GPU dual, PCIe 5.0, alimentation grade entreprise. |
| RAM | 128 GB DDR5 6000 MHz | 600–800 € | Corsair Dominator Platinum. Supporte 8+ utilisateurs simultanés. |
| Stockage | 4 TB NVMe + 12 TB HDD | 800–1 200 € | NVMe pour modèles chauds, HDD pour sauvegarde & ensembles. |
| Bloc d'alimentation | 2 000 W 80+ Platinum ou 2× 1 200 W | 1 000–1 500 € | Dual 4090s = 900 W continu, besoin 2 000 W+ headroom. |
| Refroidissement | Boucle personnalisée ou 2× 360 mm AIO | 1 500–2 500 € | CPU + 2 GPU = 1 200 W chaleur. Refroidissement par air insuffisant. |
| Boîtier | Lian Li O11 Dynamic ou Corsair Crystal | 200–300 € | Support GPU dual + grand AIO ou boucle. |
| Total | -- | 4 000–6 000 € | Varie avec prix GPU & choix refroidissement. |
Comment configurer les GPU duaux pour des performances maximales ?
Deux RTX 4090s vous donnent 48 GB VRAM et ~2× débit pour l'inférence. Vous avez trois options de configuration : opération indépendante côte à côte, fusion NVLink pour VRAM unifié, ou parallelism tenseur pour accélération single-modèle.
📍 En une phrase
Dual GPU fonctionnent soit modèles indépendants par carte (simplest) soit pool VRAM via NVLink (complexe mais modèles plus grands).
💬 En termes simples
Pensez-y comme deux ordinateurs séparés (côte à côte) vs un super-ordinateur partagé (NVLink). Côte à côte plus facile à setup ; partagé donne plus power modèles énormes.
- 1Côte à côte (pas NVLink) : Chaque GPU fonctionne indépendamment. Modèle A sur GPU 0, Modèle B sur GPU 1. Idéal pour charges hétérogènes (fine-tuning 7B + serving 70B).
- 2Pont NVLink : Fusionner VRAM (48 GB apparaît comme pool 48 GB unique). Permet plus grandes tailles de batch ou fenêtres contextes massives. Coût : 200–300 € pont + complexité setup.
- 3Inférence GPU dual : Shard un single modèle 70B sur 2 GPU pour 2× débit (28 tok/s au lieu de 14). Requiert vLLM ou support tensor-parallel llama.cpp.
•💡 Pro Tip: Ignorer NVLink pour charges hétérogènes. Opération indépendante plus simple, moins chère (200 € économisé), élimine bugs firmware pont.
•⚠️ Warning: Pont NVLink nécessite support driver propriétaire NVIDIA. ROCm open-source ou AMD équivalents ne supportent pas bridging GPU différents.
RTX 5090 Dual vs RTX 4090 Dual : Comparaison Valeur (Avril 2026)
Dual RTX 4090 d'occasion (1 900–2 100 €) reste choix valeur pour Q4 70B à 100 tok/s. Dual RTX 5090 neuf (4 000 €) gagne sur VRAM plus haut (64 GB) et qualité (format Q8) mais coûte 1 400–1 800 € plus. Single RTX 5090 (2 000 € neuf) adapte 70B Q4 à 40–50 tok/s sans complexité.
| Configuration | VRAM | Vitesse 70B | Coût |
|---|---|---|---|
| Dual RTX 4090 (d'occasion) | 48 GB | 100 tok/s (Q4) | 1 900–2 100 € |
| Single RTX 5090 (neuf) | 32 GB | 40–50 tok/s (Q4) | 2 000 € |
| Dual RTX 5090 (neuf) | 64 GB | 120 tok/s (Q4) | 4 000 € |
•💡 Pro Tip: Pour Q4 70B inférence débit max : dual 4090 d'occasion (1 900–2 100 €) meilleure valeur avril 2026. Nouveaux 5090 coûtent 50%+ plus.
•📌 Key Point: Dual 5090 gagne pour Q8 70B (sortie qualité plus haute) ou future-proofing. Single 5090 élimine complexité dual-GPU pour utilisateurs solo.
Comment refroidir 1 200 W de dissipation thermique ?
RTX 4090 (450 W) + RTX 4090 (450 W) + CPU (200 W) = 1 100 W continu, pics à 1 300 W.
- Boucle liquide personnalisée : 1 500–2 500 €. Bloc eau CPU + blocs eau GPU + radiateur 360 mm. Garde GPU <75°C, CPU <80°C.
- AIO double 360 mm : 600–900 €. Un AIO par GPU + refroidisseur CPU séparé. Plus modulaire, maintenance plus facile que boucle personnalisée.
- Refroidissement air : Impossible. Throttling thermique garanti inférence 70B soutenue.
•🛠️ Best Practice: Utiliser pâte thermique avec conductivité 5+ W/mK (Noctua NT-H2, Corsair TM30). Pâte bon marché ajoute 10–15°C et annule garantie GPU.
Quel bloc d'alimentation et configuration électrique choisir ?
Dual 4090s (900 W continu, pics à 1 300 W) nécessitent bloc 2 000 W minimum — moins cause effondrement tension et crashs sous charge. Vous pouvez choisir bloc 2 000 W unique ou dual 1 200 W pour redondance, mais vérifiez circuit maison/bureau supporte 2 000 W à pic.
- Option 1 : Bloc 2 000 W unique : Seasonic, Corsair, ou EVGA 80+ Platinum. Routage câbles plus propre, point défaillance unique.
- Option 2 : Dual bloc 1 200 W : Un bloc par GPU + carte mère partagée. Redondance (un échoue, inférence continue 50% vitesse). Setup complexe.
- Règle capacité : 2 000 W pour dual 4090 minimum. Moins cause effondrement sous charge.
- Planification circuit : Rig dual-GPU consomme 2 000 W à pic. Assurer circuit 20A (prise maison/bureau typique 15A, insuffisant). Utiliser ligne dédiée 240V si disponible.
•⚠️ Warning: Prises maison typiquement 15A à 120V (1 800 W max). Rig dual-4090 déclenchera disjoncteur. Installer circuit dédié 240V 20A (200–400 € électricien).
•📌 Key Point: Toujours utiliser blocs modulaires. Dual-GPU ont dizaines pins power ; câbles non-modulaires créent risques incendie contact-résistance multi-pin.
Quelles performances d'inférence multi-utilisateurs attendre ?
Avec 128 GB RAM et dual 4090s, pouvez servir 2–3 utilisateurs 70B simultanés à 14 tok/s chacun, ou 8+ utilisateurs 7B simultanés à 30+ tok/s chacun. Benchmarks supposent quantification Q4 et vLLM pour ordonnancement multi-utilisateurs :
- Utilisateur unique, modèle 70B : 28 tokens/sec (2× 14 tok/s par GPU via tensor parallelism).
- Deux utilisateurs simultanés, 70B each : 14 tokens/sec par utilisateur (multiplexage temps requêtes).
- Quatre utilisateurs simultanés, 7B each : 120 tokens/sec total (chaque utilisateur 30 tok/s).
- Fine-tuning 7B LoRA + serving 70B : Fine-tuning GPU 0 (100 W), inférence GPU 1 (450 W). Aucune interférence.
Quels sont les erreurs courantes à éviter ?
- Acheter deux modèles GPU différents (5090 + 4090). Asymétrie cause problèmes load balancing. Rester cartes identiques.
- Économiser bloc d'alimentation pour sauver 300 €. Bloc 1 500 W + dual 4090s throttle ou crash sous charge.
- Utiliser refroidissement air au lieu liquide. Throttling thermique coupe débit 30–50% inférence soutenue.
- Oublier coût électricité calculs TCO. Dual RTX 4090s inférence soutenue consomment 900 W. Tarif français moyen (~0,18 €/kWh) 24/7 : ~€1 400/année électricité. Sur 3 ans : €4 200–4 200 électricité seule. Facteur dans ROI vs cloud API.
- Sous-estimer réseau setups multi-utilisateurs. Ethernet gigabit standard (1 Gbps = 125 MB/s) goulot 5+ utilisateurs simultanés réponses long contexte. Upgrade 2.5 Gbps ou 10 Gbps pour stations production servant équipes. Coût : 200–400 € NIC + switch.
•⚠️ Warning: GPU non matching (modèles différents ou tailles VRAM) brisent tensor parallelism. vLLM fallback single-GPU, halving débit.
•💡 Pro Tip: Acheter paires RTX 4090 d'occasion (vérifiées ensemble previous owner) au lieu cartes single neuf. Économiser 500–800 € éviter loterie hardware.
Questions Fréquemment Posées
•🔍 Did You Know?: Dual RTX 4090s inférence pleine charge consomment 900 W continu. Facture électricité : ~€1 400/an tarif français moyen (0,18 €/kWh), opération 24/7.
Un CPU Threadripper est-il nécessaire, ou puis-je utiliser Ryzen 9 ?
Inférence seule : Ryzen 9 fonctionne bien. Inférence + fine-tuning parallèle : cœurs extra Threadripper (32 vs. 16) essentiels.
Dois-je utiliser NVLink pour fusionner les deux 4090s ?
Optionnel. Ignorer si modèles séparés chaque GPU (7B + 70B). Utiliser sharding single 70B dual GPU batch sizes plus hautes.
Combien utilisateurs simultanés rig dual-4090 supporter ?
Pour 70B : 2–3 utilisateurs (chacun 14 tok/s). Pour 7B : 8+ utilisateurs (chacun 30+ tok/s).
Puis-je upgrader RTX 5090 au lieu dual 4090 ?
Single 5090 : Performance similaire dual 4090, VRAM moitié (24 GB vs. 48 GB), 1 999 €. Dual 5090 : 4 000 € (overkill, valeur pire).
Quel est ROI station €4 000 vs cloud LLM API ?
Cloud : 0,0008 € pour 1K tokens. Station : 4 000 € amortis 2 ans = 2 000 €/an, ~0,000001 € par token. Seuil 2,5 mrd tokens/an (usage léger).
Une station nécessite-t-elle refroidissement datacenter ?
Non. Refroidissement liquide consumer-grade (2× 360 mm AIO ou boucle) suffisant. Refroidissement datacenter conçu densité ; station unique 1 200 W rentre HVAC bureau.
Dois-je attendre RTX 6090 au lieu acheter dual 4090 maintenant ?
RTX 60-série NVIDIA attendue fin 2026 à 2027 basé cycles refresh historiques 2-an. Besoin station maintenant : dual RTX 4090 d'occasion (1 900–2 100 €) meilleure valeur 70B avril 2026. Attendre 12–18 mois : RTX 6090 probablement 48 GB VRAM single-card, éliminant besoin GPU dual.
Quel est le niveau sonore station dual-4090 ?
Inférence 70B soutenue : 50–60 dB 1 mètre refroidissement liquide custom. Comparable conversation bureau normal. AIO double 360 mm : 55–65 dB (audiblement plus fort sous charge). Refroidissement air : 65–75 dB (bruyant, impratique usage bureau). Placement side-bureau : boucle custom ou AIO quiet essentiel. Placement server-room : bruit irrelevant.
Dois-je considérer des changements de conformité pour CNIL en utilisant LLMs locaux ?
Oui. Inférence locale satisfait automatiquement CNIL recommandations sur données sensibles professionnelles (finances, médical, juridique). Aucun partage données tiers-parties requis. Configuration contrôle d'accès (LDAP, Firewall) assure sécurité données. Pour déploiements entreprise : documenter flux données et politique suppression dans DPA (Data Processing Agreement) employeur.
Sources
- PCPartPicker — Tarification composants en direct Threadripper, RTX 4090/5090, RAM DDR5 avril 2026.
- Base Données CPU TechPowerUp — Spécifications officielles Threadripper 7970X consommation puissance core count.
- Documentation NVIDIA NVLink — Specs NVLink officielles memory pooling tensor parallelism GPU RTX dual.
- vLLM Distributed Serving — Configuration Multi-GPU tensor parallelism modèles 70B hardware consumer.