Points clés
- RTX 4090 est la meilleure GPU grand public pour l'IA locale en 2026 : 24 Go VRAM, ~1 To/s de bande passante
- Les modèles 70B Q4 ont besoin de 40+ Go VRAM — nécessite dual RTX 3090 ou déchargement CPU
- Ryzen 9 9950X (Zen 5, 16 cœurs) est le meilleur CPU pour le déchargement CPU rapide
- DDR5-6000 à 64 Go minimum ; 128 Go active le déchargement CPU 70B à vitesse utile
- NVMe PCIe Gen 4/5 charge un modèle 7B en moins de 2 secondes
Niveau 1 : ~1200 € Workstation IA budget
Le build à 1200 € utilise une RTX 3090 occasion (24 Go VRAM). Il fait tourner Llama 3.1 8B Q8 à 45–60 tok/s, Qwen2.5 14B Q8 à 20–28 tok/s et Qwen2.5 32B Q4 à 12–18 tok/s entièrement sur GPU.
- Modèles supportés à pleine vitesse GPU : 7B, 13B, 14B Q4/Q8, 30B Q4
- Support 70B : déchargement CPU nécessaire — ~5–8 tok/s
- Consommation crête : ~450 W
Niveau 2 : ~2500 € Workstation IA recommandée
Le build à 2500 € est centré sur la RTX 4090 (24 Go, ~1 To/s de bande passante mémoire) avec l'AMD Ryzen 9 9950X (Zen 5, 16 cœurs). La 4090 est 30–40% plus rapide que la 3090 par Go de VRAM.
- 7B Q4 : ~105–125 tok/s
- 14B Q8 : ~48–60 tok/s
- 30B Q4 : ~28–38 tok/s
- 70B Q4 (déchargement CPU) : ~10–15 tok/s avec 64 Go RAM
Niveau 3 : ~5000 € Workstation 70B professionnelle
Le build à 5000 € vise l'inférence 70B à vitesse GPU (25–40 tok/s) avec deux RTX 3090 pour 48 Go VRAM au total, plus un Threadripper 7960X (24 cœurs) et 256 Go DDR5.
- 70B Q4 : 25–40 tok/s (les deux RTX 3090 via parallélisme tensoriel)
- Déchargement CPU 256 Go : modèles 140B+ à 4–6 tok/s
- Consommation crête : ~900 W
Vaut-il mieux construire une workstation ou louer des GPU cloud ?
Pour une utilisation régulière (2+ heures/jour) : construire la workstation. Un A40 48 Go sur RunPod à 0,44 $/h pour 4h/jour = ~640 €/an. Un build à 3000–4000 € est rentabilisé en 5–6 ans. Pour une utilisation occasionnelle (<1h/jour) : le cloud est moins cher.
Faut-il NVLink pour faire tourner Ollama sur deux GPU ?
Non. Ollama utilise le parallélisme tensoriel CUDA via PCIe — NVLink n'est pas nécessaire. La configuration dual RTX 3090 fonctionne parfaitement sans NVLink.