Points clés
En mai 2026, un modèle 70B en Q4_K_M représente environ 40 Go de poids compressés — 1,7× une RTX 4090 seule et 1,6× une RTX 3090 seule. C'est pourquoi le 70B est le palier le plus difficile à exécuter localement : il dépasse la limite des GPU grand public (max. 24 Go) pour entrer dans le territoire des stations de travail. Trois options existent, chacune avec ses compromis.
L'Apple M5 Max avec 128 Go de mémoire unifiée est l'option monoposte la plus fluide — sans goulot d'étranglement PCIe entre la mémoire CPU et GPU, macOS gère l'allocation automatiquement. Le dual RTX 3090 fonctionne mais nécessite un desktop workstation et une configuration soigneuse des pilotes.
| Matériel | VRAM total | Vitesse |
|---|---|---|
| Dual RTX 3090 | 48 Go | ~8 tok/s |
| RTX 3090 + déchargement CPU | 24 Go + 32 Go RAM | ~3 tok/s |
| Apple M5 Max 128 Go | 128 Go unifié | ~15 tok/s |
| RunPod H100 (cloud) | 80 Go | ~50 tok/s |
La location de GPU cloud pour l'inférence 70B coûte entre 0,50 et 1,50 $ par heure sur RunPod et Lambda Labs en mai 2026. Un setup dual RTX 3090 revient à env. 1 200–2 000 € en matériel, et ne s'amortit face aux coûts cloud qu'après 1 500–3 000 heures d'utilisation.
Pour les équipes ou particuliers utilisant les modèles 70B moins de 5 heures par semaine, la location cloud est à la fois moins chère et plus facile à maintenir. Le 70B local se justifie pour les cas d'usage sensibles à la confidentialité (aucune donnée ne quitte le matériel) ou pour une inférence fréquente et soutenue où les coûts cloud s'accumulent rapidement. Pour les modèles plus petits adaptés aux GPU grand public, voir le guide des niveaux VRAM.
Pour une analyse complète des stratégies de déploiement 70B, voir comment exécuter des modèles 70B avec 24 Go de VRAM.