Combien de VRAM pour un modèle 70B ?
Points clés
- ✓Un modèle 70B en Q4_K_M nécessite environ 40 Go de VRAM
- ✓Options matérielles grand public : dual RTX 3090 (48 Go) ou Apple M5 Max avec 128 Go de mémoire unifiée
- ✓Pour une utilisation occasionnelle de moins de 5 heures par semaine, la location de GPU cloud à 0,50–1,50 $/h est moins chère que l'achat de matériel
Options matérielles pour un modèle 70B
En mai 2026, un modèle 70B en Q4_K_M représente environ 40 Go de poids compressés — 1,7× une RTX 4090 seule et 1,6× une RTX 3090 seule. C'est pourquoi le 70B est le palier le plus difficile à exécuter localement : il dépasse la limite des GPU grand public (max. 24 Go) pour entrer dans le territoire des stations de travail. Trois options existent, chacune avec ses compromis.
L'Apple M5 Max avec 128 Go de mémoire unifiée est l'option monoposte la plus fluide — sans goulot d'étranglement PCIe entre la mémoire CPU et GPU, macOS gère l'allocation automatiquement. Le dual RTX 3090 fonctionne mais nécessite un desktop workstation et une configuration soigneuse des pilotes.
| Matériel | VRAM total | Vitesse |
|---|---|---|
| Dual RTX 3090 | 48 Go | ~8 tok/s |
| RTX 3090 + déchargement CPU | 24 Go + 32 Go RAM | ~3 tok/s |
| Apple M5 Max 128 Go | 128 Go unifié | ~15 tok/s |
| RunPod H100 (cloud) | 80 Go | ~50 tok/s |
Quand le cloud est plus judicieux que le local
La location de GPU cloud pour l'inférence 70B coûte entre 0,50 et 1,50 $ par heure sur RunPod et Lambda Labs en mai 2026. Un setup dual RTX 3090 revient à env. 1 200–2 000 € en matériel, et ne s'amortit face aux coûts cloud qu'après 1 500–3 000 heures d'utilisation.
Pour les équipes ou particuliers utilisant les modèles 70B moins de 5 heures par semaine, la location cloud est à la fois moins chère et plus facile à maintenir. Le 70B local se justifie pour les cas d'usage sensibles à la confidentialité (aucune donnée ne quitte le matériel) ou pour une inférence fréquente et soutenue où les coûts cloud s'accumulent rapidement. Pour les modèles plus petits adaptés aux GPU grand public, voir le guide des niveaux VRAM.
Pour une analyse complète des stratégies de déploiement 70B, voir comment exécuter des modèles 70B avec 24 Go de VRAM.
Guides connexes
- ▸De combien de VRAM avez-vous besoin pour un LLM local ? — tableau VRAM pour toutes les tailles de modèles
- ▸Moyen le moins cher d'exécuter un modèle 70B localement — options économiques quand le matériel dépasse le budget
- ▸Guide matériel LLM local 2026 — guide complet pour les configurations capables de 70B
- ▸Meilleurs LLM locaux 2026 — quels modèles 70B valent le coût matériel