PromptQuorumPromptQuorum

Combien de VRAM pour un modèle 70B ?

Quantization & VRAM

Points clés

  • Un modèle 70B en Q4_K_M nécessite environ 40 Go de VRAM
  • Options matérielles grand public : dual RTX 3090 (48 Go) ou Apple M5 Max avec 128 Go de mémoire unifiée
  • Pour une utilisation occasionnelle de moins de 5 heures par semaine, la location de GPU cloud à 0,50–1,50 $/h est moins chère que l'achat de matériel

Options matérielles pour un modèle 70B

En mai 2026, un modèle 70B en Q4_K_M représente environ 40 Go de poids compressés — 1,7× une RTX 4090 seule et 1,6× une RTX 3090 seule. C'est pourquoi le 70B est le palier le plus difficile à exécuter localement : il dépasse la limite des GPU grand public (max. 24 Go) pour entrer dans le territoire des stations de travail. Trois options existent, chacune avec ses compromis.

L'Apple M5 Max avec 128 Go de mémoire unifiée est l'option monoposte la plus fluide — sans goulot d'étranglement PCIe entre la mémoire CPU et GPU, macOS gère l'allocation automatiquement. Le dual RTX 3090 fonctionne mais nécessite un desktop workstation et une configuration soigneuse des pilotes.

MatérielVRAM totalVitesse
Dual RTX 309048 Go~8 tok/s
RTX 3090 + déchargement CPU24 Go + 32 Go RAM~3 tok/s
Apple M5 Max 128 Go128 Go unifié~15 tok/s
RunPod H100 (cloud)80 Go~50 tok/s

Quand le cloud est plus judicieux que le local

La location de GPU cloud pour l'inférence 70B coûte entre 0,50 et 1,50 $ par heure sur RunPod et Lambda Labs en mai 2026. Un setup dual RTX 3090 revient à env. 1 200–2 000 € en matériel, et ne s'amortit face aux coûts cloud qu'après 1 500–3 000 heures d'utilisation.

Pour les équipes ou particuliers utilisant les modèles 70B moins de 5 heures par semaine, la location cloud est à la fois moins chère et plus facile à maintenir. Le 70B local se justifie pour les cas d'usage sensibles à la confidentialité (aucune donnée ne quitte le matériel) ou pour une inférence fréquente et soutenue où les coûts cloud s'accumulent rapidement. Pour les modèles plus petits adaptés aux GPU grand public, voir le guide des niveaux VRAM.

Pour une analyse complète des stratégies de déploiement 70B, voir comment exécuter des modèles 70B avec 24 Go de VRAM.

Questions fréquentes sur le VRAM des modèles 70B

Une seule RTX 3090 peut-elle faire tourner un modèle 70B ?
Partiellement. Une RTX 3090 seule (24 Go) peut exécuter le 70B avec déchargement CPU, mais la vitesse tombe à ~3 tok/s — trop lent pour une utilisation interactive. L'inférence GPU complète pour le 70B nécessite 40+ Go de VRAM combiné.
Puis-je faire tourner un modèle 70B sur un MacBook ?
Uniquement sur M3 Max, M4 Max, M4 Ultra ou M5 Max avec 128 Go de mémoire unifiée. Un MacBook avec 32 Go de RAM ne peut pas exécuter le 70B en Q4. Voir le guide de dimensionnement RAM pour des alternatives plus petites.
Existe-t-il un moyen moins cher d'exécuter des modèles 70B localement ?
Oui — utilisez la quantisation Q2_K pour ramener le modèle 70B à ~21 Go de VRAM, mais la qualité se dégrade considérablement. Alternativement, les modèles 34B en Q5 offrent 80–90 % de la qualité du 70B pour la moitié des besoins VRAM.
Comment se compare le VRAM d'un 70B par rapport à un 13B ?
Un modèle 13B en Q4 nécessite ~9 Go de VRAM contre ~40 Go pour le 70B. Pour la plupart des tâches — chat, code, résumé — un modèle 13–14B en Q5 couvre l'écart. Voir les besoins VRAM par taille de modèle.