PromptQuorumPromptQuorum
Accueil/LLMs locaux/Calculateur VRAM 2026 : Exigences GPU pour LLMs 7B/13B/70B (Q4, Q5, Q8)
Matériel & Performance

Calculateur VRAM 2026 : Exigences GPU pour LLMs 7B/13B/70B (Q4, Q5, Q8)

·10 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Ce guide explique comment calculer les exigences VRAM exactes pour toute combinaison modèle/matériel. La formule est simple : (Taille modèle Go × Bits quantification) ÷ 8 = VRAM requise.

Calculateur VRAM interactif pour LLMs locaux. Entrez la taille du modèle, la quantification, la longueur du contexte et la taille du lot pour calculer les besoins exacts en VRAM GPU. Compatible avec les modèles 1B–405B en FP16, Q8, Q5, Q4. Mis à jour avril 2026 avec analyse RTX 4090, 4080, 3060 et calculs de surcharge.

Présentation: Calculateur VRAM 2026 : Exigences GPU pour LLMs 7B/13B/70B (Q4, Q5, Q8)

Le diaporama ci-dessous couvre : formule VRAM (Milliards modèle × Bits quantification) ÷ 8, niveaux de quantification Q2–FP16 avec compromis qualité, tableau de référence rapide (modèles 3B–70B), scénarios GPU réels (RTX 4090, 4080, M5 Max) et conformité régionale (RGPD UE, APPI Japon, loi chinoise sur la sécurité des données). Téléchargez le PDF comme fiche de référence calculateur VRAM.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • VRAM = (Taille modèle × Bits quantification) ÷ 8
  • FP16 = 16 bits, Q8 = 8, Q5 = 5, Q4 = 4 bits
  • Exemple : modèle 13B en Q4 = (13 × 4) ÷ 8 = 6.5 Go
  • Ajoutez toujours 25 % de marge pour le contexte, la surcharge système et la sécurité
  • En avril 2026, cette formule est précise à ±10 %

Faits rapides : exigences VRAM par GPU

  • RTX 4090 (24 Go) : Llama 3.1 7B en Q4 (3.5 Go), 13B en Q5 (8.1 Go), 70B en Q4 avec déchargement
  • RTX 4080 (16 Go) : Llama 3.1 7B en Q4 (3.5 Go), 13B en Q5 (8.1 Go), 32B en Q4 (16 Go)
  • RTX 4070 Ti (12 Go) : Llama 3.1 7B en Q4 (3.5 Go), 13B en Q5 (8.1 Go avec marge limitée)
  • M5 Max Mac (36 Go unifié) : Llama 3.1 13B en FP16 (26 Go), 70B impossible sans quantification extrême
  • Règle empirique : Prévoyez toujours 25–40 % de VRAM supplémentaire pour le contexte, le traitement par lots et la surcharge système

En une phrase

La VRAM requise (Go) équivaut aux paramètres du modèle en milliards multipliés par les bits de quantification (16 pour FP16, 8 pour Q8, 4 pour Q4, etc.), divisés par 8.

En termes simples

Imaginez la VRAM comme un espace de bibliothèque. Les gros livres (modèles avec plus de paramètres comme 70B) occupent plus de place. Les petits livres (quantification Q4) prennent moins de place que les grands (FP16). La formule vous indique exactement combien d'étagères (Go) vous avez besoin. Laissez toujours des étagères libres pour les conversations, les requêtes simultanées et les logiciels système.

Quelle est la formule VRAM ?

La formule pour les exigences VRAM est trompeusement simple :

💡 Conseil Pro : Cette formule calcule uniquement les poids du modèle. L'utilisation réelle de VRAM est 25–40 % plus élevée en raison du contexte, du traitement par lots et de la surcharge système. Ajoutez toujours une marge de sécurité.

bash
VRAM (GB) = (Model Size in Billions × Quantization Bits) ÷ 8

Example:
- 7B model at 4-bit quantization
- (7 × 4) ÷ 8 = 3.5 GB

- 13B model at 5-bit quantization
- (13 × 5) ÷ 8 = 8.125 GB

- 70B model at 8-bit quantization
- (70 × 8) ÷ 8 = 70 GB
Formule VRAM avec 3 exemples de calcul : modèle 7B en Q4 = 3.5 Go, 13B en Q5 = 8.1 Go, 70B en Q8 = 70 Go. Ajoutez toujours 25–40 % de marge pour le contexte, le traitement par lots et la surcharge système.
Formule VRAM avec 3 exemples de calcul : modèle 7B en Q4 = 3.5 Go, 13B en Q5 = 8.1 Go, 70B en Q8 = 70 Go. Ajoutez toujours 25–40 % de marge pour le contexte, le traitement par lots et la surcharge système.

Calculateur VRAM interactif

Utilisez ce calculateur pour calculer les exigences VRAM exactes pour toute combinaison de modèle, quantification, contexte et taille de lot. Sélectionnez votre configuration et voyez quels GPU sont compatibles.

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

Que signifient les niveaux de quantification ?

🔍 Insight clé : La quantification échange la taille de fichier contre la qualité. Q5 est le meilleur compromis (95 % qualité, 68 % plus petit). Q4 est acceptable pour la plupart. Q3 et en dessous uniquement pour les appareils Edge ou quand la VRAM est critiquement limitée.

QuantificationRéduction tailleQualitéVitesseCas d'usage
FP16 (16-bit)Aucune (base)100 % (parfaite)BaseRecherche, fine-tuning
Q8 (8-bit)50 %99 % (imperceptible)BaseProduction, serveurs locaux
Q6 (6-bit)62.5 %98 % (négligeable)BaseUsage équilibré
Q5 (5-bit)68.75 %95 % (perte mineure)BaseBonne compression, grand public
Q4 (4-bit)75 %90–95 % (acceptable)BaseCompression maximale
Q3 (3-bit)81 %80–85 % (perte notable)Plus rapideCompression extrême, CPU
Q2 (2-bit)87.5 %70 % (perte visible)Le plus rapidePetits modèles, appareils Edge
Comparaison des niveaux de quantification : FP16 (100 % qualité), Q8 (99 %), Q5 (95 %, recommandé), Q4 (90–95 %), Q3 (80–85 %), Q2 (70 %). Q5 réduit un modèle 7B de 14 Go à 4.4 Go avec seulement 5 % de perte qualité.
Comparaison des niveaux de quantification : FP16 (100 % qualité), Q8 (99 %), Q5 (95 %, recommandé), Q4 (90–95 %), Q3 (80–85 %), Q2 (70 %). Q5 réduit un modèle 7B de 14 Go à 4.4 Go avec seulement 5 % de perte qualité.

Tableau de référence rapide : VRAM par modèle et quantification

ModèleFP16Q8Q5Q4
3B6 Go3 Go1.9 Go1.5 Go
7B14 Go7 Go4.4 Go3.5 Go
13B26 Go13 Go8.1 Go6.5 Go
32B64 Go32 Go20 Go16 Go
70B140 Go70 Go43.75 Go35 Go
Matrice de référence VRAM rapide : modèles 3B à 70B en FP16, Q8, Q5 et Q4. Vert = compatible GPU 12 Go. Orange = nécessite 16–24 Go. Rouge = nécessite 40+ Go ou multi-GPU.
Matrice de référence VRAM rapide : modèles 3B à 70B en FP16, Q8, Q5 et Q4. Vert = compatible GPU 12 Go. Orange = nécessite 16–24 Go. Rouge = nécessite 40+ Go ou multi-GPU.

Exemples concrets

Calculs VRAM pratiques pour les scénarios courants :

⚠️ Avertissement : Ces calculs concernent uniquement les poids du modèle. Ajoutez 25–40 % pour le contexte, le traitement par lots et la surcharge système. Exemple : 13B Q5 = 8.1 Go modèle + 2–3 Go surcharge = 10–11 Go réels.

  • RTX 4070 Ti (12 Go) : Llama 3.1 7B en Q4 = 3.5 Go ✓ (large marge). Llama 3.1 13B en Q5 = 8.1 Go ✓ (serré, mais fonctionne sans contexte/lots).
  • RTX 4090 (24 Go) : Llama 3.1 70B en Q5 = 43.75 Go ✗ (trop grand). Llama 3.1 70B en Q4 = 35 Go ✗ (toujours trop grand). Llama 3.1 70B en Q4 avec déchargement = fonctionne (lent, 3–5 tok/s).
  • M5 Max Mac (36 Go) : Llama 3.1 13B en FP16 = 26 Go ✓ (fonctionne). Llama 3.1 70B = impossible (même en Q2, ~70 % de perte qualité).
Scénarios GPU réels : RTX 4090 (24 Go), RTX 4080 (16 Go), RTX 4070 Ti (12 Go), M5 Max Mac (36 Go) et RTX 3060 (12 Go) — quels modèles Llama 3.1 chacun peut exécuter à différents niveaux de quantification.
Scénarios GPU réels : RTX 4090 (24 Go), RTX 4080 (16 Go), RTX 4070 Ti (12 Go), M5 Max Mac (36 Go) et RTX 3060 (12 Go) — quels modèles Llama 3.1 chacun peut exécuter à différents niveaux de quantification.

Quelle surcharge VRAM cachée prendre en compte ?

La formule calcule uniquement les poids du modèle. Votre utilisation VRAM réelle sera plus élevée en raison de plusieurs facteurs. Prévoyez 25–40 % supplémentaires.

La fenêtre de contexte (cache clé-valeur) stocke l'historique de conversation pendant l'inférence. Un contexte de 4k tokens utilise environ 2–3 Go pour un modèle 7B.

📌 Point clé : Le traitement par lots augmente la VRAM linéairement. Chaque requête simultanée supplémentaire utilise 500 Mo–2 Go. Avec batch=4, multipliez la VRAM par requête unique par 4 et ajoutez la surcharge.

La surcharge système du système d'exploitation et du framework d'inférence (Ollama, vLLM, llama.cpp) réserve 500 Mo–1 Go. Maintenez toujours une marge de sécurité.

Décomposition de la surcharge VRAM cachée : fenêtre de contexte (2–3 Go pour 4k tokens), traitement par lots (×4 pour batch=4), surcharge système (500 Mo–1 Go) et marge totale 25–40 %.
Décomposition de la surcharge VRAM cachée : fenêtre de contexte (2–3 Go pour 4k tokens), traitement par lots (×4 pour batch=4), surcharge système (500 Mo–1 Go) et marge totale 25–40 %.

Quel LLM local pour votre GPU ? Guide 2026

Utilisez le calculateur interactif ci-dessus pour une compatibilité exacte. Voici les scénarios GPU courants et les modèles recommandés.

  • RTX 3060 (12 Go) : Meilleur modèle : Qwen2.5 7B Q5 (4.4 Go) ✓. Alternative : Llama 3.2 8B Q4 (4 Go) ✓. Impossible : modèles 32B+.
  • RTX 4070 (12 Go) : Meilleur modèle : Qwen2.5 13B Q4 (6.5 Go) ✓. Avec marge : Llama 3.2 8B Q5 (5 Go) ✓. Impossible : modèles 32B.
  • RTX 4070 Ti (12 Go) : Meilleur modèle : Qwen2.5 13B Q5 (8.1 Go) ✓. Serré : Llama 3.3 13B Q4 (6.5 Go) ✓. Non idéal : traitement par lots.
  • RTX 4080 (16 Go) : Meilleur modèle : Qwen2.5 32B Q4 (16 Go) ✓ serré. Confortable : Mistral 3.1 24B Q5 (15 Go) ✓. Recommandé : Llama 3.3 13B Q8 (13 Go) ✓.
  • RTX 4090 (24 Go) : Meilleur modèle : Qwen2.5 32B Q5 (20 Go) ✓. Avec déchargement : Llama 3.3 70B Q4 (35 Go). Confortable : tout 32B en Q5/Q8.
  • RTX 5090 (32 Go, si disponible) : Meilleur modèle : Llama 3.3 70B Q4 (35 Go – serré). Mieux : Qwen2.5 72B Q3 (27 Go) ✓. Confortable : 70B en Q5+ avec lots.

Quelle est la précision de la formule ?

La formule est précise à ±10 % pour la plupart des cas. L'utilisation VRAM réelle varie selon l'implémentation, l'architecture du modèle et les optimisations du moteur d'inférence.

Les sources de variation comprennent : différents formats de quantification (GGUF vs safetensors vs AWQ), architecture du modèle (Transformer vs non-Transformer) et optimisations spécifiques au moteur d'inférence (vLLM, llama.cpp, Ollama).

En avril 2026, traitez la formule comme une estimation conservative. Ajoutez toujours 25 % de marge lors de l'achat de GPU pour tenir compte de la surcharge de contexte, du traitement par lots et des processus système.

Précision formule VRAM ±10 % : variation causée par le format de quantification (GGUF vs GPTQ vs AWQ), architecture du modèle (Transformer vs MoE) et moteur d'inférence (vLLM vs llama.cpp vs Ollama).
Précision formule VRAM ±10 % : variation causée par le format de quantification (GGUF vs GPTQ vs AWQ), architecture du modèle (Transformer vs MoE) et moteur d'inférence (vLLM vs llama.cpp vs Ollama).

Erreurs courantes dans le calcul VRAM

  • Oublier la surcharge de contexte. Un modèle 7B en Q4 fait 3.5 Go, mais avec 4k contexte, il nécessite 5–6 Go au total.
  • Utiliser la taille du modèle HuggingFace sans considérer la quantification. 70B signifie 70 milliards de paramètres, pas 70 Go VRAM.
  • Ne pas tenir compte de la surcharge système. Les modèles n'obtiennent jamais toute la VRAM GPU. Réservez 1–2 Go pour l'OS et le moteur d'inférence.
  • Acheter un GPU exactement à la taille calculée. Achetez toujours 25 % de plus. Un besoin calculé de 18 Go = prenez un GPU 24 Go.
4 erreurs VRAM courantes : oublier la surcharge de contexte (ajoute 1.5–3 Go), confondre 70B paramètres avec 70 Go VRAM, ignorer 1–2 Go de surcharge système, acheter un GPU exactement à la taille calculée sans marge de 25 %.
4 erreurs VRAM courantes : oublier la surcharge de contexte (ajoute 1.5–3 Go), confondre 70B paramètres avec 70 Go VRAM, ignorer 1–2 Go de surcharge système, acheter un GPU exactement à la taille calculée sans marge de 25 %.

Considérations de déploiement régional

Union européenne (RGPD) : L'inférence locale (sur site) garantit la conformité à la résidence des données sous le RGPD. Exécuter des modèles sur votre propre GPU maintient les données utilisateur dans le pays. Ce calculateur VRAM vous aide à dimensionner le matériel pour des déploiements respectueux de la vie privée. La CNIL recommande l'inférence locale pour les données professionnelles sensibles (financières, médicales, juridiques) afin d'éviter tout transfert non nécessaire vers des API cloud.

Japon (APPI) : La loi sur la protection des informations personnelles (APPI) exige un traitement rigoureux des données. L'inférence LLM sur appareil réduit les transferts et traitements de données en dehors du Japon. Utilisez ce calculateur pour dimensionner les systèmes pour les déploiements d'entreprise japonais.

Chine (Loi sur la sécurité des données) : La loi chinoise de 2021 sur la sécurité des données impose la résidence des données à l'intérieur des frontières chinoises. L'inférence LLM locale sur des serveurs nationaux (Alibaba Cloud, Tencent Cloud) est conforme.

Dans toutes les régions, l'inférence locale offre de meilleures garanties de confidentialité des données que les API cloud. Ce calculateur VRAM est essentiel pour concevoir des systèmes d'IA conformes et respectueux de la vie privée.

FAQ : VRAM et exigences GPU

La formule fonctionne-t-elle pour tous les types de modèles ?

Oui. La formule (Milliards modèle × Bits quantification) ÷ 8 s'applique à tous les modèles basés sur Transformer (Llama, Qwen, Mistral, Claude, etc.). Les architectures non-Transformer (RNN, etc.) sont rares et peuvent nécessiter des ajustements.

Quelle quantification utiliser ?

Pour la plupart des usages : Q5 offre le meilleur équilibre (95 % qualité, 68 % réduction). Pour les GPU grand public : Q4 est standard (90–95 % qualité, 75 % réduction). En production : Q8 si la VRAM le permet (99 % qualité). Évitez Q3 et en dessous sauf nécessité absolue.

Quelle quantité de RAM système faut-il ?

16 Go minimum pour le déchargement. En cas de déchargement VRAM (débordement CPU), la RAM système devient le recours. Pour le traitement par lots, ajoutez 8–16 Go. Pour le chat mono-utilisateur, 16 Go suffisent.

La taille du lot affecte-t-elle le calcul VRAM ?

Oui. La formule calcule la VRAM pour une requête unique. La taille du lot ajoute de la VRAM linéairement : chaque requête simultanée ajoute ~500 Mo–2 Go selon le contexte. Avec batch=4, ajoutez 2–8 Go.

Puis-je exécuter un modèle 70B sur un GPU 12 Go ?

Uniquement avec une quantification extrême (Q2, ~70 % de perte qualité) et déchargement CPU (très lent, 1–3 tokens/s). Peu pratique. Meilleure option : un modèle 13B en Q4 (même VRAM, bien plus rapide et de meilleure qualité).

Que faire si l'utilisation VRAM réelle est inférieure au calcul ?

La formule est conservative et inclut la surcharge. Une utilisation inférieure signifie plus de marge pour le traitement par lots, des contextes plus longs ou une sécurité accrue. Utilisez nvidia-smi pour mesurer l'utilisation réelle, puis benchmarkez.

Sources

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Calculateur VRAM 2026 : GPU requis pour LLMs 7B/13B/70B (Q4, Q5, Q8)