Points clés
- Modèles 7B: minimum 8 GB (Q4), 10 GB confortable (Q5), 14 GB pour Q8 précision complète.
- Modèles 13B: minimum 10 GB (Q4), 12-14 GB confortable (Q5), 16 GB pour Q8.
- Modèles 70B: 35-40 GB (Q4) -- nécessite 2× RTX 4090 ou A100 80GB. Q5/Q8 nécessitent 70 GB+.
- La quantification (Q4, Q5, Q8) réduit VRAM de 50-75% par rapport à la précision complète (FP32).
- Surdimensionnez toujours de 1-2 GB pour la surcharge (KV cache, état optimiseur, système d'exploitation).
- Taille de lot ≠ VRAM par inférence. L'inférence unique utilise le même VRAM indépendamment de la taille du lot (le lot traite séquentiellement).
- Plus de VRAM n'accélère pas l'inférence d'une seule requête. Cela n'aide que pour les configurations multi-utilisateurs/multi-requêtes.
Quelle est la formule VRAM pour les LLMs?
La formule VRAM correcte:
VRAM (GB) = (Paramètres × Bits par poids) ÷ 8
Où les bits par poids par niveau de quantification:
- FP32: 32 bits -- multiplier par 4 (bytes)
- Q8: 8 bits -- multiplier par 1 (byte)
- Q5: 5 bits -- multiplier par 0,625
- Q4: 4 bits -- multiplier par 0,5
Exemples:
Llama 3 70B en FP32:
70 × 10⁹ × 32 bits ÷ 8 = 280 GB -- impraticable.
Llama 3 70B en Q4:
70 × 10⁹ × 4 bits ÷ 8 = 35 GB poids du modèle
+ ~3 GB surcharge (KV cache + runtime) = ~38 GB total.
Entre dans deux RTX 4090 (48 GB combiné).
Llama 3 7B en Q4:
7 × 10⁹ × 4 bits ÷ 8 = 3,5 GB poids du modèle
+ ~1,5 GB surcharge = ~5 GB total.
Entre dans n'importe quelle GPU 8 GB avec marge.
En une phrase: VRAM = (Paramètres en milliards × Bits par poids) ÷ 8 + 10-15% surcharge pour KV cache et runtime.
Combien de VRAM chaque taille de modèle nécessite-t-elle?
| Taille du modèle | FP32 | Q8 | Q5 | Q4 | GPU recommandé |
|---|---|---|---|---|---|
| 3B | 12 GB | 3 GB | 2 GB | 1,8 GB | RTX 5060 Ti 8GB ou n'importe quelle GPU 8 GB |
| 7B | 28 GB | 7 GB | 4,5 GB | 3,5 GB | RTX 5070 12GB ou RTX 4060 Ti 8GB |
| 13B | 52 GB | 13 GB | 8 GB | 7 GB | RTX 5070 Ti 16GB ou RTX 4070 Ti 12GB |
| 22B | 88 GB | 22 GB | 14 GB | 11 GB | RTX 5080 16GB ou RTX 4080 16GB |
| 70B | 280 GB | 70 GB | 44 GB | 35 GB | 2× RTX 5090 ou A100 80GB |
| Qwen 3.6 35B-A3B (3B actif, MoE)* | 12 GB | 3 GB | 2 GB | 1,8 GB | RTX 5060 Ti 8GB ou n'importe quelle GPU 8 GB |
| DeepSeek V4-Flash (13B actif / 284B total, MoE)* | 52 GB | 13 GB | 8 GB | 7 GB | RTX 5070 12GB ou RTX 4060 Ti 8GB |
| Llama 4 Scout (17B actif / 109B total, MoE)* | 68 GB | 17 GB | 11 GB | 9 GB | RTX 5070 Ti 16GB ou RTX 4070 Ti 12GB |
| Kimi K2.6 (42B actif / 1T total, MoE)* | 168 GB | 42 GB | 27 GB | 21 GB | 2× RTX 5090 ou A100 80GB |
* Modèles MoE: La VRAM est calculée à partir des paramètres actifs uniquement, non de la taille totale du modèle.
Comment la quantification réduit-elle les exigences VRAM?
La quantification réduit le nombre de bits nécessaires pour représenter chaque paramètre du modèle.
- FP32 (float 32-bit): Précision complète. 1 paramètre = 4 bytes. Aucune perte. Plus lent.
- Q8 (8-bit): 1 paramètre = 1 byte. ~6% perte de précision. 75% économies VRAM.
- Q5 (5-bit): 1 paramètre = 0,625 bytes. ~2% perte de précision. 84% économies VRAM.
- Q4 (4-bit): 1 paramètre = 0,5 bytes. ~1% perte de précision. 87,5% économies VRAM.
Pour la plupart des utilisateurs, Q4 est le juste équilibre: perte de précision imperceptible, empreinte VRAM 87% plus petite.
En avril 2026, Q4 est standard. Q5 et Q8 sont disponibles si vous avez du VRAM supplémentaire et désirez des gains de qualité marginaux.
En termes simples: La quantification ressemble à prendre une photo haute résolution et la réduire en résolution inférieure -- vous perdez quelques détails, mais la taille du fichier diminue considérablement. La quantification Q4 rétrécit VRAM de 87% tout en gardant pratiquement toute l'intelligence intacte.
💡 Conseil Pro: Q4 est le juste équilibre pour l'inférence locale des LLM. Tout ce qui est inférieur à Q4 (comme Q2 ou Q3) commence à dégrader notablement la qualité du modèle. Tout ce qui est supérieur (Q5+) gaspille VRAM et ralentit l'inférence pour des gains de qualité marginaux.
La VRAM détermine la taille du modèle, mais la conception du prompt détermine la qualité des sorties. Les techniques comme la chain-of-thought et le few-shot prompting peuvent combler l'écart de qualité entre les modèles plus petits et plus grands. Explorez la boîte à outils complète de prompt engineering pour tirer le meilleur parti des modèles que votre matériel prend en charge. Si vous disposez de 12–16 Go de VRAM et cherchez un cas concret pour tester cette boîte à outils, Remplacer GitHub Copilot par un LLM local projette la stack Continue.dev + Ollama + Qwen3-Coder sur ces paliers de VRAM exacts.
Et la taille de lot et l'inférence multi-utilisateurs?
La taille de lot affecte le débit (tokens par seconde), pas la latence d'une seule inférence.
Un utilisateur unique demandant "Qu'est-ce que 2+2?" utilise le même VRAM que la taille du lot soit 1 ou 32.
Taille de lot = 32 signifie traiter 32 prompts en parallèle. Cela utilise ~32× plus VRAM, mais génère 32 réponses plus rapidement.
Pour un utilisateur unique (utilisation typique des LLM locaux): Taille de lot = 1. VRAM est taille du modèle + 1-2 GB surcharge.
Pour serveur multi-utilisateurs: Allouez taille de lot × VRAM du modèle. Un modèle 70B à lot=4 nécessite ~96 GB (24 GB × 4).
⚠️ Malentendu critique: La taille du lot n'affecte PAS les exigences VRAM des utilisateurs uniques. Si vous exécutez un LLM local seul, augmenter la taille du lot gaspille du VRAM sans avantage.
Avez-vous besoin de plus de VRAM que la taille du modèle?
Oui. Au-delà des poids du modèle, ajoutez:
- KV cache (cache clé-valeur pour le contexte): ~5-10% VRAM supplémentaire.
- État optimiseur (si fine-tuning): 2-4× taille du modèle (pertinent uniquement pour l'entraînement, pas l'inférence).
- Surcharge système (OS, drivers, Ollama/LM Studio runtime): ~1-2 GB.
Règle: Un modèle 70B Q4 (35 GB) + KV cache (3 GB) + système (2 GB) = ~40 GB alloué. Nécessite 2× RTX 4090 (48 GB combiné) ou A100 80GB.
Achetez toujours des GPU avec au moins 1-2 GB de marge au-dessus des minimums théoriques.
⚠️ Risque de marge: Les fenêtres de contexte longues (32K tokens) peuvent gonfler la surcharge KV cache à 8+ GB sur un modèle 70B. Un modèle 70B utilisant ~35 GB sur une GPU 48 GB (2× RTX 4090) laisse seulement 13 GB pour KV cache. Avec une conversation de 32K tokens, le modèle manque de VRAM à mi-conversation, causant des crashes. Réduisez soit la longueur max du contexte, soit achetez une GPU plus grande.
Quelles sont les erreurs VRAM les plus courantes?
- Plus de VRAM = inférence plus rapide. Faux. La taille VRAM n'affecte pas la vitesse. La bande passante mémoire (GB/sec) le fait, et c'est fixe par GPU.
- Taille de lot = limite de token séquentielle. Faux. Taille de lot = requêtes parallèles. L'inférence unique utilise batch=1 indépendamment de la taille VRAM.
- Le modèle 70B nécessite 24 GB VRAM. Faux. 70B en Q4 nécessite ~35 GB. Une seule RTX 4090 (24 GB) ne peut pas exécuter de modèle 70B à n'importe quelle quantification. Q8 nécessite ~70 GB. Calculez toujours: (paramètres × bits/poids) ÷ 8 plus ~10% surcharge.
- Ne pas compter la croissance du KV cache avec les contextes longs: Un modèle 70B en Q4 nécessite ~35 GB pour les poids. Une fenêtre de contexte 32K ajoute ~3-8 GB supplémentaires selon le mécanisme d'attention. Sur une GPU 40 GB, il ne reste presque pas de marge et cause des erreurs OOM. Réduisez soit la longueur du contexte, soit utilisez une GPU avec plus de marge VRAM.
- Confondre RAM système avec VRAM GPU: Quand les gens disent "J'ai 32 GB de RAM", ils signifient généralement RAM système (mémoire CPU). VRAM est la mémoire dédiée sur la GPU. Ce sont des pools séparés. Une machine avec 32 GB RAM système et une GPU 8 GB peut exécuter un modèle 7B sur GPU, mais ne peut pas exécuter un modèle 13B sur GPU -- elle retomberait sur inférence CPU à 5-15 tok/sec.
Contexte régional
UE / RGPD
Les organisations de l'UE traitant des données localement doivent s'assurer que leur matériel dispose de suffisamment de VRAM pour exécuter le modèle requis entièrement sur l'appareil -- le basculement CPU partiel n'envoie aucune donnée en externe, mais réduit dramatiquement la vitesse d'inférence, le rendant impraticable pour utilisation en production. Pour les équipes d'entreprise de l'UE exécutant le traitement de documents ou l'extraction de données localement sous le RGPD, la configuration minimale recommandée est une RTX 4090 (24 GB) pour les modèles 13-30B, ou deux RTX 4090 (48 GB combiné) pour les modèles 70B. Les directives CNIL recommandent de valider que le matériel d'inférence locale est capable d'exécuter le modèle requis sans basculement cloud.
Japon (METI)
Les exigences de documentation de gouvernance METI bénéficient d'une configuration de matériel définie et stable. Documenter le modèle GPU, la capacité VRAM et le niveau de quantification du modèle crée un record d'environnement d'inférence complet. Les équipes d'entreprise françaises standardisent généralement sur une seule SKU GPU par déploiement (ex: RTX 4090 pour serveurs d'inférence d'équipe) pour simplifier la documentation de gouvernance.
Chine
Les entreprises chinoises déployant Qwen2.5 72B localement sous la Loi sur la sécurité des données de Chine (数据安全法) nécessitent 40+ GB VRAM -- un serveur dual RTX 4090 (48 GB combiné) est la configuration de qualité grand public standard. Qwen2.5 32B (20 GB en Q4) est déployable sur une seule RTX 4090 avec marge pour surcharge de contexte et est la configuration recommandée pour les équipes sans budget pour configurations GPU double.
Calculatrice VRAM
Sélectionnez la taille de votre modèle et la quantification pour estimer les exigences VRAM.
Popular Models
Base Model
6.50 GB
Context OH
1.50 GB
Batch OH
0.00 GB
System OH
1.00 GB
Total Minimum
9.00 GB
Recommended (with 25% safety margin)
11.25 GB
👉 Look for a GPU with at least 11.25 GB VRAM
Compatible GPUs
RTX 3060 (12 GB)
0.8 GB headroom
RTX 4070 (12 GB)
0.8 GB headroom
RTX 4070 Ti (12 GB)
0.8 GB headroom
RTX 4080 (16 GB)
4.8 GB headroom
RTX 4090 (24 GB)
12.8 GB headroom
Mac mini M5 (16 GB) (16 GB)
4.8 GB headroom
Mac mini M4 (16 GB) (16 GB)
4.8 GB headroom
MacBook Pro (24 GB) (24 GB)
12.8 GB headroom
M3 Max (36 GB) (36 GB)
24.8 GB headroom
💡 Pro Tips:
- Always use the "with safety margin" figure when buying a GPU
- Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
- Context overhead grows with conversation length. Budget 1-3 GB for typical usage
- Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead
📋 Share this configuration:
FAQ
Puis-je exécuter Mistral 7B sur une GPU 6 GB?
À peine, à Q4 avec surcharge serrée. Pratiquement, non. Achetez au moins 8 GB. Vous aurez des erreurs OOM avec 6 GB.
Combien de VRAM ai-je besoin pour fine-tuner un modèle 7B?
Pour LoRA: 12-16 GB. Fine-tuning complet: 28 GB+. Le fine-tuning nécessite l'état optimiseur (2-4× VRAM du modèle), pas seulement l'inférence.
Est-ce que 12 GB est suffisant pour Llama 3 13B?
À Q4, oui à peine. À Q5 ou Q8, non. 12 GB est juste. 16 GB est confortable.
Ai-je besoin de 24 GB pour un modèle 70B?
À Q4, oui. À Q5+, non. Une quantification plus élevée (Q5, Q8) nécessite 32 GB+ pour 70B.
L'augmentation de la taille du lot réduit-elle VRAM pour l'inférence unique?
Non. L'inférence unique utilise toujours VRAM batch=1. La taille du lot n'aide que le débit (scénarios multi-utilisateurs).
Quelle est la meilleure quantification pour la précision?
Q8 est pratiquement une perte imperceptible. Q5 est ~2% perte. Q4 est ~1% perte. Pour la plupart, Q4 est le juste équilibre.
Puis-je décharger une partie du VRAM sur RAM CPU?
Oui, via fractionnement de couches (NVLink). Llama.cpp et Ollama le supportent. Les performances baissent 30-50% mais ça marche.
Quel est le minimum VRAM pour exécuter un LLM local?
4 GB VRAM avec un modèle 3B à quantification Q4 -- le modèle utilise ~1,8 GB, laisse de la marge pour KV cache et runtime. Le minimum pratique pour des résultats utiles est 8 GB VRAM avec un modèle 7B à Q4. Sous 6 GB, la sélection de modèle est sévèrement limitée et la plupart des modèles 7B causent des erreurs OOM.
Le VRAM Apple Silicon fonctionne-t-il de la même manière que le VRAM GPU pour les LLMs?
Apple Silicon utilise une mémoire unifiée partagée entre CPU et GPU -- l'ensemble du pool de mémoire est disponible pour l'inférence de modèle, pas seulement une tranche GPU dédiée. Un MacBook Pro M3 avec 18 GB de mémoire unifiée peut exécuter un modèle 13B à Q4 (~7 GB) avec marge pour KV cache et surcharge OS. Cela équivaut à 18 GB VRAM GPU sur une GPU discrète.
Combien de VRAM un modèle 7B nécessite-t-il à différents niveaux de quantification?
7B en FP32: ~28 GB -- impraticable sur GPU grand public. 7B en Q8: ~7 GB -- rentre sur RTX 4070 Ti 12 GB avec marge. 7B en Q5: ~4,5 GB -- rentre sur n'importe quelle GPU 8 GB. 7B en Q4: ~3,5 GB modèle + ~1,5 GB surcharge = ~5 GB total -- rentre sur n'importe quelle GPU 6 GB avec marge serrée, 8 GB confortablement.
Lectures complémentaires
- Guide de matériel Local LLM 2026 -- recommandations de tiers GPU complètes avec prix et benchmarks tok/sec pour chaque tiers VRAM
- Installer Ollama -- configurez Ollama pour exécuter les modèles correspondant à votre tiers VRAM avec quantification correcte
- Qwen vs Llama vs Mistral -- comparaison de famille de modèles avec exigences VRAM exactes pour chaque taille en Q4_K_M
- Exécuter les Local LLMs sur un Laptop -- contraintes VRAM spécifiques au laptop et recommandations de quantification pour mémoire unifiée
- Dépanner la configuration Local LLM -- corrigez les erreurs mémoire insuffisante quand le modèle dépasse le VRAM disponible
- Combien de mémoire unifiée pour les LLM locaux ? -- L'équivalent VRAM sur Mac : 16 Go vs 36 Go vs 64 Go vs 128 Go pour Apple Silicon.
- Modèles 70B sur Apple Silicon M5 Max -- Comment la mémoire unifiée permet aux Macs de faire tourner 70B là où 24 Go VRAM échoue.
- Meilleurs modèles pour Apple Silicon 2026 -- Recommandations de modèles par tier de mémoire : 16 Go à 128 Go.
- GPU vs CPU vs Apple Silicon pour les LLM locaux -- Comparaison trois plateformes : NVIDIA CUDA, mémoire unifiée Apple et inférence CPU uniquement.
Sources
- NVIDIA. (2026). "CUDA Memory Architecture." -- documentation architecture VRAM GPU, bande passante mémoire et hiérarchie.
- Ollama. (2026). "Ollama Model Library." -- exigences VRAM officielles et niveaux de quantification pour tous les modèles supportés.
- llama.cpp Contributors. (2026). "llama.cpp Quantization Guide." -- implémentation quantification Q4/Q5/Q8, calculs mémoire et benchmarks de qualité.