PromptQuorumPromptQuorum
Accueil/LLMs locaux/Combien de VRAM avez-vous besoin pour exécuter un Local LLM en 2026?
GPU Buying Guides

Combien de VRAM avez-vous besoin pour exécuter un Local LLM en 2026?

·7 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Pour les modèles 7B à quantification Q4, vous avez besoin de 4-5 GB de VRAM -- n'importe quelle GPU moderne avec 8 GB la gère confortablement. Pour les modèles 13B: 8-10 GB VRAM. Pour 70B: 35-40 GB, nécessitant deux RTX 4090 ou une seule A100. En avril 2026, Q4 (4-bit) est la quantification standard -- elle réduit les exigences VRAM de 87% par rapport à la précision complète avec moins de 1% de perte de qualité pour la plupart des tâches. La formule VRAM est: (paramètres en milliards × bits par poids) ÷ 8, plus 10-15% de surcharge pour KV cache et runtime.

Points clés

  • Modèles 7B: minimum 8 GB (Q4), 10 GB confortable (Q5), 14 GB pour Q8 précision complète.
  • Modèles 13B: minimum 10 GB (Q4), 12-14 GB confortable (Q5), 16 GB pour Q8.
  • Modèles 70B: 35-40 GB (Q4) -- nécessite 2× RTX 4090 ou A100 80GB. Q5/Q8 nécessitent 70 GB+.
  • La quantification (Q4, Q5, Q8) réduit VRAM de 50-75% par rapport à la précision complète (FP32).
  • Surdimensionnez toujours de 1-2 GB pour la surcharge (KV cache, état optimiseur, système d'exploitation).
  • Taille de lot ≠ VRAM par inférence. L'inférence unique utilise le même VRAM indépendamment de la taille du lot (le lot traite séquentiellement).
  • Plus de VRAM n'accélère pas l'inférence d'une seule requête. Cela n'aide que pour les configurations multi-utilisateurs/multi-requêtes.

Quelle est la formule VRAM pour les LLMs?

La formule VRAM correcte:

VRAM (GB) = (Paramètres × Bits par poids) ÷ 8

Où les bits par poids par niveau de quantification:

- FP32: 32 bits -- multiplier par 4 (bytes)

- Q8: 8 bits -- multiplier par 1 (byte)

- Q5: 5 bits -- multiplier par 0,625

- Q4: 4 bits -- multiplier par 0,5

Exemples:

Llama 3 70B en FP32:

70 × 10⁹ × 32 bits ÷ 8 = 280 GB -- impraticable.

Llama 3 70B en Q4:

70 × 10⁹ × 4 bits ÷ 8 = 35 GB poids du modèle

+ ~3 GB surcharge (KV cache + runtime) = ~38 GB total.

Entre dans deux RTX 4090 (48 GB combiné).

Llama 3 7B en Q4:

7 × 10⁹ × 4 bits ÷ 8 = 3,5 GB poids du modèle

+ ~1,5 GB surcharge = ~5 GB total.

Entre dans n'importe quelle GPU 8 GB avec marge.

En une phrase: VRAM = (Paramètres en milliards × Bits par poids) ÷ 8 + 10-15% surcharge pour KV cache et runtime.

Combien de VRAM chaque taille de modèle nécessite-t-elle?

Taille du modèleFP32Q8Q5Q4GPU recommandé
3B12 GB3 GB2 GB1,8 GBRTX 5060 Ti 8GB ou n'importe quelle GPU 8 GB
7B28 GB7 GB4,5 GB3,5 GBRTX 5070 12GB ou RTX 4060 Ti 8GB
13B52 GB13 GB8 GB7 GBRTX 5070 Ti 16GB ou RTX 4070 Ti 12GB
22B88 GB22 GB14 GB11 GBRTX 5080 16GB ou RTX 4080 16GB
70B280 GB70 GB44 GB35 GB2× RTX 5090 ou A100 80GB
Qwen 3.6 35B-A3B (3B actif, MoE)*12 GB3 GB2 GB1,8 GBRTX 5060 Ti 8GB ou n'importe quelle GPU 8 GB
DeepSeek V4-Flash (13B actif / 284B total, MoE)*52 GB13 GB8 GB7 GBRTX 5070 12GB ou RTX 4060 Ti 8GB
Llama 4 Scout (17B actif / 109B total, MoE)*68 GB17 GB11 GB9 GBRTX 5070 Ti 16GB ou RTX 4070 Ti 12GB
Kimi K2.6 (42B actif / 1T total, MoE)*168 GB42 GB27 GB21 GB2× RTX 5090 ou A100 80GB

* Modèles MoE: La VRAM est calculée à partir des paramètres actifs uniquement, non de la taille totale du modèle.

Comment la quantification réduit-elle les exigences VRAM?

La quantification réduit le nombre de bits nécessaires pour représenter chaque paramètre du modèle.

- FP32 (float 32-bit): Précision complète. 1 paramètre = 4 bytes. Aucune perte. Plus lent.

- Q8 (8-bit): 1 paramètre = 1 byte. ~6% perte de précision. 75% économies VRAM.

- Q5 (5-bit): 1 paramètre = 0,625 bytes. ~2% perte de précision. 84% économies VRAM.

- Q4 (4-bit): 1 paramètre = 0,5 bytes. ~1% perte de précision. 87,5% économies VRAM.

Pour la plupart des utilisateurs, Q4 est le juste équilibre: perte de précision imperceptible, empreinte VRAM 87% plus petite.

En avril 2026, Q4 est standard. Q5 et Q8 sont disponibles si vous avez du VRAM supplémentaire et désirez des gains de qualité marginaux.

En termes simples: La quantification ressemble à prendre une photo haute résolution et la réduire en résolution inférieure -- vous perdez quelques détails, mais la taille du fichier diminue considérablement. La quantification Q4 rétrécit VRAM de 87% tout en gardant pratiquement toute l'intelligence intacte.

💡 Conseil Pro: Q4 est le juste équilibre pour l'inférence locale des LLM. Tout ce qui est inférieur à Q4 (comme Q2 ou Q3) commence à dégrader notablement la qualité du modèle. Tout ce qui est supérieur (Q5+) gaspille VRAM et ralentit l'inférence pour des gains de qualité marginaux.

La VRAM détermine la taille du modèle, mais la conception du prompt détermine la qualité des sorties. Les techniques comme la chain-of-thought et le few-shot prompting peuvent combler l'écart de qualité entre les modèles plus petits et plus grands. Explorez la boîte à outils complète de prompt engineering pour tirer le meilleur parti des modèles que votre matériel prend en charge. Si vous disposez de 12–16 Go de VRAM et cherchez un cas concret pour tester cette boîte à outils, Remplacer GitHub Copilot par un LLM local projette la stack Continue.dev + Ollama + Qwen3-Coder sur ces paliers de VRAM exacts.

Et la taille de lot et l'inférence multi-utilisateurs?

La taille de lot affecte le débit (tokens par seconde), pas la latence d'une seule inférence.

Un utilisateur unique demandant "Qu'est-ce que 2+2?" utilise le même VRAM que la taille du lot soit 1 ou 32.

Taille de lot = 32 signifie traiter 32 prompts en parallèle. Cela utilise ~32× plus VRAM, mais génère 32 réponses plus rapidement.

Pour un utilisateur unique (utilisation typique des LLM locaux): Taille de lot = 1. VRAM est taille du modèle + 1-2 GB surcharge.

Pour serveur multi-utilisateurs: Allouez taille de lot × VRAM du modèle. Un modèle 70B à lot=4 nécessite ~96 GB (24 GB × 4).

⚠️ Malentendu critique: La taille du lot n'affecte PAS les exigences VRAM des utilisateurs uniques. Si vous exécutez un LLM local seul, augmenter la taille du lot gaspille du VRAM sans avantage.

Avez-vous besoin de plus de VRAM que la taille du modèle?

Oui. Au-delà des poids du modèle, ajoutez:

- KV cache (cache clé-valeur pour le contexte): ~5-10% VRAM supplémentaire.

- État optimiseur (si fine-tuning): 2-4× taille du modèle (pertinent uniquement pour l'entraînement, pas l'inférence).

- Surcharge système (OS, drivers, Ollama/LM Studio runtime): ~1-2 GB.

Règle: Un modèle 70B Q4 (35 GB) + KV cache (3 GB) + système (2 GB) = ~40 GB alloué. Nécessite 2× RTX 4090 (48 GB combiné) ou A100 80GB.

Achetez toujours des GPU avec au moins 1-2 GB de marge au-dessus des minimums théoriques.

⚠️ Risque de marge: Les fenêtres de contexte longues (32K tokens) peuvent gonfler la surcharge KV cache à 8+ GB sur un modèle 70B. Un modèle 70B utilisant ~35 GB sur une GPU 48 GB (2× RTX 4090) laisse seulement 13 GB pour KV cache. Avec une conversation de 32K tokens, le modèle manque de VRAM à mi-conversation, causant des crashes. Réduisez soit la longueur max du contexte, soit achetez une GPU plus grande.

Quelles sont les erreurs VRAM les plus courantes?

  • Plus de VRAM = inférence plus rapide. Faux. La taille VRAM n'affecte pas la vitesse. La bande passante mémoire (GB/sec) le fait, et c'est fixe par GPU.
  • Taille de lot = limite de token séquentielle. Faux. Taille de lot = requêtes parallèles. L'inférence unique utilise batch=1 indépendamment de la taille VRAM.
  • Le modèle 70B nécessite 24 GB VRAM. Faux. 70B en Q4 nécessite ~35 GB. Une seule RTX 4090 (24 GB) ne peut pas exécuter de modèle 70B à n'importe quelle quantification. Q8 nécessite ~70 GB. Calculez toujours: (paramètres × bits/poids) ÷ 8 plus ~10% surcharge.
  • Ne pas compter la croissance du KV cache avec les contextes longs: Un modèle 70B en Q4 nécessite ~35 GB pour les poids. Une fenêtre de contexte 32K ajoute ~3-8 GB supplémentaires selon le mécanisme d'attention. Sur une GPU 40 GB, il ne reste presque pas de marge et cause des erreurs OOM. Réduisez soit la longueur du contexte, soit utilisez une GPU avec plus de marge VRAM.
  • Confondre RAM système avec VRAM GPU: Quand les gens disent "J'ai 32 GB de RAM", ils signifient généralement RAM système (mémoire CPU). VRAM est la mémoire dédiée sur la GPU. Ce sont des pools séparés. Une machine avec 32 GB RAM système et une GPU 8 GB peut exécuter un modèle 7B sur GPU, mais ne peut pas exécuter un modèle 13B sur GPU -- elle retomberait sur inférence CPU à 5-15 tok/sec.

Contexte régional

UE / RGPD

Les organisations de l'UE traitant des données localement doivent s'assurer que leur matériel dispose de suffisamment de VRAM pour exécuter le modèle requis entièrement sur l'appareil -- le basculement CPU partiel n'envoie aucune donnée en externe, mais réduit dramatiquement la vitesse d'inférence, le rendant impraticable pour utilisation en production. Pour les équipes d'entreprise de l'UE exécutant le traitement de documents ou l'extraction de données localement sous le RGPD, la configuration minimale recommandée est une RTX 4090 (24 GB) pour les modèles 13-30B, ou deux RTX 4090 (48 GB combiné) pour les modèles 70B. Les directives CNIL recommandent de valider que le matériel d'inférence locale est capable d'exécuter le modèle requis sans basculement cloud.

Japon (METI)

Les exigences de documentation de gouvernance METI bénéficient d'une configuration de matériel définie et stable. Documenter le modèle GPU, la capacité VRAM et le niveau de quantification du modèle crée un record d'environnement d'inférence complet. Les équipes d'entreprise françaises standardisent généralement sur une seule SKU GPU par déploiement (ex: RTX 4090 pour serveurs d'inférence d'équipe) pour simplifier la documentation de gouvernance.

Chine

Les entreprises chinoises déployant Qwen2.5 72B localement sous la Loi sur la sécurité des données de Chine (数据安全法) nécessitent 40+ GB VRAM -- un serveur dual RTX 4090 (48 GB combiné) est la configuration de qualité grand public standard. Qwen2.5 32B (20 GB en Q4) est déployable sur une seule RTX 4090 avec marge pour surcharge de contexte et est la configuration recommandée pour les équipes sans budget pour configurations GPU double.

Calculatrice VRAM

Sélectionnez la taille de votre modèle et la quantification pour estimer les exigences VRAM.

Popular Models

Base Model

6.50 GB

Context OH

1.50 GB

Batch OH

0.00 GB

System OH

1.00 GB

Total Minimum

9.00 GB

Recommended (with 25% safety margin)

11.25 GB

👉 Look for a GPU with at least 11.25 GB VRAM

Compatible GPUs

RTX 3060 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4070 Ti (12 GB)

0.8 GB headroom

⚠️ Tight

RTX 4080 (16 GB)

4.8 GB headroom

✅ Fits

RTX 4090 (24 GB)

12.8 GB headroom

✅ Fits

Mac mini M5 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

Mac mini M4 (16 GB) (16 GB)

4.8 GB headroom

✅ Fits

MacBook Pro (24 GB) (24 GB)

12.8 GB headroom

✅ Fits

M3 Max (36 GB) (36 GB)

24.8 GB headroom

✅ Fits

💡 Pro Tips:

  • Always use the "with safety margin" figure when buying a GPU
  • Q4 gives 90-95% quality with 25% size reduction. Q5 is better if you have room
  • Context overhead grows with conversation length. Budget 1-3 GB for typical usage
  • Batch size matters for multi-user APIs. Single-user chat can ignore batch overhead

📋 Share this configuration:

Loading...

FAQ

Puis-je exécuter Mistral 7B sur une GPU 6 GB?

À peine, à Q4 avec surcharge serrée. Pratiquement, non. Achetez au moins 8 GB. Vous aurez des erreurs OOM avec 6 GB.

Combien de VRAM ai-je besoin pour fine-tuner un modèle 7B?

Pour LoRA: 12-16 GB. Fine-tuning complet: 28 GB+. Le fine-tuning nécessite l'état optimiseur (2-4× VRAM du modèle), pas seulement l'inférence.

Est-ce que 12 GB est suffisant pour Llama 3 13B?

À Q4, oui à peine. À Q5 ou Q8, non. 12 GB est juste. 16 GB est confortable.

Ai-je besoin de 24 GB pour un modèle 70B?

À Q4, oui. À Q5+, non. Une quantification plus élevée (Q5, Q8) nécessite 32 GB+ pour 70B.

L'augmentation de la taille du lot réduit-elle VRAM pour l'inférence unique?

Non. L'inférence unique utilise toujours VRAM batch=1. La taille du lot n'aide que le débit (scénarios multi-utilisateurs).

Quelle est la meilleure quantification pour la précision?

Q8 est pratiquement une perte imperceptible. Q5 est ~2% perte. Q4 est ~1% perte. Pour la plupart, Q4 est le juste équilibre.

Puis-je décharger une partie du VRAM sur RAM CPU?

Oui, via fractionnement de couches (NVLink). Llama.cpp et Ollama le supportent. Les performances baissent 30-50% mais ça marche.

Quel est le minimum VRAM pour exécuter un LLM local?

4 GB VRAM avec un modèle 3B à quantification Q4 -- le modèle utilise ~1,8 GB, laisse de la marge pour KV cache et runtime. Le minimum pratique pour des résultats utiles est 8 GB VRAM avec un modèle 7B à Q4. Sous 6 GB, la sélection de modèle est sévèrement limitée et la plupart des modèles 7B causent des erreurs OOM.

Le VRAM Apple Silicon fonctionne-t-il de la même manière que le VRAM GPU pour les LLMs?

Apple Silicon utilise une mémoire unifiée partagée entre CPU et GPU -- l'ensemble du pool de mémoire est disponible pour l'inférence de modèle, pas seulement une tranche GPU dédiée. Un MacBook Pro M3 avec 18 GB de mémoire unifiée peut exécuter un modèle 13B à Q4 (~7 GB) avec marge pour KV cache et surcharge OS. Cela équivaut à 18 GB VRAM GPU sur une GPU discrète.

Combien de VRAM un modèle 7B nécessite-t-il à différents niveaux de quantification?

7B en FP32: ~28 GB -- impraticable sur GPU grand public. 7B en Q8: ~7 GB -- rentre sur RTX 4070 Ti 12 GB avec marge. 7B en Q5: ~4,5 GB -- rentre sur n'importe quelle GPU 8 GB. 7B en Q4: ~3,5 GB modèle + ~1,5 GB surcharge = ~5 GB total -- rentre sur n'importe quelle GPU 6 GB avec marge serrée, 8 GB confortablement.

Lectures complémentaires

Sources

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

VRAM 7B sur 8GB, 70B sur 48GB: Guide 2026 | PromptQuorum