PromptQuorumPromptQuorum

De combien de VRAM avez-vous besoin pour un LLM local ?

Quantization & VRAM

Points clés

  • 4 Go de VRAM fait tourner Phi-4 Mini Q4 et Gemma 2 2B sans problème
  • 6 Go est le point d'entrée pour Llama 3 8B en Q4_K_M — le modèle local le plus populaire
  • 12 Go débloque Qwen 14B Q4, le meilleur rapport qualité/prix
  • Les modèles 70B nécessitent 40+ Go — prévoyez un double RTX 3090 ou Apple M-series avec une grande mémoire unifiée

Besoins en VRAM par taille de modèle

En mai 2026, le besoin en VRAM d'un modèle suit une formule simple : nombre de paramètres en milliards × 0,7 = Go approximatifs en quantisation Q4. Un modèle 7B nécessite ~4,9 Go pour les poids, plus 0,5–1 Go de surcharge de contexte. C'est pourquoi 6 Go est le minimum pour le tier 7–8B, et pourquoi 12 Go débloque le tier 14B avec de la marge.

Utilisez le tableau ci-dessous comme référence de décision rapide. La colonne "Vitesse" suppose Ollama sur un GPU de bureau tournant avec le contexte par défaut (2048 tokens).

Gardez toujours 1–2 Go de VRAM libres au-dessus des besoins déclarés de votre modèle. Les systèmes d'exploitation, les onglets de navigateur et le runtime d'Ollama consomment 500 Mo–1 Go même sans modèle chargé. Une carte 6 Go faisant tourner un modèle de 5,5 Go ne laisse que 500 Mo de marge — vous rencontrerez des erreurs de mémoire insuffisante dès que vous augmentez --num-ctx au-delà de 2048 tokens. Pour le tier 6 Go avec une marge sécurisée, voir les meilleurs LLMs locaux pour 6 Go de VRAM.

VRAMMeilleur modèle en Q4_K_MVitesse
4 GoPhi-4 Mini Q4~25 tok/s
6 GoLlama 3 8B Q4_K_M~20 tok/s
8 GoMistral 7B Q5_K_M~18 tok/s
12 GoQwen 14B Q4_K_M~15 tok/s
16+ GoQwen 32B Q4 ou Llama 70B partiel~8 tok/s

Quand votre VRAM est insuffisante

Si un modèle dépasse votre VRAM, vous avez trois options : réduire la quantisation (Q4_K_M au lieu de Q5), réduire la fenêtre de contexte avec --num-ctx 2048, ou laisser Ollama décharger des couches vers la RAM système.

Le déchargement CPU fonctionne mais est lent — chaque couche déplacée vers la RAM ajoute de la latence. Pour un usage interactif, restez dans les limites VRAM de votre GPU. Réduire le contexte de 4096 à 2048 tokens économise environ 2 Go sur un modèle 7B.

Pour une répartition complète des tailles de modèles et les calculs derrière les estimations VRAM, voir le guide VRAM complet pour les LLMs locaux. Pour le tier 7B spécifiquement, voir combien de RAM nécessite un modèle 7B.

Réponses rapides sur la VRAM

8 Go de VRAM suffisent-ils pour les LLMs locaux ?
Oui. 8 Go fait tourner Llama 3 8B en Q5_K_M à environ 18 tokens par seconde, ou Mistral 7B en Q5_K_M avec de la marge. La plupart des tâches quotidiennes de chat et de coding sont bien couvertes à ce tier.
Puis-je faire tourner un modèle 7B sur 4 Go de VRAM ?
Non. Un modèle 7B en Q4 nécessite 5–6 Go de VRAM. La plus petite quantisation utilisable dépasse encore les 4 Go. Voir combien de RAM nécessite un modèle 7B pour la répartition complète.
La taille de la fenêtre de contexte affecte-t-elle l'utilisation de la VRAM ?
Oui. Chaque tranche supplémentaire de 1 000 tokens de contexte utilise environ 250 Mo de VRAM sur un modèle 7B. Le contexte par défaut de 2048 tokens utilise ~0,5 Go ; 16 384 tokens utilisent ~4 Go en plus du poids du modèle.
Que faire si mon modèle consomme plus de VRAM que prévu ?
Définissez --num-ctx 2048 dans votre commande Ollama. Cela réduit la VRAM de jusqu'à 2 Go sur les modèles 7B sans modifier le fichier modèle.