PromptQuorumPromptQuorum

Meilleure quantisation pour 6 Go de VRAM : quel niveau choisir ?

Réponse rapide

Q4_K_M est le point idéal — les modèles 7B/8B en Q4_K_M utilisent 4,7–4,9 Go, laissant 1,1 Go pour le cache KV. Q5_K_M s'insère mais nécessite de limiter le contexte à 2k tokens. Q6_K et au-dessus dépassent 6 Go.

  • Llama 3.1 8B / Mistral 7B / Qwen 2.5 7B en Q4_K_M : 4,7–4,9 Go — ajustement sûr à 6 Go avec contexte 4k
  • Q5_K_M utilise ~5,7 Go — tient mais limitez le contexte à 2k tokens pour éviter les OOM
  • Les modèles 14B en Q4_K_M nécessitent 9,3 Go — aucune quantisation viable ne tient dans 6 Go

Mis à jour : 2026-05

Quantization & VRAM

Points clés

  • Pour les cartes 6 Go VRAM (RTX 3060 6 Go, RTX 3050 6 Go, GTX 1660 Ti 6 Go) : Q4_K_M est la quantisation correcte pour les modèles 7B et 8B
  • Q4_K_M laisse 1,1 Go libre — suffisant pour un cache KV de 4k tokens à la taille de contexte Ollama par défaut de 2048
  • Q5_K_M améliore la perplexité de ~1 point mais utilise 5,7 Go ; réduisez `--ctx-size` à 2048 pour éviter les erreurs out-of-memory
  • Les modèles 14B (Qwen 2.5 14B, Llama 3.1 13B) nécessitent 9,3 Go en Q4_K_M — aucun niveau de quantisation ne les rend viables sur 6 Go

Utilisation VRAM par niveau de quantisation pour les modèles 7B/8B sur 6 Go

Le niveau de quantisation contrôle directement la quantité de VRAM occupée par un modèle. Pour les modèles de 7 et 8 milliards de paramètres — la plus grande classe adaptée à un GPU 6 Go — les options pratiques vont de Q3_K_M à Q5_K_M. Q2_K tient mais dégrade la qualité en dessous d'un niveau utile ; Q6_K et au-dessus dépassent le plafond de 6 Go.

Q4_K_M est le choix par défaut recommandé : un modèle 7B utilise environ 4,7 Go et un modèle 8B utilise 4,9 Go à cette quantisation. Cela laisse 1,1 Go pour le cache KV qu'Ollama alloue pour la fenêtre de contexte. Au contexte par défaut de 2048 tokens, c'est suffisant. Passer à 4096 tokens nécessite environ 0,5 Go de cache KV supplémentaire pour un modèle 7B — encore dans le budget sur la plupart des cartes 6 Go.

Q5_K_M est l'étape suivante. Un modèle 8B en Q5_K_M utilise environ 5,7 Go, ne laissant que 300 Mo libres. C'est suffisant pour de très courts contextes (512–2048 tokens) mais provoquera des erreurs OOM avec des conversations plus longues ou des prompts système. Utilisez Q5_K_M uniquement si vous maintenez `num_ctx` à 2048 ou en dessous.

QuantisationVRAM 7BVRAM 8BTient dans 6 Go ?Contexte max (approx)
Q2_K~2,8 Go~3,0 Go✓ (qualité faible)8k+
Q3_K_M~3,5 Go~3,7 Go✓ (acceptable)8k+
Q4_K_M~4,7 Go~4,9 Go✓ recommandé4k
Q5_K_M~5,5 Go~5,7 Go⚠ juste (ctx 2k seulement)2k
Q6_K~6,4 Go~6,6 Go✗ OOM
Q8_0~7,5 Go~7,7 Go✗ OOM

Meilleurs modèles à faire tourner en Q4_K_M sur 6 Go de VRAM

Trois modèles 7B/8B se distinguent en Q4_K_M sur une carte 6 Go. Qwen 2.5 7B Instruct est le meilleur polyvalent — excellent en coding (HumanEval ~60%), support multilingue et architecture de contexte 128k (bien que vous opériez à 4k en raison du VRAM). Lancez-le avec `ollama run qwen2.5:7b`.

Llama 3.1 8B est l'option la plus rapide. En Q4_K_M, il tourne à environ 25 tokens par seconde sur une RTX 3060 6 Go et gère fiablement le chat général et le suivi d'instructions. Son score MMLU de 66,6 % est inférieur à Qwen 2.5 7B, mais l'avantage en vitesse en fait le meilleur choix pour les sessions interactives.

Phi-4 Mini (3,8B) est la carte surprise. En Q8_0, il tient dans environ 4,1 Go — confortablement dans 6 Go — et surpasse sa catégorie de taille sur les benchmarks de raisonnement. Utilisez-le quand vous avez besoin d'une empreinte inférieure à 5 Go avec un meilleur raisonnement que les anciens modèles 7B. Lancez avec `ollama run phi4-mini`.

N'essayez pas les modèles 14B sur 6 Go. Qwen 2.5 14B en Q4_K_M nécessite 9,3 Go. Q2_K le ramène à environ 5,5 Go mais la pénalité de perplexité est sévère — le modèle produit des sorties notablement dégradées. Restez sur du 7B/8B en Q4_K_M ou du 3B/4B en Q8_0.

Réponses rapides sur la quantisation avec 6 Go de VRAM

Peut-on faire tourner un modèle 14B sur 6 Go de VRAM ?
Aucune solution viable n'existe. Qwen 2.5 14B en Q4_K_M a besoin de 9,3 Go. Passer à Q2_K le ramène à environ 5,5 Go, mais la dégradation de qualité est sévère — les sorties deviennent notablement incohérentes. Le modèle correct pour 6 Go de VRAM est un modèle 7B ou 8B en Q4_K_M.
Q4_K_M ou Q4_K_S : lequel est meilleur pour 6 Go de VRAM ?
Q4_K_M. La variante Q4_K_S économise environ 200 Mo par rapport à Q4_K_M mais avec une pénalité de perplexité plus importante. Sur une carte 6 Go, Q4_K_M laisse déjà 1,1 Go de marge — les 200 Mo supplémentaires de Q4_K_S ne sont pas nécessaires, et le compromis qualité n'en vaut pas la peine.
Faut-il utiliser Q5_K_M au lieu de Q4_K_M avec 6 Go de VRAM ?
Uniquement si vous limitez strictement le contexte à 2k tokens. Q5_K_M améliore la perplexité d'environ 1–1,5 point par rapport à Q4_K_M, mais utilise 5,7 Go sur un modèle 8B, ne laissant que 300 Mo pour le cache KV. Définissez `num_ctx 2048` dans votre Modelfile ou les paramètres Ollama pour éviter les OOM en cours de session.
Que se passe-t-il si mon modèle dépasse 6 Go de VRAM ?
Ollama décharge les couches excédentaires vers la RAM CPU (via le layer offloading de llama.cpp). Cela provoque une chute dramatique de la vitesse — de ~25 tok/s en GPU seul à ~3–5 tok/s avec un déchargement partiel sur CPU. Si vous voyez des avertissements "n_gpu_layers" ou des tokens-par-seconde inférieurs à 5, votre modèle est trop volumineux pour votre VRAM à la quantisation sélectionnée.