Réponse rapide
Q4_K_M est le point idéal — les modèles 7B/8B en Q4_K_M utilisent 4,7–4,9 Go, laissant 1,1 Go pour le cache KV. Q5_K_M s'insère mais nécessite de limiter le contexte à 2k tokens. Q6_K et au-dessus dépassent 6 Go.
Mis à jour : 2026-05
Points clés
Le niveau de quantisation contrôle directement la quantité de VRAM occupée par un modèle. Pour les modèles de 7 et 8 milliards de paramètres — la plus grande classe adaptée à un GPU 6 Go — les options pratiques vont de Q3_K_M à Q5_K_M. Q2_K tient mais dégrade la qualité en dessous d'un niveau utile ; Q6_K et au-dessus dépassent le plafond de 6 Go.
Q4_K_M est le choix par défaut recommandé : un modèle 7B utilise environ 4,7 Go et un modèle 8B utilise 4,9 Go à cette quantisation. Cela laisse 1,1 Go pour le cache KV qu'Ollama alloue pour la fenêtre de contexte. Au contexte par défaut de 2048 tokens, c'est suffisant. Passer à 4096 tokens nécessite environ 0,5 Go de cache KV supplémentaire pour un modèle 7B — encore dans le budget sur la plupart des cartes 6 Go.
Q5_K_M est l'étape suivante. Un modèle 8B en Q5_K_M utilise environ 5,7 Go, ne laissant que 300 Mo libres. C'est suffisant pour de très courts contextes (512–2048 tokens) mais provoquera des erreurs OOM avec des conversations plus longues ou des prompts système. Utilisez Q5_K_M uniquement si vous maintenez `num_ctx` à 2048 ou en dessous.
| Quantisation | VRAM 7B | VRAM 8B | Tient dans 6 Go ? | Contexte max (approx) |
|---|---|---|---|---|
| Q2_K | ~2,8 Go | ~3,0 Go | ✓ (qualité faible) | 8k+ |
| Q3_K_M | ~3,5 Go | ~3,7 Go | ✓ (acceptable) | 8k+ |
| Q4_K_M | ~4,7 Go | ~4,9 Go | ✓ recommandé | 4k |
| Q5_K_M | ~5,5 Go | ~5,7 Go | ⚠ juste (ctx 2k seulement) | 2k |
| Q6_K | ~6,4 Go | ~6,6 Go | ✗ OOM | — |
| Q8_0 | ~7,5 Go | ~7,7 Go | ✗ OOM | — |
Trois modèles 7B/8B se distinguent en Q4_K_M sur une carte 6 Go. Qwen 2.5 7B Instruct est le meilleur polyvalent — excellent en coding (HumanEval ~60%), support multilingue et architecture de contexte 128k (bien que vous opériez à 4k en raison du VRAM). Lancez-le avec `ollama run qwen2.5:7b`.
Llama 3.1 8B est l'option la plus rapide. En Q4_K_M, il tourne à environ 25 tokens par seconde sur une RTX 3060 6 Go et gère fiablement le chat général et le suivi d'instructions. Son score MMLU de 66,6 % est inférieur à Qwen 2.5 7B, mais l'avantage en vitesse en fait le meilleur choix pour les sessions interactives.
Phi-4 Mini (3,8B) est la carte surprise. En Q8_0, il tient dans environ 4,1 Go — confortablement dans 6 Go — et surpasse sa catégorie de taille sur les benchmarks de raisonnement. Utilisez-le quand vous avez besoin d'une empreinte inférieure à 5 Go avec un meilleur raisonnement que les anciens modèles 7B. Lancez avec `ollama run phi4-mini`.
N'essayez pas les modèles 14B sur 6 Go. Qwen 2.5 14B en Q4_K_M nécessite 9,3 Go. Q2_K le ramène à environ 5,5 Go mais la pénalité de perplexité est sévère — le modèle produit des sorties notablement dégradées. Restez sur du 7B/8B en Q4_K_M ou du 3B/4B en Q8_0.