Points clés
En mai 2026, le besoin en VRAM d'un modèle suit une formule simple : nombre de paramètres en milliards × 0,7 = Go approximatifs en quantisation Q4. Un modèle 7B nécessite ~4,9 Go pour les poids, plus 0,5–1 Go de surcharge de contexte. C'est pourquoi 6 Go est le minimum pour le tier 7–8B, et pourquoi 12 Go débloque le tier 14B avec de la marge.
Utilisez le tableau ci-dessous comme référence de décision rapide. La colonne "Vitesse" suppose Ollama sur un GPU de bureau tournant avec le contexte par défaut (2048 tokens).
Gardez toujours 1–2 Go de VRAM libres au-dessus des besoins déclarés de votre modèle. Les systèmes d'exploitation, les onglets de navigateur et le runtime d'Ollama consomment 500 Mo–1 Go même sans modèle chargé. Une carte 6 Go faisant tourner un modèle de 5,5 Go ne laisse que 500 Mo de marge — vous rencontrerez des erreurs de mémoire insuffisante dès que vous augmentez --num-ctx au-delà de 2048 tokens. Pour le tier 6 Go avec une marge sécurisée, voir les meilleurs LLMs locaux pour 6 Go de VRAM.
| VRAM | Meilleur modèle en Q4_K_M | Vitesse |
|---|---|---|
| 4 Go | Phi-4 Mini Q4 | ~25 tok/s |
| 6 Go | Llama 3 8B Q4_K_M | ~20 tok/s |
| 8 Go | Mistral 7B Q5_K_M | ~18 tok/s |
| 12 Go | Qwen 14B Q4_K_M | ~15 tok/s |
| 16+ Go | Qwen 32B Q4 ou Llama 70B partiel | ~8 tok/s |
Si un modèle dépasse votre VRAM, vous avez trois options : réduire la quantisation (Q4_K_M au lieu de Q5), réduire la fenêtre de contexte avec --num-ctx 2048, ou laisser Ollama décharger des couches vers la RAM système.
Le déchargement CPU fonctionne mais est lent — chaque couche déplacée vers la RAM ajoute de la latence. Pour un usage interactif, restez dans les limites VRAM de votre GPU. Réduire le contexte de 4096 à 2048 tokens économise environ 2 Go sur un modèle 7B.
Pour une répartition complète des tailles de modèles et les calculs derrière les estimations VRAM, voir le guide VRAM complet pour les LLMs locaux. Pour le tier 7B spécifiquement, voir combien de RAM nécessite un modèle 7B.
--num-ctx 2048 dans votre commande Ollama. Cela réduit la VRAM de jusqu'à 2 Go sur les modèles 7B sans modifier le fichier modèle.