Points clés
En mai 2026, 6 Go de VRAM couvre deux classes de matériel très différentes : les laptops Windows entrée de gamme (RTX 3050/4050) et tout MacBook avec 16 Go de mémoire unifiée. Les performances diffèrent de 30 à 50 % entre les deux — le Mac exécute Llama 3 8B Q4_K_M à ~25 tok/s grâce à la bande passante de la mémoire unifiée, tandis que le GPU discret Windows tourne à ~18 tok/s en raison du surcoût de transfert PCIe.
Les trois modèles fonctionnent avec Ollama sans configuration particulière. Les vitesses ci-dessous sont mesurées avec une fenêtre de contexte de 2 048 tokens. Étendre à 4 096 tokens ajoute ~1 Go — toujours dans la limite de 6 Go pour Phi-4 et Mistral.
| Modèle | VRAM | Usage optimal |
|---|---|---|
| Llama 3 8B Q4_K_M | 5,5 Go | Chat général, code |
| Phi-4 Q4_K_M | 5,0 Go | Instructions, raisonnement |
| Mistral 7B Q4_K_S | 4,5 Go | Tâches priorité vitesse |
Sous Windows, la RTX 3050 6 Go et la RTX 4050 6 Go sont les deux principaux GPU de ce niveau. Les deux exécutent Ollama via CUDA avec des performances quasi identiques — la RTX 4050 est environ 10 % plus efficace en énergie, mais pas sensiblement plus rapide en pratique.
Sous macOS, tout MacBook avec 16 Go de mémoire unifiée dispose d'environ 6 Go disponibles pour la charge de travail GPU. La mémoire unifiée élimine le goulot d'étranglement PCIe des cartes graphiques dédiées, ce qui rend les performances macOS souvent équivalentes ou supérieures à une RTX 3050 dédiée.
Passer de 6 Go à 8 Go débloque la quantisation Q5_K_M sur les modèles 7–8B (+3 % de qualité) et des fenêtres de contexte plus rapides. Pour les options 12 Go et les modèles 14B, voir les meilleurs modèles Ollama pour RTX 3060 12 Go. Pour la référence VRAM complète, voir combien de VRAM un LLM local nécessite.
6 Go est le plus petit VRAM où un LLM local rivalise avec les modèles cloud sur les tâches quotidiennes. En dessous de 6 Go, vous êtes limité à des petits modèles qui peinent sur le code ou le raisonnement long. À 6 Go, Llama 3 8B Q4_K_M est entièrement disponible. Pour passer aux modèles 14B, voir les sélections du niveau 12 Go.
--num-ctx 2048) ou choisissez Phi-4 Q4_K_M à la place.