Points clés
En mai 2026, la RTX 3060 12 Go est le chemin le moins cher pour faire tourner des modèles 14B localement. Ses 12 Go de VRAM rivalisent avec la RTX 4070 Ti (~800 €) et la RTX 4080 (~1 100 €) à une fraction du coût. Pour une carte d'occasion à env. 280–350 €, vous obtenez la même capacité de modèle que des cartes 3× plus chères — limité uniquement par la vitesse brute.
Les cinq modèles ci-dessous fonctionnent avec Ollama sans configuration. Les vitesses sont mesurées avec un contexte de 2 048 tokens par défaut sur un PC de bureau sans déchargement CPU.
| Modèle | VRAM utilisé | Vitesse |
|---|---|---|
| Llama 3 8B Q5_K_M | 7,0 Go | ~25 tok/s |
| Qwen 2.5 Coder 14B Q4_K_M | 10,0 Go | ~20 tok/s |
| Mistral 7B Q6_K | 6,5 Go | ~27 tok/s |
| Phi-4 Q5_K_M | 6,2 Go | ~28 tok/s |
| Qwen 14B Q4_K_M | 10,0 Go | ~18 tok/s |
Pour l'usage général, lancez Llama 3 8B en Q5_K_M avec une fenêtre de contexte de 4 096 tokens. Cela utilise ~8 Go de VRAM au total et laisse 4 Go de marge — suffisant pour éviter les débordements lors du changement de modèle.
Pour le code, Qwen 2.5 Coder 14B en Q4_K_M est le choix évident : il surpasse Llama 3 8B sur HumanEval, tient en 10 Go de VRAM et gère Python, TypeScript et Go sans fine-tuning.
Laissez toujours au moins 1,5–2 Go de VRAM libres. Pour le contexte complet des benchmarks GPU, voir les meilleurs GPU pour LLM locaux. Si votre GPU a moins de 12 Go, voir les meilleurs modèles pour 6 Go de VRAM. Pour lancer le meilleur choix général sur votre RTX 3060 :
ollama pull llama3:8b-instruct-q5_K_M
ollama run llama3:8b-instruct-q5_K_M--num-ctx 4096 pour une fenêtre de contexte plus grande.ollama run nomdumodele et il se charge entièrement sur le GPU si le VRAM est suffisant.