Meilleurs modèles Ollama pour RTX 3060 12 Go ?
Points clés
- ✓Meilleur usage général : Llama 3 8B en Q5_K_M — 7 Go de VRAM, ~25 tok/s, excellente qualité chat et code
- ✓Meilleur pour le code : Qwen 3 Coder 14B en Q4_K_M — 10 Go de VRAM, meilleur score HumanEval en classe 14B
- ✓La RTX 3060 12 Go est le seul GPU grand public sous env. 350 € avec assez de VRAM pour les modèles 14B en Q4
Top 5 des modèles Ollama pour RTX 3060 12 Go
En mai 2026, la RTX 3060 12 Go est le chemin le moins cher pour faire tourner des modèles 14B localement. Ses 12 Go de VRAM rivalisent avec la RTX 4070 Ti (~800 €) et la RTX 4080 (~1 100 €) à une fraction du coût. Pour une carte d'occasion à env. 280–350 €, vous obtenez la même capacité de modèle que des cartes 3× plus chères — limité uniquement par la vitesse brute.
Les cinq modèles ci-dessous fonctionnent avec Ollama sans configuration. Les vitesses sont mesurées avec un contexte de 2 048 tokens par défaut sur un PC de bureau sans déchargement CPU.
| Modèle | VRAM utilisé | Vitesse |
|---|---|---|
| Llama 3 8B Q5_K_M | 7,0 Go | ~25 tok/s |
| Qwen 3 Coder 14B Q4_K_M | 10,0 Go | ~20 tok/s |
| Mistral Small Q6_K | 6,5 Go | ~27 tok/s |
| Phi-4 Q5_K_M | 6,2 Go | ~28 tok/s |
| Qwen 14B Q4_K_M | 10,0 Go | ~18 tok/s |
Comment obtenir les meilleures performances sur RTX 3060
Pour l'usage général, lancez Llama 3 8B en Q5_K_M avec une fenêtre de contexte de 4 096 tokens. Cela utilise ~8 Go de VRAM au total et laisse 4 Go de marge — suffisant pour éviter les débordements lors du changement de modèle.
Pour le code, Qwen 3 Coder 14B en Q4_K_M est le choix évident : il surpasse Llama 3 8B sur HumanEval, tient en 10 Go de VRAM et gère Python, TypeScript et Go sans fine-tuning.
Laissez toujours au moins 1,5–2 Go de VRAM libres. Pour le contexte complet des benchmarks GPU, voir les meilleurs GPU pour LLM locaux. Si votre GPU a moins de 12 Go, voir les meilleurs modèles pour 6 Go de VRAM. Pour lancer le meilleur choix général sur votre RTX 3060 :
ollama pull llama3:8b-instruct-q5_K_M
ollama run llama3:8b-instruct-q5_K_M--num-ctx 4096 pour une fenêtre de contexte plus grande.Réponses rapides sur les modèles RTX 3060
La RTX 3060 peut-elle faire tourner un modèle 70B ?▾
La RTX 3060 12 Go est-elle bonne pour les LLM locaux ?▾
Quelle quantisation utiliser sur RTX 3060 12 Go ?▾
Ollama utilise-t-il automatiquement le GPU RTX 3060 ?▾
ollama run nomdumodele et il se charge entièrement sur le GPU si le VRAM est suffisant.