PromptQuorumPromptQuorum

Meilleurs modèles Ollama pour RTX 3060 12 Go ?

Quantization & VRAM

Points clés

  • Meilleur usage général : Llama 3 8B en Q5_K_M — 7 Go de VRAM, ~25 tok/s, excellente qualité chat et code
  • Meilleur pour le code : Qwen 2.5 Coder 14B en Q4_K_M — 10 Go de VRAM, meilleur score HumanEval en classe 14B
  • La RTX 3060 12 Go est le seul GPU grand public sous env. 350 € avec assez de VRAM pour les modèles 14B en Q4

Top 5 des modèles Ollama pour RTX 3060 12 Go

En mai 2026, la RTX 3060 12 Go est le chemin le moins cher pour faire tourner des modèles 14B localement. Ses 12 Go de VRAM rivalisent avec la RTX 4070 Ti (~800 €) et la RTX 4080 (~1 100 €) à une fraction du coût. Pour une carte d'occasion à env. 280–350 €, vous obtenez la même capacité de modèle que des cartes 3× plus chères — limité uniquement par la vitesse brute.

Les cinq modèles ci-dessous fonctionnent avec Ollama sans configuration. Les vitesses sont mesurées avec un contexte de 2 048 tokens par défaut sur un PC de bureau sans déchargement CPU.

ModèleVRAM utiliséVitesse
Llama 3 8B Q5_K_M7,0 Go~25 tok/s
Qwen 2.5 Coder 14B Q4_K_M10,0 Go~20 tok/s
Mistral 7B Q6_K6,5 Go~27 tok/s
Phi-4 Q5_K_M6,2 Go~28 tok/s
Qwen 14B Q4_K_M10,0 Go~18 tok/s

Comment obtenir les meilleures performances sur RTX 3060

Pour l'usage général, lancez Llama 3 8B en Q5_K_M avec une fenêtre de contexte de 4 096 tokens. Cela utilise ~8 Go de VRAM au total et laisse 4 Go de marge — suffisant pour éviter les débordements lors du changement de modèle.

Pour le code, Qwen 2.5 Coder 14B en Q4_K_M est le choix évident : il surpasse Llama 3 8B sur HumanEval, tient en 10 Go de VRAM et gère Python, TypeScript et Go sans fine-tuning.

Laissez toujours au moins 1,5–2 Go de VRAM libres. Pour le contexte complet des benchmarks GPU, voir les meilleurs GPU pour LLM locaux. Si votre GPU a moins de 12 Go, voir les meilleurs modèles pour 6 Go de VRAM. Pour lancer le meilleur choix général sur votre RTX 3060 :

ollama pull llama3:8b-instruct-q5_K_M
ollama run llama3:8b-instruct-q5_K_M
Pull télécharge ~7 Go à la première exécution. Les exécutions suivantes démarrent instantanément depuis le cache. Utilisez --num-ctx 4096 pour une fenêtre de contexte plus grande.

Réponses rapides sur les modèles RTX 3060

La RTX 3060 peut-elle faire tourner un modèle 70B ?
Non. Un modèle 70B en Q4_K_M nécessite environ 40 Go de VRAM. La RTX 3060 12 Go est limitée aux modèles ~14B en Q4. Voir combien de VRAM un modèle 70B nécessite pour les options.
La RTX 3060 12 Go est-elle bonne pour les LLM locaux ?
Oui — c'est le meilleur rapport qualité-prix à ce niveau de VRAM. La capacité de 12 Go permet les modèles 14B en Q4, que les cartes 8 Go ne peuvent pas exécuter. Prix de revente typiquement env. 280–350 € d'occasion.
Quelle quantisation utiliser sur RTX 3060 12 Go ?
Q5_K_M pour les modèles 7–8B (meilleure qualité dans le budget 12 Go). Q4_K_M pour les modèles 13–14B (requis pour tenir). Voir ce que signifie Q4_K_M pour le compromis qualité.
Ollama utilise-t-il automatiquement le GPU RTX 3060 ?
Oui. Ollama détecte les GPU NVIDIA via CUDA automatiquement sur Windows et Linux. Aucune configuration manuelle n'est nécessaire. Lancez ollama run nomdumodele et il se charge entièrement sur le GPU si le VRAM est suffisant.