Réponse rapide
Qwen 2.5 Coder 14B Q4_K_M est le meilleur modèle de coding pour les GPU 12 Go de VRAM comme la RTX 3060. Il utilise ~10 Go de VRAM et obtient le meilleur score HumanEval parmi les modèles qui tiennent dans cette contrainte. DeepSeek Coder 14B est une alternative solide.
Mis à jour : 2026-05
Points clés
Qwen 2.5 Coder 14B en quantification Q4_K_M utilise environ 10 Go de VRAM — laissant 2 Go de marge sur une carte 12 Go, suffisant pour le système d'exploitation et le runtime Ollama. Il atteint 78,4 % sur HumanEval, le meilleur score de tout modèle de coding 14B ou inférieur disponible en local en mai 2026.
DeepSeek Coder 14B en Q4_K_M a une empreinte VRAM quasi-identique (~10 Go) et obtient 75,1 % sur HumanEval. L'écart est faible, mais Qwen 2.5 Coder est régulièrement en tête sur les tâches Python et TypeScript, qui représentent la majorité des charges de travail développeur classiques.
Les deux modèles fonctionnent de manière identique sur RTX 3060 12 Go et RTX 3080 Ti 12 Go. La RTX 3080 Ti offre une bande passante mémoire légèrement plus élevée (912 GB/s contre 360 GB/s), ce qui se traduit par environ 18 tok/s contre 14 tok/s pour le même modèle à la même quantification.
| Modèle | VRAM | HumanEval | Vitesse (RTX 3060) | Vitesse (RTX 3080 Ti) |
|---|---|---|---|---|
| Qwen 2.5 Coder 14B Q4_K_M | ~10 Go | 78,4 % | ~14 tok/s | ~18 tok/s |
| DeepSeek Coder 14B Q4_K_M | ~10 Go | 75,1 % | ~14 tok/s | ~18 tok/s |
| Qwen 2.5 Coder 7B Q4_K_M | ~5 Go | 72,1 % | ~28 tok/s | ~38 tok/s |
À 4k de contexte, les deux modèles 14B utilisent ~10 Go de VRAM et fonctionnent confortablement. À 8k de contexte, le VRAM monte à environ 11,5 Go — ne laissant que 500 Mo de marge sur une carte 12 Go. À 16k de contexte, un modèle 14B Q4_K_M dépasse les 12 Go de VRAM et commencera à décharger partiellement vers le CPU, ramenant la vitesse à ~3 tok/s.
Pour l'usage pratique du coding, 4k de contexte est suffisant pour la plupart des complétions de fichier unique et des sessions de revue de code. Les besoins en long contexte (dépôts entiers, refactorisations importantes) nécessitent un GPU de 16 Go ou 24 Go, ou un passage à la variante 7B qui utilise ~5 Go de VRAM et laisse toute la carte 12 Go libre pour le contexte.
Si vous travaillez fréquemment avec des fichiers volumineux et souhaitez rester sur une carte 12 Go, envisagez Qwen 2.5 Coder 7B Q4_K_M — il tourne à ~28 tok/s sur RTX 3060, obtient 72,1 % sur HumanEval et laisse 7 Go de VRAM libres pour le contexte. Consultez la comparaison des meilleurs modèles de coding 14B pour plus de détails sur le compromis 14B vs 7B.
ollama pull qwen2.5-coder:14b-instruct-q4_K_M. Ollama détecte automatiquement le GPU NVIDIA et utilise CUDA. Vérifiez l'utilisation du GPU avec ollama ps — le modèle doit apparaître comme tournant sur GPU, pas sur CPU. S'il retombe sur CPU, vérifiez que les drivers CUDA sont à jour.