PromptQuorumPromptQuorum

Meilleur LLM local pour le coding avec 12 Go de VRAM ?

Réponse rapide

Qwen 2.5 Coder 14B Q4_K_M est le meilleur modèle de coding pour les GPU 12 Go de VRAM comme la RTX 3060. Il utilise ~10 Go de VRAM et obtient le meilleur score HumanEval parmi les modèles qui tiennent dans cette contrainte. DeepSeek Coder 14B est une alternative solide.

  • Qwen 2.5 Coder 14B Q4_K_M : ~10 Go de VRAM, meilleur benchmark de coding pour cette taille
  • DeepSeek Coder 14B Q4_K_M : VRAM similaire, compétitif sur la complétion de code
  • Les deux tiennent sur RTX 3060 12 Go et RTX 3080 Ti 12 Go

Mis à jour : 2026-05

Hardware-Specific

Points clés

  • Qwen 2.5 Coder 14B Q4_K_M utilise ~10 Go de VRAM et tient sur RTX 3060 12 Go ou RTX 3080 Ti 12 Go avec 2 Go de marge
  • En contexte court (≤4k tokens), Qwen et DeepSeek Coder 14B tournent à 14–18 tok/s sur ces cartes 12 Go
  • Les sessions de contexte au-delà de 8k font monter le VRAM à ~11,5 Go — rester en dessous de 8k pour un fonctionnement 12 Go confortable
  • Qwen 2.5 Coder 14B obtient 78,4 % sur HumanEval ; DeepSeek Coder 14B 75,1 % — les deux bien au-dessus de tout modèle de coding 7B

Qwen 2.5 Coder 14B est le bon modèle pour 12 Go de VRAM

Qwen 2.5 Coder 14B en quantification Q4_K_M utilise environ 10 Go de VRAM — laissant 2 Go de marge sur une carte 12 Go, suffisant pour le système d'exploitation et le runtime Ollama. Il atteint 78,4 % sur HumanEval, le meilleur score de tout modèle de coding 14B ou inférieur disponible en local en mai 2026.

DeepSeek Coder 14B en Q4_K_M a une empreinte VRAM quasi-identique (~10 Go) et obtient 75,1 % sur HumanEval. L'écart est faible, mais Qwen 2.5 Coder est régulièrement en tête sur les tâches Python et TypeScript, qui représentent la majorité des charges de travail développeur classiques.

Les deux modèles fonctionnent de manière identique sur RTX 3060 12 Go et RTX 3080 Ti 12 Go. La RTX 3080 Ti offre une bande passante mémoire légèrement plus élevée (912 GB/s contre 360 GB/s), ce qui se traduit par environ 18 tok/s contre 14 tok/s pour le même modèle à la même quantification.

ModèleVRAMHumanEvalVitesse (RTX 3060)Vitesse (RTX 3080 Ti)
Qwen 2.5 Coder 14B Q4_K_M~10 Go78,4 %~14 tok/s~18 tok/s
DeepSeek Coder 14B Q4_K_M~10 Go75,1 %~14 tok/s~18 tok/s
Qwen 2.5 Coder 7B Q4_K_M~5 Go72,1 %~28 tok/s~38 tok/s

La longueur du contexte est la variable VRAM clé

À 4k de contexte, les deux modèles 14B utilisent ~10 Go de VRAM et fonctionnent confortablement. À 8k de contexte, le VRAM monte à environ 11,5 Go — ne laissant que 500 Mo de marge sur une carte 12 Go. À 16k de contexte, un modèle 14B Q4_K_M dépasse les 12 Go de VRAM et commencera à décharger partiellement vers le CPU, ramenant la vitesse à ~3 tok/s.

Pour l'usage pratique du coding, 4k de contexte est suffisant pour la plupart des complétions de fichier unique et des sessions de revue de code. Les besoins en long contexte (dépôts entiers, refactorisations importantes) nécessitent un GPU de 16 Go ou 24 Go, ou un passage à la variante 7B qui utilise ~5 Go de VRAM et laisse toute la carte 12 Go libre pour le contexte.

Si vous travaillez fréquemment avec des fichiers volumineux et souhaitez rester sur une carte 12 Go, envisagez Qwen 2.5 Coder 7B Q4_K_M — il tourne à ~28 tok/s sur RTX 3060, obtient 72,1 % sur HumanEval et laisse 7 Go de VRAM libres pour le contexte. Consultez la comparaison des meilleurs modèles de coding 14B pour plus de détails sur le compromis 14B vs 7B.

Réponses rapides sur les LLMs de coding pour 12 Go de VRAM

Qu'est-ce qui est mieux pour 12 Go de VRAM : RTX 3060 ou RTX 3080 Ti ?
Les deux ont 12 Go de VRAM et font tourner les mêmes modèles. La RTX 3080 Ti a 912 GB/s de bande passante mémoire contre 360 GB/s pour la RTX 3060 — soit environ 2,5× plus de génération de tokens pour le même modèle. Si vous avez le choix, la 3080 Ti est significativement meilleure pour l'inférence LLM malgré une capacité VRAM identique.
Puis-je faire tenir un modèle 20B ou 22B sur 12 Go de VRAM ?
En Q3_K_M, certains modèles 20B tiennent dans ~12 Go, mais la quantification Q3 cause une dégradation perceptible de la qualité sur les tâches de code. Un Qwen 2.5 Coder 14B en Q4_K_M surpasse un Qwen 2.5 Coder 20B en Q3_K_M sur la plupart des benchmarks de coding, car la qualité de quantification compte plus que le nombre de paramètres dans cette plage.
Comment installer Qwen 2.5 Coder 14B sur Ollama pour ma RTX 3060 ?
Lancez ollama pull qwen2.5-coder:14b-instruct-q4_K_M. Ollama détecte automatiquement le GPU NVIDIA et utilise CUDA. Vérifiez l'utilisation du GPU avec ollama ps — le modèle doit apparaître comme tournant sur GPU, pas sur CPU. S'il retombe sur CPU, vérifiez que les drivers CUDA sont à jour.
Un modèle de coding dédié est-il meilleur qu'un modèle généraliste pour la complétion de code ?
Oui, substantiellement. Qwen 2.5 Coder 14B obtient 78,4 % sur HumanEval. Un Mistral 12B généraliste de taille similaire obtient environ 60 %. La différence de 18 points reflète les données de préentraînement spécifiques au code. Pour un travail de coding sérieux, choisissez toujours un modèle code-tuned plutôt qu'un généraliste de même taille. Comparez les options dans le guide Qwen Coder vs DeepSeek Coder.