Réponse rapide
Qwen 2.5 Coder 14B est le meilleur modèle de coding 14B pour une utilisation locale. Il tient en 10 Go de VRAM en Q4_K_M et obtient le meilleur score HumanEval parmi les modèles 14B. DeepSeek Coder 14B est une alternative solide avec des besoins en VRAM similaires.
Mis à jour : 2026-05
Points clés
En mai 2026, Qwen 2.5 Coder 14B en quantification Q4_K_M obtient 78,4 % sur HumanEval — le meilleur score de tout modèle 14B disponible via Ollama ou llama.cpp. Le modèle a été affiné sur plus de 5 000 milliards de tokens de données axées sur le code, ce qui explique ses performances sur la complétion multi-étapes et la génération de cas de test.
DeepSeek Coder 14B obtient 75,1 % sur HumanEval dans des conditions Q4_K_M identiques. L'écart est suffisamment faible pour que DeepSeek Coder reste un choix valide, notamment si vous l'avez déjà en cache ou que vous êtes habitué à son style de sortie.
StarCoder2 15B est le troisième choix pour le travail de coding open-source spécialisé. Entraîné sur The Stack v2, il obtient environ 73 % sur HumanEval à ~10 Go de VRAM Q4_K_M. Ses points forts sont les tâches de contribution open-source, la recherche de code dans les grands référentiels et le refactoring structuré — les cas d'usage où son corpus d'entraînement lui confère un avantage sur les modèles d'instruction générale.
| Modèle | HumanEval | VRAM (Q4_K_M) |
|---|---|---|
| Qwen 2.5 Coder 14B | 78,4 % | ~10 Go |
| DeepSeek Coder 14B | 75,1 % | ~10 Go |
| StarCoder2 15B | ~73 % | ~10 Go |
Qwen 2.5 Coder 14B et DeepSeek Coder 14B nécessitent tous deux environ 10 Go de VRAM en Q4_K_M, ne laissant que 2 Go de marge sur une carte 12 Go. Cette marge est serrée pour les sessions à long contexte : à 8k de contexte, l'utilisation VRAM monte à ~11,5 Go. Si votre flux de travail implique de grands fichiers, préférez une carte de 16+ Go.
Pour des fenêtres de contexte inférieures à 4k tokens — le cas courant pour la complétion de fichier unique — les trois modèles fonctionnent confortablement sur une RTX 3060 12 Go ou RTX 3080 Ti 12 Go. La vitesse pour Qwen et DeepSeek Coder est d'environ 14 à 18 tok/s ; StarCoder2 15B s'exécute à un débit similaire compte tenu de son empreinte VRAM comparable. Préférez StarCoder2 quand votre flux de travail porte sur la recherche au niveau du référentiel ou les modèles de contributions open-source.
Pour une comparaison plus complète des modèles de coding à différentes tailles et niveaux de VRAM, consultez le guide du meilleur LLM de coding pour 12 Go de VRAM.