Réponse rapide
Mixtral 8x7B et DeepSeek V2 sont les meilleurs modèles MoE de codage pour un usage local. Les modèles MoE n'activent qu'une fraction des paramètres par token, offrant une meilleure qualité par Go de VRAM que les modèles denses de taille totale similaire. Les deux nécessitent au moins 16 Go de VRAM en Q4.
Mis à jour : 2026-05
Points clés
Les modèles Mixture of Experts (MoE) dirigent chaque token uniquement à travers un sous-ensemble de couches spécialisées appelées experts, donc le coût d'inférence évolue avec les paramètres actifs, pas les paramètres totaux. Mixtral 8x7B a 46,7 milliards de paramètres totaux mais seulement ~12,9 milliards sont actifs par passe — comparable à un modèle dense 13B en coût de calcul.
Cela signifie que Mixtral 8x7B surpasse son poids en qualité de sortie par rapport au coût d'inférence par token. Cependant, tous les poids d'experts doivent être chargés en VRAM au démarrage. En Q4_K_M, Mixtral 8x7B nécessite environ 26 Go de VRAM — soit un GPU 24 Go avec léger compromis de quantisation, soit un setup dual-GPU.
DeepSeek V2 utilise une architecture MoE similaire optimisée pour le codage et nécessite environ 16 Go de VRAM en Q4. Ses scores de benchmarks de codage correspondent à des modèles deux à trois fois plus grands en nombre de paramètres actifs.
| Modèle | Params totaux | Actifs par token | VRAM en Q4 |
|---|---|---|---|
| Mixtral 8x7B | 46,7B | ~12,9B | ~26 Go |
| DeepSeek V2 | 236B | ~21B | ~16 Go |
Mixtral 8x7B est disponible sur Ollama via ollama pull mixtral:8x7b, qui télécharge automatiquement le GGUF Q4_K_M. Ollama gère l'allocation des couches sur la VRAM disponible et déchargera partiellement vers la RAM CPU si la VRAM est insuffisante, mais cela réduit significativement la vitesse.
Si vous disposez de seulement 16 Go de VRAM, DeepSeek V2 Q4 est le meilleur choix MoE. Il tient entièrement sur un GPU 16 Go et délivre un débit de codage d'environ 15–20 tok/s sur une RTX 4080 ou équivalent. Sous 16 Go de VRAM, passez aux modèles denses — les avantages MoE disparaissent avec un déchargement CPU important.
Une idée fausse courante : les modèles MoE doivent charger TOUS les poids des experts en VRAM au démarrage, pas seulement le sous-ensemble actif. Le coût VRAM reflète les paramètres totaux, pas les paramètres actifs. Pour les tâches single-langue (par exemple, travail Python uniquement), un modèle dense comme Qwen 2.5 Coder 14B surpasse souvent Mixtral 8x7B car ses poids sont entièrement spécialisés dans le code plutôt que répartis entre des experts génériques.
Pour une comparaison complète des meilleurs modèles de codage à chaque niveau de VRAM incluant les alternatives denses, consultez le guide des meilleurs LLMs locaux pour le codage.
ollama pull mixtral:8x7b télécharge le GGUF quantisé Q4_K_M. Ensuite, ollama run mixtral:8x7b le lance. Ollama répartit automatiquement la VRAM et décharge vers la RAM CPU si nécessaire.