PromptQuorumPromptQuorum

Mistral Small 24B vs Qwen 2.5 14B vs Llama 3.1 8B : lequel lancer en local ?

Réponse rapide

Choisissez selon le VRAM : Llama 3.1 8B (4,9 Go), Qwen 2.5 14B (9,3 Go), Mistral Small 3.1 24B (14,4 Go). Qwen 14B gagne à 12 Go de VRAM. Mistral Small 24B gagne au-dessus de 16 Go sur les tâches de raisonnement.

  • Llama 3.1 8B Q4_K_M : 4,9 Go VRAM, ~45 tok/s sur RTX 4090, MMLU 66,6 % — meilleur choix pour cartes 6–8 Go
  • Qwen 2.5 14B Q4_K_M : 9,3 Go VRAM, ~28 tok/s, MMLU 74,8 % — point idéal pour cartes 12 Go
  • Mistral Small 3.1 24B Q4_K_M : 14,4 Go VRAM, ~20 tok/s, MMLU ~81 % — uniquement pour cartes 16 Go+

Mis à jour : 2026-05

Model Comparisons

Points clés

  • Llama 3.1 8B en Q4_K_M utilise 4,9 Go de VRAM et tourne à ~45 tok/s sur RTX 4090 — le seul modèle de ce groupe viable sur cartes 6 Go
  • Qwen 2.5 14B en Q4_K_M utilise 9,3 Go et obtient 74,8 % MMLU — le point idéal pour les cartes 12 Go comme la RTX 3060 12 Go ou la RTX 4060 Ti 16 Go
  • Mistral Small 3.1 24B en Q4_K_M utilise 14,4 Go et atteint ~81 % MMLU — faisable uniquement sur cartes 16 Go (RTX 4080, RTX 3090, RTX 4090)
  • Pour le coding sur 12 Go : Qwen 2.5 Coder 14B. Pour le raisonnement multilingue sur 16 Go+ : Mistral Small 3.1 24B. En dessous de 10 Go : Llama 3.1 8B.

Besoins en VRAM : quelle carte fait tourner quel modèle

Le choix entre ces trois modèles est avant tout une décision de VRAM. En quantification Q4_K_M : Llama 3.1 8B utilise 4,9 Go, Qwen 2.5 14B utilise 9,3 Go, et Mistral Small 3.1 24B utilise 14,4 Go. Cela correspond directement à trois tiers de GPU : cartes 6–8 Go (Llama 3.1 8B uniquement), cartes 10–12 Go (Qwen 2.5 14B), et cartes 16+ Go (Mistral Small 24B).

Vitesse sur RTX 4090 en Q4_K_M : Llama 3.1 8B tourne à environ 45 tok/s, Qwen 2.5 14B à ~28 tok/s, et Mistral Small 3.1 24B à ~20 tok/s. Sur une RTX 3060 12 Go, seuls Llama 3.1 8B et Qwen 2.5 14B rentrent — Mistral Small 24B nécessite au minimum une carte 16 Go pour éviter de déborder sur la RAM CPU.

L'écart de benchmark est significatif : le 81 % MMLU de Mistral Small 24B est 14 points au-dessus de Llama 3.1 8B et 6 points au-dessus de Qwen 2.5 14B. Sur des tâches complexes de raisonnement multi-étapes et de suivi d'instructions, cet écart est perceptible en pratique.

ModèleVRAM (Q4_K_M)Vitesse (RTX 4090)MMLUGPU minimum
Llama 3.1 8B4,9 Go~45 tok/s66,6 %RTX 3060 6 Go
Qwen 2.5 14B9,3 Go~28 tok/s74,8 %RTX 3060 12 Go
Mistral Small 3.1 24B14,4 Go~20 tok/s~81 %RTX 4080 16 Go

Qualité vs VRAM : quand chaque modèle gagne

Llama 3.1 8B gagne en efficacité VRAM. À 4,9 Go Q4_K_M, c'est le seul modèle de ce groupe qui tient sur une carte 6 Go avec de la marge pour une fenêtre de contexte de 4k tokens. Il obtient 66,6 % sur MMLU et délivre des réponses interactives rapides (~45 tok/s sur RTX 4090). Pour le chat, les requêtes de coding rapides et l'usage quotidien sur matériel contraint, c'est le bon choix.

Qwen 2.5 14B gagne à 12 Go de VRAM. Ses 74,8 % MMLU le placent bien au-dessus de Llama 3.1 8B sur le raisonnement et le coding — et il s'inscrit dans le tier GPU prosumer le plus courant. La variante Qwen Coder 14B (même taille, optimisée pour le code) obtient environ 78 % sur HumanEval. Si votre usage principal est le coding et que vous avez une carte 12 Go, Qwen 2.5 14B est la réponse.

Mistral Small 3.1 24B gagne en qualité quand le VRAM le permet. Ses 81 % MMLU et ses bonnes performances multilingues en font le premier choix pour les cartes 16 Go. Il gère le raisonnement long, les tâches de sortie structurée et les jeux d'instructions complexes plus fiablement que les modèles de classe 14B. Sur une RTX 4090 24 Go, il tient en Q5_K_M pour une qualité encore supérieure.

Pour une comparaison directe de la classe 14B, consultez la comparaison Qwen 14B vs Llama 8B, qui inclut le détail des benchmarks de coding.

Réponses rapides : Mistral Small 24B vs Qwen 14B vs Llama 8B

Mistral Small 24B peut-il fonctionner sur une RTX 3060 12 Go ?
Non. Mistral Small 3.1 24B en Q4_K_M nécessite 14,4 Go de VRAM, dépassant la RTX 3060 12 Go. Passer à Q2_K ramène le besoin à environ 7,6 Go mais cause une dégradation significative de la qualité. Pour la RTX 3060 12 Go, Qwen 2.5 14B Q4_K_M (9,3 Go) est le bon choix — il laisse 2,7 Go de marge pour le contexte.
Mistral Small 24B est-il meilleur que Qwen 2.5 14B pour le coding ?
Pour le coding général, Mistral Small 24B a un léger avantage grâce à sa taille supérieure. Cependant, Qwen 2.5 Coder 14B (la variante Qwen optimisée pour le code) est compétitif avec Mistral Small 24B sur HumanEval et tient dans 12 Go de VRAM. Si votre budget est une carte 16 Go et que vous avez besoin du raisonnement et du coding, Mistral Small 24B gagne. Sur 12 Go, Qwen Coder 14B est le meilleur compromis.
Quel modèle utiliser sur un GPU 16 Go comme la RTX 4080 ?
Mistral Small 3.1 24B Q4_K_M à 14,4 Go tient avec 1,6 Go de marge — suffisant pour une fenêtre de contexte de 2k. Il surpasse Qwen 2.5 14B sur les benchmarks de raisonnement. Alternativement, Qwen 2.5 32B en Q3_K_M tient dans environ 13,5 Go et concurrence Mistral Small 24B sur les tâches de coding tout en offrant plus de paramètres.
Comment Llama 3.1 8B se compare-t-il à Llama 3.2 ?
Llama 3.2 8B n'a pas été publié — la série 3.2 a introduit uniquement les variantes 1B, 3B et multimodales 11B/90B. Llama 3.1 8B reste le modèle de référence 8B Llama standard. Pour un usage texte uniquement à 6–8 Go de VRAM, Llama 3.1 8B est le choix recommandé actuel dans cette classe de taille.