Skip to main content
PromptQuorumPromptQuorum

Meilleur LLM pour AMD 5700X + RTX 3070 Ti ?

Réponse rapide

Avec une RTX 3070 Ti (8 Go de VRAM), Llama 3 8B Q4_K_M et Mistral Small Q5_K_M sont les meilleurs LLMs locaux. Les deux utilisent ~6 Go de VRAM et tournent à ~22–25 tok/s. Le AMD Ryzen 7 5700X assure une tokenisation rapide en fallback CPU.

  • Llama 3 8B Q4_K_M : ~6 Go de VRAM, ~25 tok/s sur RTX 3070 Ti
  • Mistral Small Q5_K_M : ~6 Go de VRAM, excellent raisonnement par Go de VRAM
  • RTX 3070 Ti dispose de 8 Go de VRAM — les modèles 13B en Q4 peuvent ne pas tenir

Mis à jour : 2026-05

Hardware-Specific

Points clés

  • RTX 3070 Ti dispose de 8 Go de VRAM GDDR6 et 608 Go/s de bande passante — attendez ~25 tok/s sur les modèles 7B en Q4
  • Llama 3 8B Q4_K_M utilise ~6 Go de VRAM, laissant 2 Go de marge sur la RTX 3070 Ti
  • Mistral Small Q4_K_M utilise également ~6 Go de VRAM et offre une vitesse comparable
  • Les modèles 13B en Q4 dépassent 8 Go de VRAM et nécessitent Q3 ou moins pour fonctionner

Ce qui fonctionne bien sur cette configuration

À partir de mai 2026, la RTX 3070 Ti (8 Go de VRAM GDDR6X, 608 Go/s de bande passante) exécute complètement en VRAM Llama 3 8B Q4_K_M et Mistral Small Q5_K_M — environ 6 Go chacun — à ~22–25 tok/s. La classe 14B est la limite absolue : elle a besoin d'environ 10 Go, ce qui dépasse la limite de 8 Go.

Si un modèle 14B est requis, trois chemins existent : Q3_K_M réduit l'empreinte à ~7 Go et rentre entièrement en VRAM, mais dégrade la qualité de sortie sur les tâches de raisonnement et de code. Le déchargement partiel via llama.cpp (répartition de couches entre VRAM et RAM) est viable à ~8 tok/s — les 8 cœurs Zen 3 du 5700X gèrent cela mieux qu'un CPU 4-cœurs. L'exécution d'un modèle 70B en Q2_K est techniquement possible à ~1 tok/s mais pas pratique pour une utilisation interactive.

Si les modèles 14B de codage à qualité complète sont l'objectif, consultez le guide des meilleurs LLMs de codage pour 12 Go de VRAM pour le chemin de mise à niveau du matériel.

ModèleConfigurationVitesse
Llama 3 8B Q4_K_MEntièrement en VRAM~25 tok/s
Mistral Small Q5_K_MEntièrement en VRAM~22 tok/s
Qwen 14B Q3_K_MEntièrement en VRAM (serré)~14 tok/s (perte de qualité)
Qwen 14B Q4_K_MDéchargement partiel CPU~8 tok/s
Llama 3 70B Q2_KIntensive CPU~1 tok/s (lent)

Quand faire une mise à niveau ou rester

Cette configuration exécute les modèles 7B–8B à 20+ tok/s — suffisant pour le chat général, les scripts Python, les outils TypeScript et la révision de code d'un seul fichier. Si c'est votre charge de travail, il n'y a pas de raison impérieuse de faire une mise à niveau.

Si vous avez besoin de modèles 14B de codage sans perte de qualité ou de vitesse, c'est la GPU qui est la cible de mise à niveau — pas le CPU. Une RTX 3060 12 Go d'occasion (typiquement 200–300 EUR) ou RTX 4070 base (12 Go) déverrouille Qwen 3 Coder 14B en Q4 à débit complet. La 5800X3D est la meilleure mise à niveau CPU AM4, mais son avantage 3D V-Cache est spécifique aux jeux et aux charges de travail scientifiques liées au CPU — l'inférence LLM est limitée par la bande passante mémoire du GPU et le 5700X n'est pas le goulot d'étranglement ici.

Pour le guide complet de sélection GPU et comment la bande passante se traduit en vitesse d'inférence, consultez le guide des meilleures GPU pour LLMs locaux.

Réponses rapides sur les LLMs pour AMD 5700X + RTX 3070 Ti

Puis-je faire tourner un modèle 14B sur une RTX 3070 Ti 8 Go ?
Pas en Q4_K_M — les modèles 14B nécessitent environ 10 Go de VRAM, ce qui dépasse la limite de 8 Go. Q3_K_M (~7 Go) rentre, mais la qualité de sortie diminue notablement sur les tâches de raisonnement et de code. Le déchargement partiel via llama.cpp est possible à ~8 tok/s.
Dois-je mettre à niveau le GPU ou le CPU pour une meilleure performance LLM ?
Le GPU. La vitesse d'inférence LLM est limitée par la bande passante mémoire du GPU ; le 5700X n'est pas le goulot d'étranglement. Une mise à niveau vers une GPU 12 Go (RTX 3060 12 Go ou RTX 4070 base) déverrouille la classe modèle 14B à qualité Q4 complète et à vitesse maximale.
La vitesse de la RAM a-t-elle une importance pour le déchargement partiel CPU ?
Oui, comme facteur secondaire. DDR4-3600 vs. DDR4-2133 offre environ 15% plus de débit de déchargement CPU pour les couches résidant en RAM. Le GPU reste la contrainte primaire pour les couches qui tiennent en VRAM.
La 5800X3D vaut-elle le coup par rapport à la 5700X pour les LLMs ?
Non. Le 3D V-Cache de la 5800X3D aide les jeux et certaines charges de travail liées au CPU, mais l'inférence LLM est limitée par la bande passante mémoire du GPU. Le 5700X n'est pas le goulot d'étranglement sur cette configuration — investissez votre budget de mise à niveau dans une GPU 12 Go à la place.