Meilleur LLM pour AMD 5700X + RTX 3070 Ti ?
Réponse rapide
Avec une RTX 3070 Ti (8 Go de VRAM), Llama 3 8B Q4_K_M et Mistral Small Q5_K_M sont les meilleurs LLMs locaux. Les deux utilisent ~6 Go de VRAM et tournent à ~22–25 tok/s. Le AMD Ryzen 7 5700X assure une tokenisation rapide en fallback CPU.
- ▸Llama 3 8B Q4_K_M : ~6 Go de VRAM, ~25 tok/s sur RTX 3070 Ti
- ▸Mistral Small Q5_K_M : ~6 Go de VRAM, excellent raisonnement par Go de VRAM
- ▸RTX 3070 Ti dispose de 8 Go de VRAM — les modèles 13B en Q4 peuvent ne pas tenir
Mis à jour : 2026-05
Points clés
- ✓RTX 3070 Ti dispose de 8 Go de VRAM GDDR6 et 608 Go/s de bande passante — attendez ~25 tok/s sur les modèles 7B en Q4
- ✓Llama 3 8B Q4_K_M utilise ~6 Go de VRAM, laissant 2 Go de marge sur la RTX 3070 Ti
- ✓Mistral Small Q4_K_M utilise également ~6 Go de VRAM et offre une vitesse comparable
- ✓Les modèles 13B en Q4 dépassent 8 Go de VRAM et nécessitent Q3 ou moins pour fonctionner
Ce qui fonctionne bien sur cette configuration
À partir de mai 2026, la RTX 3070 Ti (8 Go de VRAM GDDR6X, 608 Go/s de bande passante) exécute complètement en VRAM Llama 3 8B Q4_K_M et Mistral Small Q5_K_M — environ 6 Go chacun — à ~22–25 tok/s. La classe 14B est la limite absolue : elle a besoin d'environ 10 Go, ce qui dépasse la limite de 8 Go.
Si un modèle 14B est requis, trois chemins existent : Q3_K_M réduit l'empreinte à ~7 Go et rentre entièrement en VRAM, mais dégrade la qualité de sortie sur les tâches de raisonnement et de code. Le déchargement partiel via llama.cpp (répartition de couches entre VRAM et RAM) est viable à ~8 tok/s — les 8 cœurs Zen 3 du 5700X gèrent cela mieux qu'un CPU 4-cœurs. L'exécution d'un modèle 70B en Q2_K est techniquement possible à ~1 tok/s mais pas pratique pour une utilisation interactive.
Si les modèles 14B de codage à qualité complète sont l'objectif, consultez le guide des meilleurs LLMs de codage pour 12 Go de VRAM pour le chemin de mise à niveau du matériel.
| Modèle | Configuration | Vitesse |
|---|---|---|
| Llama 3 8B Q4_K_M | Entièrement en VRAM | ~25 tok/s |
| Mistral Small Q5_K_M | Entièrement en VRAM | ~22 tok/s |
| Qwen 14B Q3_K_M | Entièrement en VRAM (serré) | ~14 tok/s (perte de qualité) |
| Qwen 14B Q4_K_M | Déchargement partiel CPU | ~8 tok/s |
| Llama 3 70B Q2_K | Intensive CPU | ~1 tok/s (lent) |
Quand faire une mise à niveau ou rester
Cette configuration exécute les modèles 7B–8B à 20+ tok/s — suffisant pour le chat général, les scripts Python, les outils TypeScript et la révision de code d'un seul fichier. Si c'est votre charge de travail, il n'y a pas de raison impérieuse de faire une mise à niveau.
Si vous avez besoin de modèles 14B de codage sans perte de qualité ou de vitesse, c'est la GPU qui est la cible de mise à niveau — pas le CPU. Une RTX 3060 12 Go d'occasion (typiquement 200–300 EUR) ou RTX 4070 base (12 Go) déverrouille Qwen 3 Coder 14B en Q4 à débit complet. La 5800X3D est la meilleure mise à niveau CPU AM4, mais son avantage 3D V-Cache est spécifique aux jeux et aux charges de travail scientifiques liées au CPU — l'inférence LLM est limitée par la bande passante mémoire du GPU et le 5700X n'est pas le goulot d'étranglement ici.
Pour le guide complet de sélection GPU et comment la bande passante se traduit en vitesse d'inférence, consultez le guide des meilleures GPU pour LLMs locaux.