PromptQuorumPromptQuorum

Meilleur LLM pour AMD 5700X + RTX 3070 Ti ?

Réponse rapide

Avec une RTX 3070 Ti (8 Go de VRAM), Llama 3 8B et Mistral 7B en Q4_K_M sont les meilleurs LLMs locaux. Les deux utilisent ~6 Go de VRAM et tournent à ~25 tok/s. Le AMD Ryzen 7 5700X assure une tokenisation rapide en fallback CPU.

  • Llama 3 8B Q4_K_M : ~6 Go de VRAM, ~25 tok/s sur RTX 3070 Ti
  • Mistral 7B Q4_K_M : ~6 Go de VRAM, excellent raisonnement par Go de VRAM
  • RTX 3070 Ti dispose de 8 Go de VRAM — les modèles 13B en Q4 peuvent ne pas tenir

Mis à jour : 2026-05

Hardware-Specific

Points clés

  • RTX 3070 Ti dispose de 8 Go de VRAM GDDR6 et 608 Go/s de bande passante — attendez ~25 tok/s sur les modèles 7B en Q4
  • Llama 3 8B Q4_K_M utilise ~6 Go de VRAM, laissant 2 Go de marge sur la RTX 3070 Ti
  • Mistral 7B Q4_K_M utilise également ~6 Go de VRAM et offre une vitesse comparable
  • Les modèles 13B en Q4 dépassent 8 Go de VRAM et nécessitent Q3 ou moins pour fonctionner

La limite VRAM de la RTX 3070 Ti définit le plafond des modèles

La RTX 3070 Ti dispose de 8 Go de VRAM GDDR6 et 608 Go/s de bande passante mémoire, ce qui délivre environ 25 tokens par seconde sur les modèles 7B en quantisation Q4_K_M. Cela positionne la 3070 Ti dans la plage optimale des modèles 7B–8B.

En Q4_K_M, Llama 3 8B utilise environ 6 Go de VRAM, laissant 2 Go libres pour le contexte et les données d'exécution. Mistral 7B à la même quantisation consomme une quantité similaire de 6 Go. Les deux fonctionnent sans déchargement de couches vers le CPU.

La classe 13B représente le plafond absolu. Llama 3 13B en Q4_K_M nécessite environ 8,5–9 Go de VRAM, dépassant la limite de 8 Go de la 3070 Ti. En passant à Q3_K_M (~7 Go), il rentre, mais la qualité de sortie se dégrade notablement par rapport à un modèle 7B natif en Q4.

ModèleVRAM en Q4_K_MVitesse sur RTX 3070 Ti
Llama 3 8B Q4_K_M~6 Go~25 tok/s
Mistral 7B Q4_K_M~6 Go~24 tok/s
Llama 3 13B Q4_K_M~9 GoNe rentre pas

Le rôle du AMD 5700X dans cette configuration

Le AMD Ryzen 7 5700X est un processeur Zen 3 à 8 cœurs qui gère la tokenisation et le prétraitement des prompts avant que le GPU prenne le relais pour la génération. La vitesse de tokenisation n'est pas un goulot d'étranglement pour les modèles 7B — le 5700X complète cette étape plus vite que le GPU ne génère des tokens.

Si vous devez exécuter un modèle 13B avec ce matériel, chargez-le via llama.cpp avec le déchargement de couches : conservez autant de couches que possible en VRAM et déversez le reste en RAM système. Attendez-vous à une vitesse de génération réduite à 5–8 tok/s en raison du goulot PCIe sur les couches résidant en RAM.

Pour le guide complet de sélection GPU et la correspondance entre bande passante et vitesse d'inférence, consultez le guide des meilleures GPU pour LLMs locaux.

Réponses rapides sur les LLMs pour AMD 5700X + RTX 3070 Ti

Puis-je faire tourner un modèle 13B sur une RTX 3070 Ti ?
Pas en Q4_K_M — les modèles 13B nécessitent 8,5–9 Go de VRAM, dépassant la limite de 8 Go. En Q3_K_M (~7 Go), c'est possible, mais la qualité diminue. Vous pouvez aussi utiliser le déchargement de couches avec llama.cpp pour répartir le modèle entre VRAM et RAM, à vitesse réduite.
Quelle est la meilleure quantisation pour la RTX 3070 Ti ?
Q4_K_M offre le meilleur équilibre qualité/VRAM pour les modèles 7B–8B. Elle préserve la plupart de la qualité tout en tenant confortablement dans 6 Go, laissant 2 Go pour le cache KV et le contexte. Q5_K_M offre une qualité légèrement supérieure mais utilise ~7 Go.
Le AMD 5700X affecte-t-il la vitesse d'inférence des LLMs ?
Marginalement. La tokenisation est négligeable pour les modèles 7B. Le goulot d'étranglement est la bande passante mémoire du GPU. Le 5700X est un CPU Zen 3 performant, mais son rôle dans l'inférence accélérée par GPU se limite au prétraitement et à l'orchestration.
Quelle commande Ollama lance Llama 3 8B sur une RTX 3070 Ti ?
ollama pull llama3:8b télécharge le modèle ; ollama run llama3:8b le lance. Ollama détecte automatiquement le GPU NVIDIA via CUDA et charge le modèle complet en VRAM.