Réponse rapide
Avec une RTX 3070 Ti (8 Go de VRAM), Llama 3 8B et Mistral 7B en Q4_K_M sont les meilleurs LLMs locaux. Les deux utilisent ~6 Go de VRAM et tournent à ~25 tok/s. Le AMD Ryzen 7 5700X assure une tokenisation rapide en fallback CPU.
Mis à jour : 2026-05
Points clés
La RTX 3070 Ti dispose de 8 Go de VRAM GDDR6 et 608 Go/s de bande passante mémoire, ce qui délivre environ 25 tokens par seconde sur les modèles 7B en quantisation Q4_K_M. Cela positionne la 3070 Ti dans la plage optimale des modèles 7B–8B.
En Q4_K_M, Llama 3 8B utilise environ 6 Go de VRAM, laissant 2 Go libres pour le contexte et les données d'exécution. Mistral 7B à la même quantisation consomme une quantité similaire de 6 Go. Les deux fonctionnent sans déchargement de couches vers le CPU.
La classe 13B représente le plafond absolu. Llama 3 13B en Q4_K_M nécessite environ 8,5–9 Go de VRAM, dépassant la limite de 8 Go de la 3070 Ti. En passant à Q3_K_M (~7 Go), il rentre, mais la qualité de sortie se dégrade notablement par rapport à un modèle 7B natif en Q4.
| Modèle | VRAM en Q4_K_M | Vitesse sur RTX 3070 Ti |
|---|---|---|
| Llama 3 8B Q4_K_M | ~6 Go | ~25 tok/s |
| Mistral 7B Q4_K_M | ~6 Go | ~24 tok/s |
| Llama 3 13B Q4_K_M | ~9 Go | Ne rentre pas |
Le AMD Ryzen 7 5700X est un processeur Zen 3 à 8 cœurs qui gère la tokenisation et le prétraitement des prompts avant que le GPU prenne le relais pour la génération. La vitesse de tokenisation n'est pas un goulot d'étranglement pour les modèles 7B — le 5700X complète cette étape plus vite que le GPU ne génère des tokens.
Si vous devez exécuter un modèle 13B avec ce matériel, chargez-le via llama.cpp avec le déchargement de couches : conservez autant de couches que possible en VRAM et déversez le reste en RAM système. Attendez-vous à une vitesse de génération réduite à 5–8 tok/s en raison du goulot PCIe sur les couches résidant en RAM.
Pour le guide complet de sélection GPU et la correspondance entre bande passante et vitesse d'inférence, consultez le guide des meilleures GPU pour LLMs locaux.
ollama pull llama3:8b télécharge le modèle ; ollama run llama3:8b le lance. Ollama détecte automatiquement le GPU NVIDIA via CUDA et charge le modèle complet en VRAM.