De combien de RAM a besoin un modèle 7B ?
Points clés
- ✓Un modèle 7B en Q4 nécessite 5–6 Go de VRAM — prévoyez 6 Go pour inclure la surcharge de la fenêtre de contexte
- ✓Règle rapide : nombre de paramètres en milliards × 0,7 = Go approximatifs nécessaires en Q4
- ✓Étendre la fenêtre de contexte à 16K tokens ajoute ~4 Go au-dessus du poids du modèle
La règle rapide pour CPU et GPU
En mai 2026, un modèle 7B en Q4 nécessite 5–6 Go de mémoire — soit de la RAM système (inférence CPU uniquement), soit de la VRAM (inférence GPU). La quantité est identique ; ce qui change, c'est la vitesse. L'inférence CPU tourne à ~5 tokens par seconde sur un processeur 8 cœurs moderne. L'inférence GPU atteint 20–25 tokens par seconde sur une carte avec suffisamment de VRAM.
En mode CPU uniquement, divisez la colonne de vitesse GPU par 5× pour estimer les performances sur un processeur 8 cœurs. Un modèle 7B en Q4 tourne à ~5 tok/s sur CPU, ~25 sur GPU. Cet écart de 5× explique pourquoi un GPU d'entrée de gamme vaut l'investissement pour une utilisation interactive.
| Taille du modèle | Mémoire Q4 | Vitesse GPU |
|---|---|---|
| 3B | ~2 Go | ~40 tok/s |
| 7B | ~5 Go | ~25 tok/s |
| 8B | ~5,5 Go | ~22 tok/s |
| 13B | ~9 Go | ~15 tok/s |
Quand choisir le CPU ou le GPU ?
Optez pour le CPU uniquement si vous disposez de 16+ Go de RAM système et que vos tâches sont par lot ou en arrière-plan (analyse de documents nocturne, résumés planifiés). La vitesse de ~5 tok/s est acceptable pour les travaux non interactifs et évite entièrement les coûts GPU.
Choisissez le GPU pour le chat interactif ou le coding. L'écart de vitesse de 5× est déterminant en temps réel. Même un RTX 3050 6 Go d'entrée de gamme offre ~22 tok/s sur Llama 3 8B Q4_K_M — suffisamment rapide pour un chat qui paraît instantané.
Pour la répartition complète de la VRAM par tier GPU, consultez combien de VRAM nécessite un LLM local. Pour la référence matérielle complète, consultez le guide VRAM complet pour LLMs locaux.
Guides associés
- ▸Mistral Small 24B vs Qwen 14B vs Llama 8B : comparaison -- Mistral Small 24B vs Qwen 14B vs Llama 8B comparison
- ▸Meilleur SSD pour chargement rapide de modèles -- best SSD for fast model loading
- ▸Peut-on exécuter RAG avec 2 Go de RAM ? -- can you run RAG on 2 GB RAM?
Réponses rapides sur la RAM des modèles 7B
8 Go de RAM système suffisent-ils pour faire tourner un modèle 7B sans GPU ?▾
De combien de VRAM Llama 3 8B a-t-il précisément besoin ?▾
Que se passe-t-il lorsqu'un modèle dépasse la VRAM disponible ?▾
--num-ctx 2048.