Points clés
En mai 2026, un modèle 7B en Q4 nécessite 5–6 Go de mémoire — soit de la RAM système (inférence CPU uniquement), soit de la VRAM (inférence GPU). La quantité est identique ; ce qui change, c'est la vitesse. L'inférence CPU tourne à ~5 tokens par seconde sur un processeur 8 cœurs moderne. L'inférence GPU atteint 20–25 tokens par seconde sur une carte avec suffisamment de VRAM.
En mode CPU uniquement, divisez la colonne de vitesse GPU par 5× pour estimer les performances sur un processeur 8 cœurs. Un modèle 7B en Q4 tourne à ~5 tok/s sur CPU, ~25 sur GPU. Cet écart de 5× explique pourquoi un GPU d'entrée de gamme vaut l'investissement pour une utilisation interactive.
| Taille du modèle | Mémoire Q4 | Vitesse GPU |
|---|---|---|
| 3B | ~2 Go | ~40 tok/s |
| 7B | ~5 Go | ~25 tok/s |
| 8B | ~5,5 Go | ~22 tok/s |
| 13B | ~9 Go | ~15 tok/s |
Optez pour le CPU uniquement si vous disposez de 16+ Go de RAM système et que vos tâches sont par lot ou en arrière-plan (analyse de documents nocturne, résumés planifiés). La vitesse de ~5 tok/s est acceptable pour les travaux non interactifs et évite entièrement les coûts GPU.
Choisissez le GPU pour le chat interactif ou le coding. L'écart de vitesse de 5× est déterminant en temps réel. Même un RTX 3050 6 Go d'entrée de gamme offre ~22 tok/s sur Llama 3 8B Q4_K_M — suffisamment rapide pour un chat qui paraît instantané.
Pour la répartition complète de la VRAM par tier GPU, consultez combien de VRAM nécessite un LLM local. Pour la référence matérielle complète, consultez le guide VRAM complet pour LLMs locaux.
--num-ctx 2048.