PromptQuorumPromptQuorum

De combien de RAM a besoin un modèle 7B ?

Quantization & VRAM

Points clés

  • Un modèle 7B en Q4 nécessite 5–6 Go de VRAM — prévoyez 6 Go pour inclure la surcharge de la fenêtre de contexte
  • Règle rapide : nombre de paramètres en milliards × 0,7 = Go approximatifs nécessaires en Q4
  • Étendre la fenêtre de contexte à 16K tokens ajoute ~4 Go au-dessus du poids du modèle

La règle rapide pour CPU et GPU

En mai 2026, un modèle 7B en Q4 nécessite 5–6 Go de mémoire — soit de la RAM système (inférence CPU uniquement), soit de la VRAM (inférence GPU). La quantité est identique ; ce qui change, c'est la vitesse. L'inférence CPU tourne à ~5 tokens par seconde sur un processeur 8 cœurs moderne. L'inférence GPU atteint 20–25 tokens par seconde sur une carte avec suffisamment de VRAM.

En mode CPU uniquement, divisez la colonne de vitesse GPU par 5× pour estimer les performances sur un processeur 8 cœurs. Un modèle 7B en Q4 tourne à ~5 tok/s sur CPU, ~25 sur GPU. Cet écart de 5× explique pourquoi un GPU d'entrée de gamme vaut l'investissement pour une utilisation interactive.

Taille du modèleMémoire Q4Vitesse GPU
3B~2 Go~40 tok/s
7B~5 Go~25 tok/s
8B~5,5 Go~22 tok/s
13B~9 Go~15 tok/s

Quand choisir le CPU ou le GPU ?

Optez pour le CPU uniquement si vous disposez de 16+ Go de RAM système et que vos tâches sont par lot ou en arrière-plan (analyse de documents nocturne, résumés planifiés). La vitesse de ~5 tok/s est acceptable pour les travaux non interactifs et évite entièrement les coûts GPU.

Choisissez le GPU pour le chat interactif ou le coding. L'écart de vitesse de 5× est déterminant en temps réel. Même un RTX 3050 6 Go d'entrée de gamme offre ~22 tok/s sur Llama 3 8B Q4_K_M — suffisamment rapide pour un chat qui paraît instantané.

Pour la répartition complète de la VRAM par tier GPU, consultez combien de VRAM nécessite un LLM local. Pour la référence matérielle complète, consultez le guide VRAM complet pour LLMs locaux.

Réponses rapides sur la RAM des modèles 7B

8 Go de RAM système suffisent-ils pour faire tourner un modèle 7B sans GPU ?
Oui. En mode CPU uniquement, un modèle 7B en Q4 utilise ~5–6 Go de RAM système et tourne à 3–6 tok/s sur un processeur 8 cœurs moderne. Consultez le guide VRAM pour les options accélérées par GPU.
De combien de VRAM Llama 3 8B a-t-il précisément besoin ?
~5,5 Go en Q4_K_M pour les poids du modèle. Ajoutez 0,5–1 Go pour une fenêtre de contexte de 4096 tokens. Prévoyez 6–7 Go au total pour éviter le débordement de VRAM.
Que se passe-t-il lorsqu'un modèle dépasse la VRAM disponible ?
Ollama décharge les couches vers la RAM système, 10–20× plus lente. Le modèle continue de fonctionner mais la vitesse de génération chute significativement. Pour l'éviter, réduisez la quantisation ou le contexte avec --num-ctx 2048.
L'inférence GPU est-elle toujours meilleure que le CPU ?
Pas pour tous les cas d'usage. Pour les tâches par lot, le traitement planifié ou l'utilisation non interactive, ~5 tok/s sur CPU est acceptable et évite les coûts GPU. Pour le chat en temps réel ou le coding, les 20–25 tok/s du GPU sont indispensables.