Points clés
- Llama 3.1 70B en Q4 = 35 Go (trop grand pour 24 Go). En Q3 = 26 Go (toujours trop). En Q2 = 17 Go (convient!).
- Compromis : Q2 a une dégradation notable de qualité. ~70% de la qualité FP16.
- Vitesse : 3-5 tokens/sec avec 20 Go déchargé sur RAM système (ultra-lent).
- Meilleure option : utiliser un modèle 13B en Q5, ou acheter un GPU secondaire pour la division de couches.
- Depuis avril 2026, c'est une solution de contournement, pas une approche recommandée.
Les mathématiques théoriques du VRAM
Llama 3.1 70B à différentes quantifications :
| Quantification | Taille du modèle | Convient en 24 Go? |
|---|---|---|
| FP16 (baseline) | — | Non |
| Q8 (8-bit) | — | Non |
| Q5 (5-bit) | — | Non |
| Q4 (4-bit) | — | Non (avec déchargement : peut-être) |
| Q3 (3-bit) | — | Non (juste) |
| Q2 (2-bit) | — | Oui |
Quantification agressive : l'outil principal
Pour adapter 70B à 24 Go, vous devez utiliser la quantification Q2 ou Q3.
- Q3 : 26 Go (encore 2 Go de plus). Peut décharger 2 Go vers la RAM. Qualité légèrement meilleure que Q2.
- Q2 : 17.5 Go (convient!). 70% de qualité par rapport à FP16. Dégradation notable mais utilisable.
Téléchargez le modèle quantifié : `ollama pull llama3.1:70b-q2` (si disponible) ou utilisez des outils de conversion comme llama.cpp.
Déchargement vers la RAM système
Si vous utilisez Q4 (35 Go) sur un GPU 24 Go, vous pouvez décharger les 11 Go restants vers la RAM système. La pénalité de vitesse est sévère (10× plus lent).
Pratique uniquement pour le traitement par lot où vous pouvez attendre des heures.
Configuration pratique : exécuter 70B sur 24 Go
Étape par étape :
- 1Utilisez la quantification Q2 : `ollama pull llama3.1:70b-q2` (si disponible, sinon convertir avec llama.cpp)
- 2Vérifiez le VRAM : `nvidia-smi` devrait afficher ~18 Go utilisés
- 3Exécutez le modèle : `ollama run llama3.1:70b-q2`
- 4Attendez-vous à 3-5 tokens/sec (très lent)
- 5Utilisez uniquement pour le traitement par lot hors ligne, pas pour le chat interactif
Attentes réalistes de performance
Exécuter 70B sur 24 Go de VRAM est lent :
| Quantification | Vitesse | Latence | Cas d'usage |
|---|---|---|---|
| Q2 (24 Go VRAM) | 5-8 tok/sec | 2-4 sec par token | Traitement par lot uniquement |
| Q3 + déchargement (24 Go) | 3-5 tok/sec | 3-5 sec par token | Extrêmement limité |
| Q4 + déchargement (24 Go) | 1-3 tok/sec | 5-10 sec par token | Uniquement batch nocturne |
Meilleures alternatives à un 70B contraint
Au lieu de vous débattre avec un 70B avec VRAM limité, considérez :
- Utiliser un modèle 13B (Llama 3.1 13B en Q5 = 8 Go, très rapide)
- Acheter un GPU RTX 4090 secondaire pour la division de couches (2× 24 Go = 48 Go, 100+ tokens/sec)
- Utiliser une API cloud (GPT-4o pour les tâches importantes, local pour les expériences)
- Attendre des modèles plus efficaces (plus petit, même qualité)
Erreurs courantes avec un 70B contraint
- S'attendre à ce que Q2 soit utilisable pour le chat. Ce n'est pas le cas. La dégradation de qualité est trop grave pour l'interaction en temps réel.
- Ne pas mesurer la vitesse réelle à l'avance. Testez avec un petit prompt (10 tokens) et vérifiez la vitesse avant d'exécuter de grands travaux par lot.
- Supposer que le déchargement est "gratuit". La RAM système est 100× plus lente que le VRAM du GPU. Le déchargement rend l'inférence peu pratique.
- Ne pas considérer les alternatives. Un modèle 13B est dramatiquement plus rapide et souvent suffisant en qualité.
Questions fréquemment posées
Puis-je vraiment exécuter un modèle 70B sur une seule RTX 4090?
Oui, mais avec des réserves importantes. En quantification Q2 (17.5 Go), le modèle convient en 24 Go de VRAM mais fonctionne à 5-8 tokens/sec et a ~70% de la qualité FP16. En Q4 (35 Go), vous devez décharger 11 Go vers la RAM système, réduisant la vitesse à 1-3 tokens/sec. Aucun n'est adapté au chat en temps réel — seulement pour le traitement par lot hors ligne.
Quelle quantification est nécessaire pour adapter 70B à 24 Go de VRAM?
La quantification Q2 convient en 24 Go (taille du modèle 17.5 Go). Q3 (26 Go) nécessite 2 Go de déchargement RAM. Q4 (35 Go) nécessite 11 Go de déchargement et rend l'inférence très lente. Q5 et supérieur (44-70 Go) ne peuvent pas convenir même avec déchargement sur un GPU 24 Go. Q2 est la seule option qui fonctionne entièrement en VRAM.
Quelle est la lenteur d'un modèle 70B sur 24 Go de VRAM?
En Q2 (entièrement en VRAM) : 5-8 tokens/sec. En Q3 avec 2 Go de déchargement RAM : 3-5 tokens/sec. En Q4 avec 11 Go de déchargement RAM : 1-3 tokens/sec. Comparez avec un modèle 13B en Q5 sur le même GPU : 80-100 tokens/sec. La configuration 70B contrainte est 10-20× plus lente qu'un modèle plus petit correctement dimensionné.
Est-il préférable d'utiliser un modèle 13B plutôt qu'un 70B contraint?
Pour la plupart des tâches, oui. Un modèle 13B en quantification Q5 fonctionne à 80-100 tokens/sec sur une RTX 4090 et offre une qualité forte. Un modèle 70B en Q2 fonctionne à 5-8 tokens/sec avec une qualité réduite. Le 13B gagne en vitesse et souvent en qualité pratique due à la dégradation Q2. Utilisez 70B-sur-24 Go uniquement si vous avez besoin de capacités spécifiques au 70B et pouvez tolérer une utilisation par lot uniquement.
Sources
- Quantification llama.cpp -- github.com/ggerganov/llama.cpp/blob/master/gguf-py/gguf/quants.py
- Carte modèle : Llama 3.1 70B -- huggingface.co/meta-llama/Llama-3.1-70B