Exécuter un modèle 70B (nécessite normalement 40+ Go) sur 24 Go de VRAM est possible avec une quantification agressive (Q2-Q3) et un déchargement de couches, mais le résultat est lent (~3-5 tokens/sec). Depuis avril 2026, c'est peu pratique pour le chat en temps réel, mais viable pour le traitement par lot ou les expériences.

Points clés

Llama 3.1 70B en Q4 = 35 Go (trop grand pour 24 Go). En Q3 = 26 Go (toujours trop). En Q2 = 17 Go (convient!).
Compromis : Q2 a une dégradation notable de qualité. ~70% de la qualité FP16.
Vitesse : 3-5 tokens/sec avec 20 Go déchargé sur RAM système (ultra-lent).
Meilleure option : utiliser un modèle 13B en Q5, ou acheter un GPU secondaire pour la division de couches.
Depuis avril 2026, c'est une solution de contournement, pas une approche recommandée.

Les mathématiques théoriques du VRAM

Llama 3.1 70B à différentes quantifications :

Quantification	Taille du modèle	Convient en 24 Go?
FP16 (baseline)	—	Non
Q8 (8-bit)	—	Non
Q5 (5-bit)	—	Non
Q4 (4-bit)	—	Non (avec déchargement : peut-être)
Q3 (3-bit)	—	Non (juste)
Q2 (2-bit)	—	Oui

Quantification agressive : l'outil principal

Pour adapter 70B à 24 Go, vous devez utiliser la quantification Q2 ou Q3.

- Q3 : 26 Go (encore 2 Go de plus). Peut décharger 2 Go vers la RAM. Qualité légèrement meilleure que Q2.

- Q2 : 17.5 Go (convient!). 70% de qualité par rapport à FP16. Dégradation notable mais utilisable.

Téléchargez le modèle quantifié : `ollama pull llama3.1:70b-q2` (si disponible) ou utilisez des outils de conversion comme llama.cpp.

Déchargement vers la RAM système

Si vous utilisez Q4 (35 Go) sur un GPU 24 Go, vous pouvez décharger les 11 Go restants vers la RAM système. La pénalité de vitesse est sévère (10× plus lent).

Pratique uniquement pour le traitement par lot où vous pouvez attendre des heures.

Configuration pratique : exécuter 70B sur 24 Go

Étape par étape :

1
Utilisez la quantification Q2 : `ollama pull llama3.1:70b-q2` (si disponible, sinon convertir avec llama.cpp)
2
Vérifiez le VRAM : `nvidia-smi` devrait afficher ~18 Go utilisés
3
Exécutez le modèle : `ollama run llama3.1:70b-q2`
4
Attendez-vous à 3-5 tokens/sec (très lent)
5
Utilisez uniquement pour le traitement par lot hors ligne, pas pour le chat interactif

Attentes réalistes de performance

Exécuter 70B sur 24 Go de VRAM est lent :

Quantification	Vitesse	Latence	Cas d'usage
Q2 (24 Go VRAM)	5-8 tok/sec	2-4 sec par token	Traitement par lot uniquement
Q3 + déchargement (24 Go)	3-5 tok/sec	3-5 sec par token	Extrêmement limité
Q4 + déchargement (24 Go)	1-3 tok/sec	5-10 sec par token	Uniquement batch nocturne

Meilleures alternatives à un 70B contraint

Au lieu de vous débattre avec un 70B avec VRAM limité, considérez :

Utiliser un modèle 13B (Llama 3.1 13B en Q5 = 8 Go, très rapide)
Acheter un GPU RTX 4090 secondaire pour la division de couches (2× 24 Go = 48 Go, 100+ tokens/sec)
Utiliser une API cloud (GPT-4o pour les tâches importantes, local pour les expériences)
Attendre des modèles plus efficaces (plus petit, même qualité)

Erreurs courantes avec un 70B contraint

S'attendre à ce que Q2 soit utilisable pour le chat. Ce n'est pas le cas. La dégradation de qualité est trop grave pour l'interaction en temps réel.
Ne pas mesurer la vitesse réelle à l'avance. Testez avec un petit prompt (10 tokens) et vérifiez la vitesse avant d'exécuter de grands travaux par lot.
Supposer que le déchargement est "gratuit". La RAM système est 100× plus lente que le VRAM du GPU. Le déchargement rend l'inférence peu pratique.
Ne pas considérer les alternatives. Un modèle 13B est dramatiquement plus rapide et souvent suffisant en qualité.

Questions fréquemment posées

Puis-je vraiment exécuter un modèle 70B sur une seule RTX 4090?

Oui, mais avec des réserves importantes. En quantification Q2 (17.5 Go), le modèle convient en 24 Go de VRAM mais fonctionne à 5-8 tokens/sec et a ~70% de la qualité FP16. En Q4 (35 Go), vous devez décharger 11 Go vers la RAM système, réduisant la vitesse à 1-3 tokens/sec. Aucun n'est adapté au chat en temps réel — seulement pour le traitement par lot hors ligne.

Quelle quantification est nécessaire pour adapter 70B à 24 Go de VRAM?

La quantification Q2 convient en 24 Go (taille du modèle 17.5 Go). Q3 (26 Go) nécessite 2 Go de déchargement RAM. Q4 (35 Go) nécessite 11 Go de déchargement et rend l'inférence très lente. Q5 et supérieur (44-70 Go) ne peuvent pas convenir même avec déchargement sur un GPU 24 Go. Q2 est la seule option qui fonctionne entièrement en VRAM.

Quelle est la lenteur d'un modèle 70B sur 24 Go de VRAM?

En Q2 (entièrement en VRAM) : 5-8 tokens/sec. En Q3 avec 2 Go de déchargement RAM : 3-5 tokens/sec. En Q4 avec 11 Go de déchargement RAM : 1-3 tokens/sec. Comparez avec un modèle 13B en Q5 sur le même GPU : 80-100 tokens/sec. La configuration 70B contrainte est 10-20× plus lente qu'un modèle plus petit correctement dimensionné.

Est-il préférable d'utiliser un modèle 13B plutôt qu'un 70B contraint?

Pour la plupart des tâches, oui. Un modèle 13B en quantification Q5 fonctionne à 80-100 tokens/sec sur une RTX 4090 et offre une qualité forte. Un modèle 70B en Q2 fonctionne à 5-8 tokens/sec avec une qualité réduite. Le 13B gagne en vitesse et souvent en qualité pratique due à la dégradation Q2. Utilisez 70B-sur-24 Go uniquement si vous avez besoin de capacités spécifiques au 70B et pouvez tolérer une utilisation par lot uniquement.

Sources

Quantification llama.cpp -- github.com/ggerganov/llama.cpp/blob/master/gguf-py/gguf/quants.py
Carte modèle : Llama 3.1 70B -- huggingface.co/meta-llama/Llama-3.1-70B

Exécuter des modèles 70B sur 24 Go de VRAM : Techniques avancées

Les mathématiques théoriques du VRAM

Quantification agressive : l'outil principal

Déchargement vers la RAM système

Configuration pratique : exécuter 70B sur 24 Go

Attentes réalistes de performance

Meilleures alternatives à un 70B contraint

Erreurs courantes avec un 70B contraint

Questions fréquemment posées

Puis-je vraiment exécuter un modèle 70B sur une seule RTX 4090?

Quelle quantification est nécessaire pour adapter 70B à 24 Go de VRAM?

Quelle est la lenteur d'un modèle 70B sur 24 Go de VRAM?

Est-il préférable d'utiliser un modèle 13B plutôt qu'un 70B contraint?

Sources

A Note on Third-Party Facts

Exécuter des modèles 70B sur 24 Go de VRAM : Techniques avancées

Les mathématiques théoriques du VRAM

Quantification agressive : l'outil principal

Déchargement vers la RAM système

Configuration pratique : exécuter 70B sur 24 Go

Attentes réalistes de performance

Meilleures alternatives à un 70B contraint

Erreurs courantes avec un 70B contraint

Questions fréquemment posées

Puis-je vraiment exécuter un modèle 70B sur une seule RTX 4090?

Quelle quantification est nécessaire pour adapter 70B à 24 Go de VRAM?

Quelle est la lenteur d'un modèle 70B sur 24 Go de VRAM?

Est-il préférable d'utiliser un modèle 13B plutôt qu'un 70B contraint?

Lectures connexes

Sources

A Note on Third-Party Facts