Skip to main content
PromptQuorumPromptQuorum
Accueil/LLMs locaux/Exécuter des modèles 70B sur 24 Go de VRAM : Techniques avancées
Hardware & Performance

Exécuter des modèles 70B sur 24 Go de VRAM : Techniques avancées

·10 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Exécuter un modèle 70B (nécessite normalement 40+ Go) sur 24 Go de VRAM est possible avec une quantification agressive (Q2-Q3) et un déchargement de couches, mais le résultat est lent (~3-5 tokens/sec).

Exécuter un modèle 70B (nécessite normalement 40+ Go) sur 24 Go de VRAM est possible avec une quantification agressive (Q2-Q3) et un déchargement de couches, mais le résultat est lent (~3-5 tokens/sec). Depuis avril 2026, c'est peu pratique pour le chat en temps réel, mais viable pour le traitement par lot ou les expériences.

Points clés

  • Llama 3.3 70B en Q4 = 35 Go (trop grand pour 24 Go). En Q3 = 26 Go (toujours trop). En Q2 = 17 Go (convient!).
  • Compromis : Q2 a une dégradation notable de qualité. ~70% de la qualité FP16.
  • Vitesse : 3-5 tokens/sec avec 20 Go déchargé sur RAM système (ultra-lent).
  • Meilleure option : utiliser un modèle 13B en Q5, ou acheter un GPU secondaire pour la division de couches.
  • Depuis avril 2026, c'est une solution de contournement, pas une approche recommandée.

Les mathématiques théoriques du VRAM

Llama 3.3 70B à différentes quantifications :

QuantificationTaille du modèleConvient en 24 Go?
FP16 (baseline)Non
Q8 (8-bit)Non
Q5 (5-bit)Non
Q4 (4-bit)Non (avec déchargement : peut-être)
Q3 (3-bit)Non (juste)
Q2 (2-bit)Oui

Quantification agressive : l'outil principal

Pour adapter 70B à 24 Go, vous devez utiliser la quantification Q2 ou Q3.

  • Q3 : 26 Go (encore 2 Go de plus). Peut décharger 2 Go vers la RAM. Qualité légèrement meilleure que Q2.
  • Q2 : 17.5 Go (convient!). 70% de qualité par rapport à FP16. Dégradation notable mais utilisable.

Téléchargez le modèle quantifié : `ollama pull llama3.1:70b-q2` (si disponible) ou utilisez des outils de conversion comme llama.cpp.

Déchargement vers la RAM système

Si vous utilisez Q4 (35 Go) sur un GPU 24 Go, vous pouvez décharger les 11 Go restants vers la RAM système. La pénalité de vitesse est sévère (10× plus lent).

Pratique uniquement pour le traitement par lot où vous pouvez attendre des heures.

Configuration pratique : exécuter 70B sur 24 Go

Étape par étape :

  1. 1
    Utilisez la quantification Q2 : `ollama pull llama3.1:70b-q2` (si disponible, sinon convertir avec llama.cpp)
  2. 2
    Vérifiez le VRAM : `nvidia-smi` devrait afficher ~18 Go utilisés
  3. 3
    Exécutez le modèle : `ollama run llama3.1:70b-q2`
  4. 4
    Attendez-vous à 3-5 tokens/sec (très lent)
  5. 5
    Utilisez uniquement pour le traitement par lot hors ligne, pas pour le chat interactif

Attentes réalistes de performance

Exécuter 70B sur 24 Go de VRAM est lent :

QuantificationVitesseLatenceCas d'usage
Q2 (24 Go VRAM)5-8 tok/sec2-4 sec par tokenTraitement par lot uniquement
Q3 + déchargement (24 Go)3-5 tok/sec3-5 sec par tokenExtrêmement limité
Q4 + déchargement (24 Go)1-3 tok/sec5-10 sec par tokenUniquement batch nocturne

Meilleures alternatives à un 70B contraint

Au lieu de vous débattre avec un 70B avec VRAM limité, considérez :

  • Utiliser un modèle 13B (Llama 3.3 13B en Q5 = 8 Go, très rapide)
  • Acheter un GPU RTX 4090 secondaire pour la division de couches (2× 24 Go = 48 Go, 100+ tokens/sec)
  • Utiliser une API cloud (GPT-5.5 pour les tâches importantes, local pour les expériences)
  • Attendre des modèles plus efficaces (plus petit, même qualité)

Erreurs courantes avec un 70B contraint

  • S'attendre à ce que Q2 soit utilisable pour le chat. Ce n'est pas le cas. La dégradation de qualité est trop grave pour l'interaction en temps réel.
  • Ne pas mesurer la vitesse réelle à l'avance. Testez avec un petit prompt (10 tokens) et vérifiez la vitesse avant d'exécuter de grands travaux par lot.
  • Supposer que le déchargement est "gratuit". La RAM système est 100× plus lente que le VRAM du GPU. Le déchargement rend l'inférence peu pratique.
  • Ne pas considérer les alternatives. Un modèle 13B est dramatiquement plus rapide et souvent suffisant en qualité.

Questions fréquemment posées

Puis-je vraiment exécuter un modèle 70B sur une seule RTX 4090?

Oui, mais avec des réserves importantes. En quantification Q2 (17.5 Go), le modèle convient en 24 Go de VRAM mais fonctionne à 5-8 tokens/sec et a ~70% de la qualité FP16. En Q4 (35 Go), vous devez décharger 11 Go vers la RAM système, réduisant la vitesse à 1-3 tokens/sec. Aucun n'est adapté au chat en temps réel — seulement pour le traitement par lot hors ligne.

Quelle quantification est nécessaire pour adapter 70B à 24 Go de VRAM?

La quantification Q2 convient en 24 Go (taille du modèle 17.5 Go). Q3 (26 Go) nécessite 2 Go de déchargement RAM. Q4 (35 Go) nécessite 11 Go de déchargement et rend l'inférence très lente. Q5 et supérieur (44-70 Go) ne peuvent pas convenir même avec déchargement sur un GPU 24 Go. Q2 est la seule option qui fonctionne entièrement en VRAM.

Quelle est la lenteur d'un modèle 70B sur 24 Go de VRAM?

En Q2 (entièrement en VRAM) : 5-8 tokens/sec. En Q3 avec 2 Go de déchargement RAM : 3-5 tokens/sec. En Q4 avec 11 Go de déchargement RAM : 1-3 tokens/sec. Comparez avec un modèle 13B en Q5 sur le même GPU : 80-100 tokens/sec. La configuration 70B contrainte est 10-20× plus lente qu'un modèle plus petit correctement dimensionné.

Est-il préférable d'utiliser un modèle 13B plutôt qu'un 70B contraint?

Pour la plupart des tâches, oui. Un modèle 13B en quantification Q5 fonctionne à 80-100 tokens/sec sur une RTX 4090 et offre une qualité forte. Un modèle 70B en Q2 fonctionne à 5-8 tokens/sec avec une qualité réduite. Le 13B gagne en vitesse et souvent en qualité pratique due à la dégradation Q2. Utilisez 70B-sur-24 Go uniquement si vous avez besoin de capacités spécifiques au 70B et pouvez tolérer une utilisation par lot uniquement.

Sources

  • Quantification llama.cpp -- github.com/ggerganov/llama.cpp/blob/master/gguf-py/gguf/quants.py
  • Carte modèle : Llama 3.3 70B -- huggingface.co/meta-llama/Llama-3.1-70B

Note sur les faits tiers

Cet article fait référence à des modèles d’IA, des benchmarks, des prix et des licences de tiers. Le paysage de l’IA évolue rapidement. Les scores de benchmark, les conditions de licence, les noms de modèles et les prix des API peuvent changer entre le moment de la rédaction et le moment où vous lisez ceci. Avant de prendre des décisions de déploiement ou de conformité basées sur cet article, vérifiez les chiffres actuels auprès de la source officielle de chaque fournisseur : fiches de modèles Hugging Face pour les licences et benchmarks, sites web des fournisseurs pour les prix API, et EUR-Lex pour les textes RGPD et AI Act actuels. Cet article reflète les informations publiques disponibles en mai 2026.

Utilisez PromptQuorum avec un LLM local, vos propres clés API, ou les deux — vous choisissez le backend.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux