PromptQuorumPromptQuorum
Accueil/LLMs locaux/Exécuter des modèles 70B sur 24 Go de VRAM : Techniques avancées
Hardware & Performance

Exécuter des modèles 70B sur 24 Go de VRAM : Techniques avancées

·10 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Exécuter un modèle 70B (nécessite normalement 40+ Go) sur 24 Go de VRAM est possible avec une quantification agressive (Q2-Q3) et un déchargement de couches, mais le résultat est lent (~3-5 tokens/sec).

Exécuter un modèle 70B (nécessite normalement 40+ Go) sur 24 Go de VRAM est possible avec une quantification agressive (Q2-Q3) et un déchargement de couches, mais le résultat est lent (~3-5 tokens/sec). Depuis avril 2026, c'est peu pratique pour le chat en temps réel, mais viable pour le traitement par lot ou les expériences.

Points clés

  • Llama 3.1 70B en Q4 = 35 Go (trop grand pour 24 Go). En Q3 = 26 Go (toujours trop). En Q2 = 17 Go (convient!).
  • Compromis : Q2 a une dégradation notable de qualité. ~70% de la qualité FP16.
  • Vitesse : 3-5 tokens/sec avec 20 Go déchargé sur RAM système (ultra-lent).
  • Meilleure option : utiliser un modèle 13B en Q5, ou acheter un GPU secondaire pour la division de couches.
  • Depuis avril 2026, c'est une solution de contournement, pas une approche recommandée.

Les mathématiques théoriques du VRAM

Llama 3.1 70B à différentes quantifications :

QuantificationTaille du modèleConvient en 24 Go?
FP16 (baseline)Non
Q8 (8-bit)Non
Q5 (5-bit)Non
Q4 (4-bit)Non (avec déchargement : peut-être)
Q3 (3-bit)Non (juste)
Q2 (2-bit)Oui

Quantification agressive : l'outil principal

Pour adapter 70B à 24 Go, vous devez utiliser la quantification Q2 ou Q3.

- Q3 : 26 Go (encore 2 Go de plus). Peut décharger 2 Go vers la RAM. Qualité légèrement meilleure que Q2.

- Q2 : 17.5 Go (convient!). 70% de qualité par rapport à FP16. Dégradation notable mais utilisable.

Téléchargez le modèle quantifié : `ollama pull llama3.1:70b-q2` (si disponible) ou utilisez des outils de conversion comme llama.cpp.

Déchargement vers la RAM système

Si vous utilisez Q4 (35 Go) sur un GPU 24 Go, vous pouvez décharger les 11 Go restants vers la RAM système. La pénalité de vitesse est sévère (10× plus lent).

Pratique uniquement pour le traitement par lot où vous pouvez attendre des heures.

Configuration pratique : exécuter 70B sur 24 Go

Étape par étape :

  1. 1
    Utilisez la quantification Q2 : `ollama pull llama3.1:70b-q2` (si disponible, sinon convertir avec llama.cpp)
  2. 2
    Vérifiez le VRAM : `nvidia-smi` devrait afficher ~18 Go utilisés
  3. 3
    Exécutez le modèle : `ollama run llama3.1:70b-q2`
  4. 4
    Attendez-vous à 3-5 tokens/sec (très lent)
  5. 5
    Utilisez uniquement pour le traitement par lot hors ligne, pas pour le chat interactif

Attentes réalistes de performance

Exécuter 70B sur 24 Go de VRAM est lent :

QuantificationVitesseLatenceCas d'usage
Q2 (24 Go VRAM)5-8 tok/sec2-4 sec par tokenTraitement par lot uniquement
Q3 + déchargement (24 Go)3-5 tok/sec3-5 sec par tokenExtrêmement limité
Q4 + déchargement (24 Go)1-3 tok/sec5-10 sec par tokenUniquement batch nocturne

Meilleures alternatives à un 70B contraint

Au lieu de vous débattre avec un 70B avec VRAM limité, considérez :

  • Utiliser un modèle 13B (Llama 3.1 13B en Q5 = 8 Go, très rapide)
  • Acheter un GPU RTX 4090 secondaire pour la division de couches (2× 24 Go = 48 Go, 100+ tokens/sec)
  • Utiliser une API cloud (GPT-4o pour les tâches importantes, local pour les expériences)
  • Attendre des modèles plus efficaces (plus petit, même qualité)

Erreurs courantes avec un 70B contraint

  • S'attendre à ce que Q2 soit utilisable pour le chat. Ce n'est pas le cas. La dégradation de qualité est trop grave pour l'interaction en temps réel.
  • Ne pas mesurer la vitesse réelle à l'avance. Testez avec un petit prompt (10 tokens) et vérifiez la vitesse avant d'exécuter de grands travaux par lot.
  • Supposer que le déchargement est "gratuit". La RAM système est 100× plus lente que le VRAM du GPU. Le déchargement rend l'inférence peu pratique.
  • Ne pas considérer les alternatives. Un modèle 13B est dramatiquement plus rapide et souvent suffisant en qualité.

Questions fréquemment posées

Puis-je vraiment exécuter un modèle 70B sur une seule RTX 4090?

Oui, mais avec des réserves importantes. En quantification Q2 (17.5 Go), le modèle convient en 24 Go de VRAM mais fonctionne à 5-8 tokens/sec et a ~70% de la qualité FP16. En Q4 (35 Go), vous devez décharger 11 Go vers la RAM système, réduisant la vitesse à 1-3 tokens/sec. Aucun n'est adapté au chat en temps réel — seulement pour le traitement par lot hors ligne.

Quelle quantification est nécessaire pour adapter 70B à 24 Go de VRAM?

La quantification Q2 convient en 24 Go (taille du modèle 17.5 Go). Q3 (26 Go) nécessite 2 Go de déchargement RAM. Q4 (35 Go) nécessite 11 Go de déchargement et rend l'inférence très lente. Q5 et supérieur (44-70 Go) ne peuvent pas convenir même avec déchargement sur un GPU 24 Go. Q2 est la seule option qui fonctionne entièrement en VRAM.

Quelle est la lenteur d'un modèle 70B sur 24 Go de VRAM?

En Q2 (entièrement en VRAM) : 5-8 tokens/sec. En Q3 avec 2 Go de déchargement RAM : 3-5 tokens/sec. En Q4 avec 11 Go de déchargement RAM : 1-3 tokens/sec. Comparez avec un modèle 13B en Q5 sur le même GPU : 80-100 tokens/sec. La configuration 70B contrainte est 10-20× plus lente qu'un modèle plus petit correctement dimensionné.

Est-il préférable d'utiliser un modèle 13B plutôt qu'un 70B contraint?

Pour la plupart des tâches, oui. Un modèle 13B en quantification Q5 fonctionne à 80-100 tokens/sec sur une RTX 4090 et offre une qualité forte. Un modèle 70B en Q2 fonctionne à 5-8 tokens/sec avec une qualité réduite. Le 13B gagne en vitesse et souvent en qualité pratique due à la dégradation Q2. Utilisez 70B-sur-24 Go uniquement si vous avez besoin de capacités spécifiques au 70B et pouvez tolérer une utilisation par lot uniquement.

Sources

  • Quantification llama.cpp -- github.com/ggerganov/llama.cpp/blob/master/gguf-py/gguf/quants.py
  • Carte modèle : Llama 3.1 70B -- huggingface.co/meta-llama/Llama-3.1-70B

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Exécuter des modèles 70B sur 24 Go de VRAM : Guide complet 2026