PromptQuorumPromptQuorum
Accueil/LLMs locaux/Guide Matériel Local LLM 2026: GPU, CPU et RAM Expliqués
Hardware & Performance

Guide Matériel Local LLM 2026: GPU, CPU et RAM Expliqués

·13 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Exécuter des LLM locaux nécessite de comprendre trois composants: GPU (facultatif mais recommandé), CPU et RAM. En avril 2026, un modèle 7B à paramètres a besoin d'un minimum de 8 GB de RAM, tandis qu'un modèle 70B a besoin de 40+ GB. Ce guide couvre les recommandations matérielles réelles pour RTX 5090, 4090, Apple Silicon et les builds économiques, ainsi que les mathématiques VRAM pour calculer les exigences pour n'importe quelle taille de modèle.

Présentation: Guide Matériel Local LLM 2026: GPU, CPU et RAM Expliqués

La présentation couvre : les niveaux GPU VRAM pour 12/16/24 Go, les meilleurs modèles par niveau avec utilisation VRAM et benchmarks, l'inférence CPU seul sur 16 Go RAM, et les paramètres llama.cpp pour RTX 4070 Ti. Téléchargez le PDF comme fiche de référence matériel LLM 2026.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • Mathématiques VRAM: (Taille modèle en GB) ÷ Quantisation = VRAM nécessaire. Exemple: modèle 70B à 4 bits = 70 ÷ 8 = 8,75 GB.
  • 12 GB VRAM (RTX 4070 Ti): Meilleur: Llama 4 Scout 17B Q4_K_M (~10 GB, MoE, meilleure qualité globale). Aussi: Llama 3.1 8B Q8 (~9 GB, 80 tok/s).
  • 16 GB VRAM (RTX 4080 / RTX 5080): Meilleur: Mistral Small 3.1 24B Q4_K_M (~13 GB, 55 tok/s). Pour agentic coding: Devstral Small 24B Q4_K_M.
  • 24 GB VRAM (RTX 4090): Les modèles 70B ne rentrent pas à Q4. Meilleure option: Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) ou DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/s).
  • Apple M5 Max (128 GB unifié): Premier Mac à exécuter des modèles 70B à Q4_K_M – comparable aux 2× RTX 4090 desktop dans un portable ou Mac Studio.
  • Budget: RTX 4070 Ti meilleur rapport qualité-prix (~650-750 €, gère 7-14B). RTX 4090 pour tout modèle mono-GPU (~2000-2400 €).

Comment calculer les exigences VRAM?

Les exigences VRAM dépendent de trois facteurs: taille du modèle (paramètres), quantisation (bits par poids) et mode d'inférence.

Formule:

``` VRAM (GB) = (Taille modèle × Bits quantisation) ÷ 8 ```

Valeurs quantisation: FP16 = 16 bits, Q8 = 8 bits, Q5 = 5 bits, Q4 = 4 bits.

ModèleFP16 (meilleure qualité)Q8 (excellent)Q5 (bon)Q4 (bon, plus petit)
Llama 4 Scout 17B (MoE)34 GB17 GB10,6 GB8,5 GB
Qwen3 8B16 GB8 GB5 GB4 GB
Qwen 3.6 27B54 GB27 GB16,9 GB13,5 GB
Llama 3.1 70B140 GB70 GB43,75 GB35 GB
Calculateur VRAM montrant la formule (Taille modèle × Bits) ÷ 8, avec exemples: Llama 4 Scout 17B Q4 = 8,5 GB, Qwen 3.6 27B Q4 = 13,5 GB, 70B Q4 = 35 GB. Q4 est le sweet spot recommandé pour la plupart des matériels.
Calculateur VRAM montrant la formule (Taille modèle × Bits) ÷ 8, avec exemples: Llama 4 Scout 17B Q4 = 8,5 GB, Qwen 3.6 27B Q4 = 13,5 GB, 70B Q4 = 35 GB. Q4 est le sweet spot recommandé pour la plupart des matériels.

Quelle GPU acheter?

En avril 2026, NVIDIA domine les performances local LLM. Voici les recommandations par tier:

Le matériel détermine quels modèles vous pouvez exécuter ; le prompt engineering détermine à quel point ils performent. Un prompt bien structuré sur un modèle 7B surpasse souvent un prompt mal conçu sur un modèle 70B. Consultez le guide complet de prompt engineering pour des techniques qui maximisent la qualité des sorties quelle que soit la taille du modèle.

TierGPUVRAMMeilleur pourPerformance
Budget (600 €)RTX 4070 Ti / RTX 507012 GBModèles 7-13BRapide (80 tokens/sec)
Mid (1200 €)RTX 4080 / RTX 508016 GBModèles 13-30BTrès rapide (120 tokens/sec)
High (2310 €)RTX 4090 / RTX 509024 GBN'importe quel modèle 70BExtrêmement rapide (150 tokens/sec)
Serveur (3000+ €)RTX 6000 Ada / A10048+ GBMulti-utilisateurs, 70B+Grade production
Recommandations tier GPU: 600 € RTX 4070 Ti (12GB, modèles 7-13B), 1200 € RTX 4080 (16GB, 13-30B), 2310 € RTX 4090 (24GB, tout modèle 70B), 3000+ € GPUs serveur pour production. Le choix GPU importe 10× plus que CPU.
Recommandations tier GPU: 600 € RTX 4070 Ti (12GB, modèles 7-13B), 1200 € RTX 4080 (16GB, 13-30B), 2310 € RTX 4090 (24GB, tout modèle 70B), 3000+ € GPUs serveur pour production. Le choix GPU importe 10× plus que CPU.

Quel CPU et RAM faut-il?

Avec GPU, CPU et RAM sont secondaires. Le GPU fait le gros du travail; CPU/RAM gèrent la préparation du contexte.

CPU minimum: processeur 8-core (Intel i7 12ème gén, AMD Ryzen 7 7700X ou plus récent). Les anciens CPU ajoutent 20%+ de latence.

RAM: 16 GB minimum (avec GPU). Sans GPU, 32+ GB sont recommandés. La RAM ne limite pas directement la taille du modèle si GPU est présent.

Stockage: 500 GB SSD pour fichiers modèles et système d'exploitation. M.2 NVMe est préféré (chargement modèles plus rapide).

Quel stockage faut-il?

Les fichiers modèles sont volumineux. Un modèle 7B à 4 bits quantisation est 4-5 GB. Planifiez en conséquence:

  • 500 GB SSD: OS + 1-2 petits modèles (3B, 7B)
  • 1 TB SSD: OS + 3-5 modèles (mélange 7B et 13B)
  • 2 TB SSD: OS + 10+ modèles (tailles variées)
  • 4 TB NVMe RAID: Setup production, chargement modèles rapide

Recommandations builds économiques

Construire une machine local LLM from scratch:

BudgetGPUCPURAMModèlesCoût
1500 € (entrée)RTX 4070 Tii7 1370016 GB7-13BRéaliste
2500 € (solide)RTX 4080i7 14700K32 GB13-30BRecommandé
4000 € (haut de gamme)2× RTX 4090Ryzen 9 7950X128 GBTous (70B+)Excessif pour personnel
Trois configurations build: 1500 € niveau entrée (RTX 4070 Ti, i7 13700, 16GB) pour modèles 7-13B, 2500 € build solide (RTX 4080, i7 14700K, 32GB) pour 13-30B, 4000 € haut de gamme (2× RTX 4090, Ryzen 9, 128GB) pour tout modèle. Niveau mid offre meilleur rapport qualité-prix.
Trois configurations build: 1500 € niveau entrée (RTX 4070 Ti, i7 13700, 16GB) pour modèles 7-13B, 2500 € build solide (RTX 4080, i7 14700K, 32GB) pour 13-30B, 4000 € haut de gamme (2× RTX 4090, Ryzen 9, 128GB) pour tout modèle. Niveau mid offre meilleur rapport qualité-prix.

Et si vous ne pouvez pas vous permettre le matériel ?

Si une GPU de 250–400 € dépasse votre budget, ou si votre ordinateur portable est trop ancien pour les moteurs d'inférence modernes, les LLMs locaux pourraient ne pas être rentables pour vous en 2026.

Calculez le vrai coût:

- Local: 800–2 000 € matériel initial + électricité + maintenance sur 2–3 ans

- Cloud: 5–50 €/mois pour usage développeur typique (Llama API ou GPT-4o mini)

Pour utilisateurs légers (< 100 000 tokens/mois), cloud API coûte 5–10 €/mois sans matériel. Pour utilisateurs lourds (> 10 M tokens/mois), local rentable en 6–12 mois.

Comparez le compromis complet local vs cloud sur coût et performance** pour trouver votre point de rupture. Beaucoup de développeurs découvrent que cloud coûte moins cher pour leur usage réel.

Déjà en train de chercher en dessous des paliers de VRAM recommandés ? Pour savoir quelles combinaisons modèle + appli tournent vraiment sur 8 Go ou moins, voir Meilleure application IA locale pour un PC d'entrée de gamme.

Matériel Mac pour local LLMs

Apple Silicon (M-série) exécute les LLMs locaux efficacement avec mémoire unifiée partagée entre CPU et GPU. M5, lancé depuis octobre 2025, est une avancée majeure pour l'inférence locale. Apple revendique un traitement 4× plus rapide des prompts LLM par rapport à M4.

Le M5 Max avec 128 GB de mémoire unifiée est le premier chip Apple Silicon qui exécute confortablement les modèles 70B à Q4_K_M – comparable aux 2× RTX 4090 desktop mais dans un format laptop ou Mac Studio. Le M5 Pro avec 64 GB de mémoire unifiée gère les modèles 32B avec ample espace pour KV-cache et multitâche.

MacMémoire GPUMeilleur pourLimitation
M3 MacBook Pro 16"18 GB unifiedModèles 7B (rapide)Peut exécuter 13B lentement
M4 Max48-96 GB unifiedModèles 13-30BNon optimisé pour 70B
M5 Pro (MacBook Pro)64 GB unified, 307 GB/sModèles 30B confortablementLlama 4 Scout fonctionne bien
M5 Max (MacBook Pro / Studio)128 GB unified, 460-614 GB/sModèles 70B à Q4_K_MPremier Mac pour 70B
Comparaison matériel Mac: M3 MacBook Pro 16" (18GB, 7B), M4 Max (48-96GB, 13-30B), M5 Pro (64GB, 30B), M5 Max (128GB, 70B à Q4_K_M). M5 Max premier Mac pour exécuter modèles 70B comparable aux 2× RTX 4090 desktop.
Comparaison matériel Mac: M3 MacBook Pro 16" (18GB, 7B), M4 Max (48-96GB, 13-30B), M5 Pro (64GB, 30B), M5 Max (128GB, 70B à Q4_K_M). M5 Max premier Mac pour exécuter modèles 70B comparable aux 2× RTX 4090 desktop.

Matériel serveur vs. matériel consommateur

Pour déploiement production, matériel serveur recommandé:

  • Consommateur (RTX 4090): ~2310 €, 24 GB VRAM, mono-utilisateur, prone à l'étranglement thermique sous charge soutenue.
  • Serveur (RTX 6000 Ada): ~5000 €, 48 GB VRAM, conçu pour utilisation 24/7, meilleure refroidissement, correction d'erreur.
  • Recommandation: Commencez avec RTX 4090. Si exécution modèles 70B 24/7 pour utilisateurs multiples, augmenter vers dual A100 ou RTX 6000.
Matériel consommateur vs. serveur: RTX 4090 (2310 €, 24GB, mono-utilisateur, mi-temps) vs. RTX 6000 Ada (5000+ €, 48GB, multi-utilisateurs, fonctionnement 24/7). Commencez matériel consommateur; augmentez matériel serveur seulement si exécution services production.
Matériel consommateur vs. serveur: RTX 4090 (2310 €, 24GB, mono-utilisateur, mi-temps) vs. RTX 6000 Ada (5000+ €, 48GB, multi-utilisateurs, fonctionnement 24/7). Commencez matériel consommateur; augmentez matériel serveur seulement si exécution services production.

Erreurs courantes dans la planification matériel

  • Acheter CPU-uniquement quand GPU est disponible. Une RTX 4070 Ti à 600 € surpassera une CPU à 2000 €. GPU domine la vitesse LLM.
  • Ne pas compter l'overhead VRAM. Taille fichier modèle + overhead système + contexte = VRAM total utilisé. Toujours acheter 25% plus que taille modèle.
  • Supposer tous modèles 70B tiennent en 40GB VRAM. Ils le font, à peine, quantisation Q4 uniquement. Q5 demande 45+ GB.
  • Ignorer alimenté et refroidissement. RTX 4090 consomme 575W. Besoin PSU 1200W et bon débit air boîtier.
  • Penser que vieille GPU fonctionnera. RTX 2080 est 10× plus lent que RTX 4070 Ti. Architecture GPU moderne importe énormément.

Questions courantes sur matériel local LLM

Puis-je exécuter un modèle 70B sur laptop?

Seulement avec quantisation lourde (Q2, 2-bit) et fallback CPU. Impratique. Laptops conviennent pour modèles 7B. Pour 70B, utilisez desktop avec RTX 4090+.

RTX 4090 est-elle excessive pour usage personnel?

Non si vous exécutez modèles 70B ou multiples modèles simultanément. Pour juste chat 7B, RTX 4070 Ti suffit. RTX 4090 est à l'épreuve du temps si vous voulez flexibilité.

Dois-je acheter RTX 5090 ou attendre RTX 6090?

RTX 5090 est disponible (début 2026). GPUs serveur RTX 6000 Ada sont aussi solides. À moins budget illimité, RTX 5090 ou 4090 sont excellents.

Comment quantisation affecte-t-elle qualité?

FP16 = 100% qualité (baseline), Q8 = 99%, Q5 = 95%, Q4 = 90-95%. Pour plupart tâches, Q4 est indiscernable de FP16.

Puis-je augmenter GPU plus tard?

Oui. Commencez RTX 4070 Ti maintenant, augmentez RTX 5090 en 2 ans si besoin. GPU est composant plus remplaçable.

Puis-je exécuter local LLMs sur Apple Silicon (M1/M2/M3/M5)?

Oui. Apple Silicon utilise mémoire unifiée partagée entre CPU et GPU. M5 Pro (64GB mémoire unifiée, 307GB/s) exécute modèles 32B à 25-35 tokens/sec. M5 Max (128GB mémoire unifiée, 460-614GB/s) exécute tous modèles 70B confortablement. M2 Pro (16 GB) exécute modèles 7B à 30-50 tokens/sec.

Quels modèles 27B ou 32B tiennent sur 24GB VRAM (RTX 4090)?

Oui, excellents. Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) est meilleur modèle dense coding. DeepSeek-R1 32B Q4_K_M (~19 GB) meilleur reasoning. Les deux tiennent avec 5-8 GB espace libre pour KV-cache et multitâche.

Lectures associées

Sources

  • Spécifications GPU NVIDIA -- nvidia.com/fr-fr/geforce/graphics-cards/
  • Spécifications matériel Apple M5 -- apple.com/fr/mac/m5 (spécifications officielles, 64GB et 128GB mémoire unifiée, 307-614GB/s bande passante)
  • Modèle Llama 4 Scout -- meta.com/research (architecture MoE, 17B paramètres actifs, 109B totaux)
  • Modèles Qwen3 et Qwen 3.6 -- huggingface.co/qwen (benchmarks performance, 77,2% SWE-bench coding)
  • Calculateur LLM VRAM -- vram.asult.com (référence)
  • Benchmarks Quantisation Modèle -- huggingface.co/docs/transformers

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Guide Matériel LLM 2026 : Meilleur GPU par niveau VRAM