Exécuter des LLM locaux nécessite de comprendre trois composants: GPU (facultatif mais recommandé), CPU et RAM. En avril 2026, un modèle 7B à paramètres a besoin d'un minimum de 8 GB de RAM, tandis qu'un modèle 70B a besoin de 40+ GB. Ce guide couvre les recommandations matérielles réelles pour RTX 5090, 4090, Apple Silicon et les builds économiques, ainsi que les mathématiques VRAM pour calculer les exigences pour n'importe quelle taille de modèle.

Points clés

Mathématiques VRAM: (Taille modèle en GB) ÷ Quantisation = VRAM nécessaire. Exemple: modèle 70B à 4 bits = 70 ÷ 8 = 8,75 GB.
12 GB VRAM (RTX 4070 Ti): Meilleur: Llama 4 Scout 17B Q4_K_M (~10 GB, MoE, meilleure qualité globale). Aussi: Llama 3.1 8B Q8 (~9 GB, 80 tok/s).
16 GB VRAM (RTX 4080 / RTX 5080): Meilleur: Mistral Small 3.1 24B Q4_K_M (~13 GB, 55 tok/s). Pour agentic coding: Devstral Small 24B Q4_K_M.
24 GB VRAM (RTX 4090): Les modèles 70B ne rentrent pas à Q4. Meilleure option: Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) ou DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/s).
Apple M5 Max (128 GB unifié): Premier Mac à exécuter des modèles 70B à Q4_K_M – comparable aux 2× RTX 4090 desktop dans un portable ou Mac Studio.
Budget: RTX 4070 Ti meilleur rapport qualité-prix (~650-750 €, gère 7-14B). RTX 4090 pour tout modèle mono-GPU (~2000-2400 €).

Comment calculer les exigences VRAM?

Les exigences VRAM dépendent de trois facteurs: taille du modèle (paramètres), quantisation (bits par poids) et mode d'inférence.

Formule:

``` VRAM (GB) = (Taille modèle × Bits quantisation) ÷ 8 ```

Valeurs quantisation: FP16 = 16 bits, Q8 = 8 bits, Q5 = 5 bits, Q4 = 4 bits.

Modèle	FP16 (meilleure qualité)	Q8 (excellent)	Q5 (bon)	Q4 (bon, plus petit)
Llama 4 Scout 17B (MoE)	34 GB	17 GB	10,6 GB	8,5 GB
Qwen3 8B	16 GB	8 GB	5 GB	4 GB
Qwen 3.6 27B	54 GB	27 GB	16,9 GB	13,5 GB
Llama 3.1 70B	140 GB	70 GB	43,75 GB	35 GB

Calculateur VRAM montrant la formule (Taille modèle × Bits) ÷ 8, avec exemples: Llama 4 Scout 17B Q4 = 8,5 GB, Qwen 3.6 27B Q4 = 13,5 GB, 70B Q4 = 35 GB. Q4 est le sweet spot recommandé pour la plupart des matériels.

Quelle GPU acheter?

En avril 2026, NVIDIA domine les performances local LLM. Voici les recommandations par tier:

Le matériel détermine quels modèles vous pouvez exécuter ; le prompt engineering détermine à quel point ils performent. Un prompt bien structuré sur un modèle 7B surpasse souvent un prompt mal conçu sur un modèle 70B. Consultez le guide complet de prompt engineering pour des techniques qui maximisent la qualité des sorties quelle que soit la taille du modèle.

Tier	GPU	VRAM	Meilleur pour	Performance
Budget (600 €)	RTX 4070 Ti / RTX 5070	12 GB	Modèles 7-13B	Rapide (80 tokens/sec)
Mid (1200 €)	RTX 4080 / RTX 5080	16 GB	Modèles 13-30B	Très rapide (120 tokens/sec)
High (2310 €)	RTX 4090 / RTX 5090	24 GB	N'importe quel modèle 70B	Extrêmement rapide (150 tokens/sec)
Serveur (3000+ €)	RTX 6000 Ada / A100	48+ GB	Multi-utilisateurs, 70B+	Grade production

Recommandations tier GPU: 600 € RTX 4070 Ti (12GB, modèles 7-13B), 1200 € RTX 4080 (16GB, 13-30B), 2310 € RTX 4090 (24GB, tout modèle 70B), 3000+ € GPUs serveur pour production. Le choix GPU importe 10× plus que CPU.

Quel CPU et RAM faut-il?

Avec GPU, CPU et RAM sont secondaires. Le GPU fait le gros du travail; CPU/RAM gèrent la préparation du contexte.

CPU minimum: processeur 8-core (Intel i7 12ème gén, AMD Ryzen 7 7700X ou plus récent). Les anciens CPU ajoutent 20%+ de latence.

RAM: 16 GB minimum (avec GPU). Sans GPU, 32+ GB sont recommandés. La RAM ne limite pas directement la taille du modèle si GPU est présent.

Stockage: 500 GB SSD pour fichiers modèles et système d'exploitation. M.2 NVMe est préféré (chargement modèles plus rapide).

Quel stockage faut-il?

Les fichiers modèles sont volumineux. Un modèle 7B à 4 bits quantisation est 4-5 GB. Planifiez en conséquence:

500 GB SSD: OS + 1-2 petits modèles (3B, 7B)
1 TB SSD: OS + 3-5 modèles (mélange 7B et 13B)
2 TB SSD: OS + 10+ modèles (tailles variées)
4 TB NVMe RAID: Setup production, chargement modèles rapide

Recommandations builds économiques

Construire une machine local LLM from scratch:

Budget	GPU	CPU	RAM	Modèles	Coût
1500 € (entrée)	RTX 4070 Ti	i7 13700	16 GB	7-13B	Réaliste
2500 € (solide)	RTX 4080	i7 14700K	32 GB	13-30B	Recommandé
4000 € (haut de gamme)	2× RTX 4090	Ryzen 9 7950X	128 GB	Tous (70B+)	Excessif pour personnel

Trois configurations build: 1500 € niveau entrée (RTX 4070 Ti, i7 13700, 16GB) pour modèles 7-13B, 2500 € build solide (RTX 4080, i7 14700K, 32GB) pour 13-30B, 4000 € haut de gamme (2× RTX 4090, Ryzen 9, 128GB) pour tout modèle. Niveau mid offre meilleur rapport qualité-prix.

Et si vous ne pouvez pas vous permettre le matériel ?

Si une GPU de 250–400 € dépasse votre budget, ou si votre ordinateur portable est trop ancien pour les moteurs d'inférence modernes, les LLMs locaux pourraient ne pas être rentables pour vous en 2026.

Calculez le vrai coût:

- Local: 800–2 000 € matériel initial + électricité + maintenance sur 2–3 ans

- Cloud: 5–50 €/mois pour usage développeur typique (Llama API ou GPT-4o mini)

Pour utilisateurs légers (< 100 000 tokens/mois), cloud API coûte 5–10 €/mois sans matériel. Pour utilisateurs lourds (> 10 M tokens/mois), local rentable en 6–12 mois.

Comparez le compromis complet local vs cloud sur coût et performance** pour trouver votre point de rupture. Beaucoup de développeurs découvrent que cloud coûte moins cher pour leur usage réel.

Déjà en train de chercher en dessous des paliers de VRAM recommandés ? Pour savoir quelles combinaisons modèle + appli tournent vraiment sur 8 Go ou moins, voir Meilleure application IA locale pour un PC d'entrée de gamme.

Matériel Mac pour local LLMs

Apple Silicon (M-série) exécute les LLMs locaux efficacement avec mémoire unifiée partagée entre CPU et GPU. M5, lancé depuis octobre 2025, est une avancée majeure pour l'inférence locale. Apple revendique un traitement 4× plus rapide des prompts LLM par rapport à M4.

Le M5 Max avec 128 GB de mémoire unifiée est le premier chip Apple Silicon qui exécute confortablement les modèles 70B à Q4_K_M – comparable aux 2× RTX 4090 desktop mais dans un format laptop ou Mac Studio. Le M5 Pro avec 64 GB de mémoire unifiée gère les modèles 32B avec ample espace pour KV-cache et multitâche.

Mac	Mémoire GPU	Meilleur pour	Limitation
M3 MacBook Pro 16"	18 GB unified	Modèles 7B (rapide)	Peut exécuter 13B lentement
M4 Max	48-96 GB unified	Modèles 13-30B	Non optimisé pour 70B
M5 Pro (MacBook Pro)	64 GB unified, 307 GB/s	Modèles 30B confortablement	Llama 4 Scout fonctionne bien
M5 Max (MacBook Pro / Studio)	128 GB unified, 460-614 GB/s	Modèles 70B à Q4_K_M	Premier Mac pour 70B

Comparaison matériel Mac: M3 MacBook Pro 16" (18GB, 7B), M4 Max (48-96GB, 13-30B), M5 Pro (64GB, 30B), M5 Max (128GB, 70B à Q4_K_M). M5 Max premier Mac pour exécuter modèles 70B comparable aux 2× RTX 4090 desktop.

Matériel serveur vs. matériel consommateur

Pour déploiement production, matériel serveur recommandé:

Consommateur (RTX 4090): ~2310 €, 24 GB VRAM, mono-utilisateur, prone à l'étranglement thermique sous charge soutenue.
Serveur (RTX 6000 Ada): ~5000 €, 48 GB VRAM, conçu pour utilisation 24/7, meilleure refroidissement, correction d'erreur.
Recommandation: Commencez avec RTX 4090. Si exécution modèles 70B 24/7 pour utilisateurs multiples, augmenter vers dual A100 ou RTX 6000.

Matériel consommateur vs. serveur: RTX 4090 (2310 €, 24GB, mono-utilisateur, mi-temps) vs. RTX 6000 Ada (5000+ €, 48GB, multi-utilisateurs, fonctionnement 24/7). Commencez matériel consommateur; augmentez matériel serveur seulement si exécution services production.

Erreurs courantes dans la planification matériel

Acheter CPU-uniquement quand GPU est disponible. Une RTX 4070 Ti à 600 € surpassera une CPU à 2000 €. GPU domine la vitesse LLM.
Ne pas compter l'overhead VRAM. Taille fichier modèle + overhead système + contexte = VRAM total utilisé. Toujours acheter 25% plus que taille modèle.
Supposer tous modèles 70B tiennent en 40GB VRAM. Ils le font, à peine, quantisation Q4 uniquement. Q5 demande 45+ GB.
Ignorer alimenté et refroidissement. RTX 4090 consomme 575W. Besoin PSU 1200W et bon débit air boîtier.
Penser que vieille GPU fonctionnera. RTX 2080 est 10× plus lent que RTX 4070 Ti. Architecture GPU moderne importe énormément.

Questions courantes sur matériel local LLM

Puis-je exécuter un modèle 70B sur laptop?

Seulement avec quantisation lourde (Q2, 2-bit) et fallback CPU. Impratique. Laptops conviennent pour modèles 7B. Pour 70B, utilisez desktop avec RTX 4090+.

RTX 4090 est-elle excessive pour usage personnel?

Non si vous exécutez modèles 70B ou multiples modèles simultanément. Pour juste chat 7B, RTX 4070 Ti suffit. RTX 4090 est à l'épreuve du temps si vous voulez flexibilité.

Dois-je acheter RTX 5090 ou attendre RTX 6090?

RTX 5090 est disponible (début 2026). GPUs serveur RTX 6000 Ada sont aussi solides. À moins budget illimité, RTX 5090 ou 4090 sont excellents.

Comment quantisation affecte-t-elle qualité?

FP16 = 100% qualité (baseline), Q8 = 99%, Q5 = 95%, Q4 = 90-95%. Pour plupart tâches, Q4 est indiscernable de FP16.

Puis-je augmenter GPU plus tard?

Oui. Commencez RTX 4070 Ti maintenant, augmentez RTX 5090 en 2 ans si besoin. GPU est composant plus remplaçable.

Puis-je exécuter local LLMs sur Apple Silicon (M1/M2/M3/M5)?

Oui. Apple Silicon utilise mémoire unifiée partagée entre CPU et GPU. M5 Pro (64GB mémoire unifiée, 307GB/s) exécute modèles 32B à 25-35 tokens/sec. M5 Max (128GB mémoire unifiée, 460-614GB/s) exécute tous modèles 70B confortablement. M2 Pro (16 GB) exécute modèles 7B à 30-50 tokens/sec.

Quels modèles 27B ou 32B tiennent sur 24GB VRAM (RTX 4090)?

Oui, excellents. Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) est meilleur modèle dense coding. DeepSeek-R1 32B Q4_K_M (~19 GB) meilleur reasoning. Les deux tiennent avec 5-8 GB espace libre pour KV-cache et multitâche.

Lectures associées

Calculateur VRAM Local LLM -- Outil interactif pour calculer vos besoins matériel.
GPU vs. CPU vs. Apple Silicon -- Comparaison profonde options matériel.
Meilleures GPUs pour local LLMs -- Guide détaillé benchmark GPU et sélection.
Exécuter modèles 70B sur 24GB VRAM -- Techniques avancées pour modèles grands.
Local LLMs multi-GPU -- Mise à l'échelle sur multiples GPUs.
Meilleurs LLMs pour le code 2026 — Comparatif Qwen2.5-Coder vs DeepSeek
Apple Silicon pour les LLM locaux : Guide complet -- M1 à M5 Max : mémoire unifiée, Metal GPU et sélection de framework par puce.
Ollama sur Mac : Guide Apple Silicon 2026 -- De zéro à fonctionnel en 2 minutes : installation en une commande avec vérification Metal GPU.
Whisper sur Apple Silicon 2026 -- Benchmarks STT via Metal et Core ML sur M1–M5 : large-v3 à 10× temps réel.

Sources

Spécifications GPU NVIDIA -- nvidia.com/fr-fr/geforce/graphics-cards/
Spécifications matériel Apple M5 -- apple.com/fr/mac/m5 (spécifications officielles, 64GB et 128GB mémoire unifiée, 307-614GB/s bande passante)
Modèle Llama 4 Scout -- meta.com/research (architecture MoE, 17B paramètres actifs, 109B totaux)
Modèles Qwen3 et Qwen 3.6 -- huggingface.co/qwen (benchmarks performance, 77,2% SWE-bench coding)
Calculateur LLM VRAM -- vram.asult.com (référence)
Benchmarks Quantisation Modèle -- huggingface.co/docs/transformers

Guide Matériel Local LLM 2026: GPU, CPU et RAM Expliqués

Présentation: Guide Matériel Local LLM 2026: GPU, CPU et RAM Expliqués