Points clés
- Mathématiques VRAM: (Taille modèle en GB) ÷ Quantisation = VRAM nécessaire. Exemple: modèle 70B à 4 bits = 70 ÷ 8 = 8,75 GB.
- 12 GB VRAM (RTX 4070 Ti): Meilleur: Llama 4 Scout 17B Q4_K_M (~10 GB, MoE, meilleure qualité globale). Aussi: Llama 3.1 8B Q8 (~9 GB, 80 tok/s).
- 16 GB VRAM (RTX 4080 / RTX 5080): Meilleur: Mistral Small 3.1 24B Q4_K_M (~13 GB, 55 tok/s). Pour agentic coding: Devstral Small 24B Q4_K_M.
- 24 GB VRAM (RTX 4090): Les modèles 70B ne rentrent pas à Q4. Meilleure option: Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) ou DeepSeek-R1 32B Q4_K_M (~19 GB, 60 tok/s).
- Apple M5 Max (128 GB unifié): Premier Mac à exécuter des modèles 70B à Q4_K_M – comparable aux 2× RTX 4090 desktop dans un portable ou Mac Studio.
- Budget: RTX 4070 Ti meilleur rapport qualité-prix (~650-750 €, gère 7-14B). RTX 4090 pour tout modèle mono-GPU (~2000-2400 €).
Comment calculer les exigences VRAM?
Les exigences VRAM dépendent de trois facteurs: taille du modèle (paramètres), quantisation (bits par poids) et mode d'inférence.
Formule:
``` VRAM (GB) = (Taille modèle × Bits quantisation) ÷ 8 ```
Valeurs quantisation: FP16 = 16 bits, Q8 = 8 bits, Q5 = 5 bits, Q4 = 4 bits.
| Modèle | FP16 (meilleure qualité) | Q8 (excellent) | Q5 (bon) | Q4 (bon, plus petit) |
|---|---|---|---|---|
| Llama 4 Scout 17B (MoE) | 34 GB | 17 GB | 10,6 GB | 8,5 GB |
| Qwen3 8B | 16 GB | 8 GB | 5 GB | 4 GB |
| Qwen 3.6 27B | 54 GB | 27 GB | 16,9 GB | 13,5 GB |
| Llama 3.1 70B | 140 GB | 70 GB | 43,75 GB | 35 GB |
Quelle GPU acheter?
En avril 2026, NVIDIA domine les performances local LLM. Voici les recommandations par tier:
Le matériel détermine quels modèles vous pouvez exécuter ; le prompt engineering détermine à quel point ils performent. Un prompt bien structuré sur un modèle 7B surpasse souvent un prompt mal conçu sur un modèle 70B. Consultez le guide complet de prompt engineering pour des techniques qui maximisent la qualité des sorties quelle que soit la taille du modèle.
| Tier | GPU | VRAM | Meilleur pour | Performance |
|---|---|---|---|---|
| Budget (600 €) | RTX 4070 Ti / RTX 5070 | 12 GB | Modèles 7-13B | Rapide (80 tokens/sec) |
| Mid (1200 €) | RTX 4080 / RTX 5080 | 16 GB | Modèles 13-30B | Très rapide (120 tokens/sec) |
| High (2310 €) | RTX 4090 / RTX 5090 | 24 GB | N'importe quel modèle 70B | Extrêmement rapide (150 tokens/sec) |
| Serveur (3000+ €) | RTX 6000 Ada / A100 | 48+ GB | Multi-utilisateurs, 70B+ | Grade production |
Quel CPU et RAM faut-il?
Avec GPU, CPU et RAM sont secondaires. Le GPU fait le gros du travail; CPU/RAM gèrent la préparation du contexte.
CPU minimum: processeur 8-core (Intel i7 12ème gén, AMD Ryzen 7 7700X ou plus récent). Les anciens CPU ajoutent 20%+ de latence.
RAM: 16 GB minimum (avec GPU). Sans GPU, 32+ GB sont recommandés. La RAM ne limite pas directement la taille du modèle si GPU est présent.
Stockage: 500 GB SSD pour fichiers modèles et système d'exploitation. M.2 NVMe est préféré (chargement modèles plus rapide).
Quel stockage faut-il?
Les fichiers modèles sont volumineux. Un modèle 7B à 4 bits quantisation est 4-5 GB. Planifiez en conséquence:
- 500 GB SSD: OS + 1-2 petits modèles (3B, 7B)
- 1 TB SSD: OS + 3-5 modèles (mélange 7B et 13B)
- 2 TB SSD: OS + 10+ modèles (tailles variées)
- 4 TB NVMe RAID: Setup production, chargement modèles rapide
Recommandations builds économiques
Construire une machine local LLM from scratch:
| Budget | GPU | CPU | RAM | Modèles | Coût |
|---|---|---|---|---|---|
| 1500 € (entrée) | RTX 4070 Ti | i7 13700 | 16 GB | 7-13B | Réaliste |
| 2500 € (solide) | RTX 4080 | i7 14700K | 32 GB | 13-30B | Recommandé |
| 4000 € (haut de gamme) | 2× RTX 4090 | Ryzen 9 7950X | 128 GB | Tous (70B+) | Excessif pour personnel |
Et si vous ne pouvez pas vous permettre le matériel ?
Si une GPU de 250–400 € dépasse votre budget, ou si votre ordinateur portable est trop ancien pour les moteurs d'inférence modernes, les LLMs locaux pourraient ne pas être rentables pour vous en 2026.
Calculez le vrai coût:
- Local: 800–2 000 € matériel initial + électricité + maintenance sur 2–3 ans
- Cloud: 5–50 €/mois pour usage développeur typique (Llama API ou GPT-4o mini)
Pour utilisateurs légers (< 100 000 tokens/mois), cloud API coûte 5–10 €/mois sans matériel. Pour utilisateurs lourds (> 10 M tokens/mois), local rentable en 6–12 mois.
Comparez le compromis complet local vs cloud sur coût et performance** pour trouver votre point de rupture. Beaucoup de développeurs découvrent que cloud coûte moins cher pour leur usage réel.
Déjà en train de chercher en dessous des paliers de VRAM recommandés ? Pour savoir quelles combinaisons modèle + appli tournent vraiment sur 8 Go ou moins, voir Meilleure application IA locale pour un PC d'entrée de gamme.
Matériel Mac pour local LLMs
Apple Silicon (M-série) exécute les LLMs locaux efficacement avec mémoire unifiée partagée entre CPU et GPU. M5, lancé depuis octobre 2025, est une avancée majeure pour l'inférence locale. Apple revendique un traitement 4× plus rapide des prompts LLM par rapport à M4.
Le M5 Max avec 128 GB de mémoire unifiée est le premier chip Apple Silicon qui exécute confortablement les modèles 70B à Q4_K_M – comparable aux 2× RTX 4090 desktop mais dans un format laptop ou Mac Studio. Le M5 Pro avec 64 GB de mémoire unifiée gère les modèles 32B avec ample espace pour KV-cache et multitâche.
| Mac | Mémoire GPU | Meilleur pour | Limitation |
|---|---|---|---|
| M3 MacBook Pro 16" | 18 GB unified | Modèles 7B (rapide) | Peut exécuter 13B lentement |
| M4 Max | 48-96 GB unified | Modèles 13-30B | Non optimisé pour 70B |
| M5 Pro (MacBook Pro) | 64 GB unified, 307 GB/s | Modèles 30B confortablement | Llama 4 Scout fonctionne bien |
| M5 Max (MacBook Pro / Studio) | 128 GB unified, 460-614 GB/s | Modèles 70B à Q4_K_M | Premier Mac pour 70B |
Matériel serveur vs. matériel consommateur
Pour déploiement production, matériel serveur recommandé:
- Consommateur (RTX 4090): ~2310 €, 24 GB VRAM, mono-utilisateur, prone à l'étranglement thermique sous charge soutenue.
- Serveur (RTX 6000 Ada): ~5000 €, 48 GB VRAM, conçu pour utilisation 24/7, meilleure refroidissement, correction d'erreur.
- Recommandation: Commencez avec RTX 4090. Si exécution modèles 70B 24/7 pour utilisateurs multiples, augmenter vers dual A100 ou RTX 6000.
Erreurs courantes dans la planification matériel
- Acheter CPU-uniquement quand GPU est disponible. Une RTX 4070 Ti à 600 € surpassera une CPU à 2000 €. GPU domine la vitesse LLM.
- Ne pas compter l'overhead VRAM. Taille fichier modèle + overhead système + contexte = VRAM total utilisé. Toujours acheter 25% plus que taille modèle.
- Supposer tous modèles 70B tiennent en 40GB VRAM. Ils le font, à peine, quantisation Q4 uniquement. Q5 demande 45+ GB.
- Ignorer alimenté et refroidissement. RTX 4090 consomme 575W. Besoin PSU 1200W et bon débit air boîtier.
- Penser que vieille GPU fonctionnera. RTX 2080 est 10× plus lent que RTX 4070 Ti. Architecture GPU moderne importe énormément.
Questions courantes sur matériel local LLM
Puis-je exécuter un modèle 70B sur laptop?
Seulement avec quantisation lourde (Q2, 2-bit) et fallback CPU. Impratique. Laptops conviennent pour modèles 7B. Pour 70B, utilisez desktop avec RTX 4090+.
RTX 4090 est-elle excessive pour usage personnel?
Non si vous exécutez modèles 70B ou multiples modèles simultanément. Pour juste chat 7B, RTX 4070 Ti suffit. RTX 4090 est à l'épreuve du temps si vous voulez flexibilité.
Dois-je acheter RTX 5090 ou attendre RTX 6090?
RTX 5090 est disponible (début 2026). GPUs serveur RTX 6000 Ada sont aussi solides. À moins budget illimité, RTX 5090 ou 4090 sont excellents.
Comment quantisation affecte-t-elle qualité?
FP16 = 100% qualité (baseline), Q8 = 99%, Q5 = 95%, Q4 = 90-95%. Pour plupart tâches, Q4 est indiscernable de FP16.
Puis-je augmenter GPU plus tard?
Oui. Commencez RTX 4070 Ti maintenant, augmentez RTX 5090 en 2 ans si besoin. GPU est composant plus remplaçable.
Puis-je exécuter local LLMs sur Apple Silicon (M1/M2/M3/M5)?
Oui. Apple Silicon utilise mémoire unifiée partagée entre CPU et GPU. M5 Pro (64GB mémoire unifiée, 307GB/s) exécute modèles 32B à 25-35 tokens/sec. M5 Max (128GB mémoire unifiée, 460-614GB/s) exécute tous modèles 70B confortablement. M2 Pro (16 GB) exécute modèles 7B à 30-50 tokens/sec.
Quels modèles 27B ou 32B tiennent sur 24GB VRAM (RTX 4090)?
Oui, excellents. Qwen 3.6 27B Q4_K_M (~16 GB, 77,2% SWE-bench) est meilleur modèle dense coding. DeepSeek-R1 32B Q4_K_M (~19 GB) meilleur reasoning. Les deux tiennent avec 5-8 GB espace libre pour KV-cache et multitâche.
Lectures associées
- Calculateur VRAM Local LLM -- Outil interactif pour calculer vos besoins matériel.
- GPU vs. CPU vs. Apple Silicon -- Comparaison profonde options matériel.
- Meilleures GPUs pour local LLMs -- Guide détaillé benchmark GPU et sélection.
- Exécuter modèles 70B sur 24GB VRAM -- Techniques avancées pour modèles grands.
- Local LLMs multi-GPU -- Mise à l'échelle sur multiples GPUs.
- Meilleurs LLMs pour le code 2026 — Comparatif Qwen2.5-Coder vs DeepSeek
- Apple Silicon pour les LLM locaux : Guide complet -- M1 à M5 Max : mémoire unifiée, Metal GPU et sélection de framework par puce.
- Ollama sur Mac : Guide Apple Silicon 2026 -- De zéro à fonctionnel en 2 minutes : installation en une commande avec vérification Metal GPU.
- Whisper sur Apple Silicon 2026 -- Benchmarks STT via Metal et Core ML sur M1–M5 : large-v3 à 10× temps réel.
Sources
- Spécifications GPU NVIDIA -- nvidia.com/fr-fr/geforce/graphics-cards/
- Spécifications matériel Apple M5 -- apple.com/fr/mac/m5 (spécifications officielles, 64GB et 128GB mémoire unifiée, 307-614GB/s bande passante)
- Modèle Llama 4 Scout -- meta.com/research (architecture MoE, 17B paramètres actifs, 109B totaux)
- Modèles Qwen3 et Qwen 3.6 -- huggingface.co/qwen (benchmarks performance, 77,2% SWE-bench coding)
- Calculateur LLM VRAM -- vram.asult.com (référence)
- Benchmarks Quantisation Modèle -- huggingface.co/docs/transformers