Skip to main content
PromptQuorumPromptQuorum
Accueil/LLMs locaux/Materiel pour LLM local en 2026 : GPU, mini PC et Mac compares
Hardware & Performance

Materiel pour LLM local en 2026 : GPU, mini PC et Mac compares

·13 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Les besoins materiels pour un LLM local dependent avant tout de la VRAM : les modeles 7B necessitent 8 Go, les modeles 13B 12-16 Go, et les modeles 70B 35-48 Go selon la quantification. Le choix du GPU compte 10x plus que le CPU pour la vitesse d'inference.

Faire tourner un LLM local consiste a adapter le modele a la VRAM de votre GPU. En juin 2026, un modele 7B necessite 8-9 Go de VRAM en Q8, un modele 14B environ 9 Go en Q4_K_M, et la plupart des modeles 70B ont besoin d'environ 40 Go -- soit plus que ce que contient une seule RTX 4090 (24 Go). Ce guide donne le besoin materiel exact par taille de modele, puis le meilleur modele pour les paliers de VRAM de 8 Go, 12 Go, 16 Go et 24 Go, ce qu'il faut vraiment pour faire tourner du 70B en local, l'inference CPU seul sur 16 Go de RAM systeme, les options MacBook 8 Go, et les prix GPU actuels de juin 2026 apres la penurie de memoire de cette annee.

Présentation: Materiel pour LLM local en 2026 : GPU, mini PC et Mac compares

Le diaporama ci-dessous couvre : les paliers de VRAM GPU pour 12/16/24 Go, les meilleurs modeles par palier avec utilisation de VRAM et benchmarks de vitesse, l'inference CPU seul sur 16 Go de RAM, et les drapeaux de vitesse llama.cpp pour RTX 4070 Ti. Telechargez le PDF comme fiche de reference du guide du materiel LLM local 2026.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • Calcul de VRAM : (taille du modele en Go) / quantification = VRAM necessaire. Exemple : 70B en Q4 = 70 / 8 = 8,75 Go x parametres ≈ 39 Go au total.
  • 12 Go de VRAM (RTX 4070 Ti) : meilleur modele : Llama 3.1 8B Q8 (~9 Go, 80 tok/sec). Egalement : Qwen3 8B (~8 Go, meilleur multilingue + codage). Note : Llama 4 Scout (17B actifs / 109B total MoE) necessite ~55 Go en Q4 et NE tient PAS dans 12 Go.
  • 16 Go de VRAM (RTX 5080 / RTX 5070 Ti) : meilleur modele : Mistral Small 3.1 24B Q4_K_M (~13 Go, 55 tok/sec). Egalement : Devstral Small 24B Q4_K_M pour le codage agentique. Mistral Small 4 (mars 2026) est le successeur tout-en-un plus recent qui integre raisonnement, vision et codage.
  • 24 Go de VRAM (RTX 4090 / RTX 5090) : la plupart des modeles 70B en Q4_K_M (~40 Go) NE tiennent PAS. Meilleure option : Qwen3.6 27B Q4_K_M (~16 Go, 77,2 % SWE-bench, meilleur codeur dense) ou DeepSeek-R1 32B Q4_K_M (~19 Go, 60 tok/sec).
  • CPU seul (16 Go de RAM systeme) : Llama 3.2 3B Q8 (20 tok/sec) ou Phi-4 Mini Q4_K_M (25 tok/sec). Une RTX 4060 8 Go d'occasion (~$250) ou une RTX 5060 Ti 16 Go neuve (~$394) est 5-10x plus rapide.
  • MacBook avec 8 Go de RAM : faites tourner uniquement des modeles 3-4B — Phi-4 Mini, Llama 3.2 3B ou Gemma 3 4B en Q4_K_M via llama.cpp/Ollama (Metal). Le 7B est limite sur 8 Go ; 16 Go est le minimum confortable sur Mac.
  • Apple M5 Max (128 Go unifies) : fait tourner les modeles 70B en Q4_K_M confortablement (~12-15 tok/sec) dans un portable ou un Mac Studio — aux cotes du Mac Studio et des systemes AMD Strix Halo 128 Go qui contiennent aussi un modele 70B.
  • Prix de juin 2026 : une penurie de GDDR7 a pousse les GPU bien au-dessus du prix conseille et la RTX 4090 est arretee. Achetez dans la serie RTX 50 disponible ; verifiez les prix en direct avant l'achat.
  • Astuce vitesse llama.cpp : reglez toujours `--n-gpu-layers 99`. Cela double a lui seul la vitesse sur RTX 4070 Ti, de ~40 a ~85 tok/sec.
  • Reference rapide : 7B@Q4_K_M = 4,7 Go | 70B@Q4_K_M = 40 Go | RTX 4070 Ti = ~80 tok/s | RTX 4090 = ~150 tok/s | CPU seul 16 Go = 12-28 tok/s

📍 En une phrase

Le matériel pour les LLM locaux est déterminé par la VRAM : les modèles 7B ont besoin de 8 Go, les 13–14B de 12–16 Go, et les 70B de 35–48 Go — une RTX 4060 8 Go d'occasion (~250 $) est la meilleure GPU d'entrée de gamme en 2026.

💬 En termes simples

La VRAM est la mémoire dédiée de votre carte graphique. Plus le modèle d'IA est grand, plus il a besoin de VRAM. Règle empirique : divisez la taille du modèle en gigaoctets par le niveau de compression (Q4 = diviser par 8) pour estimer la VRAM nécessaire.

Besoins materiels LLM local 2026

Le materiel minimum pour faire tourner un LLM local en 2026 est un GPU de 8 Go de VRAM — ou un Mac Apple Silicon avec 16 Go de memoire unifiee — pour les modeles de classe 7B. Les besoins evoluent ensuite avec la taille du modele : 14B necessite 12 Go, 24B necessite 16 Go, 32B necessite 24 Go, et un modele 70B necessite ~40 Go en Q4_K_M. La VRAM du GPU est la limite stricte : elle decide quels modeles se chargent. Le CPU et la RAM systeme influent sur le temps de chargement et la vitesse de repli en CPU seul, mais pas sur le modele qui tient sur le GPU.

Utilisez ce tableau comme reponse directe a la question « quel materiel me faut-il » — reperez votre taille de modele ou votre palier de VRAM, puis passez aux choix de modeles par palier ci-dessous.

Taille du modeleVRAM en Q4_K_MExemple de GPU (2026)Meilleur modeleVitesse
3-4B4-5 GBTout 8 GB / Mac 8 GBPhi-4 Mini, Gemma 3 4B60-90 tok/s
7-8B5-9 GBRTX 5060 Ti, RTX 4060 (8 GB)Llama 3.1 8B, Qwen3 8B50-80 tok/s
14B~9 GBRTX 5070 (12 GB)Qwen3 14B~80 tok/s
24B~14 GBRTX 5070 Ti / 5080 (16 GB)Mistral Small 3.1 24B~55 tok/s
27-32B16-19 GBRTX 4090 / 5090 (24-32 GB)Qwen3.6 27B, DeepSeek-R1 32B55-60 tok/s
70B~40 GBDouble RTX 5090, A100, Mac M5 Max 128 GBLlama 3.3 70B10-60 tok/s

KeyPoint: En une phrase : adaptez le modele a votre VRAM — 8 Go fait tourner du 7B, 12 Go du 14B, 16 Go du 24B, 24 Go du 32B, et seuls 40 Go+ font tourner un modele 70B a une qualite Q4_K_M utilisable.

ProTip: Prevoyez de la marge pour le cache KV (contexte de conversation) : comptez 25 % en plus des poids du modele pour un contexte de 8K et jusqu'a 100 % pour 32K. Voir la section cache KV ci-dessous.

Meilleurs GPU a acheter — recommandations 2026

Le choix disponible pour les LLM locaux en juin 2026 est la serie NVIDIA RTX 50 (Blackwell) : 5060 Ti, 5070, 5070 Ti, 5080, 5090. La serie RTX 40 (4060, 4070 Ti, 4090) est arretee et se vend desormais rare et au-dessus de ses anciens prix sur le marche de l'occasion. Une penurie de GDDR7/memoire en 2026 a pousse meme les cartes de la serie 50 bien au-dessus du prix conseille, alors traitez chaque chiffre ci-dessous comme un prix de rue typique de juin 2026 et verifiez les annonces en direct avant d'acheter. Recommandations par cas d'usage :

  • Pour les modeles 7B (Mistral, Phi-4, Llama 3.1) — Economique : RTX 5060 Ti 16 Go (~$394, proche du prix conseille) ou une RTX 4060 8 Go d'occasion (~$250). Fait tourner tout modele 7B en Q4_K_M. Vitesse : 50-70 tok/sec. Palier : passionnes a budget serre.
  • Pour les modeles 14B (Qwen3 14B, DeepSeek-R1) — Grand public : RTX 5070 (12 Go, ~$609). Meilleure carte neuve en rapport prix-performance. Qwen3 14B Q4_K_M tourne bien avec de la marge. Vitesse : 85-110 tok/sec. Palier : le plus populaire.
  • Pour les modeles 24-32B (Qwen3.6, Mistral Small) — Milieu de gamme : RTX 5070 Ti (16 Go, ~$979) ou RTX 5080 (16 Go, ~$1,249). Fait tourner Mistral Small 3.1 24B et Devstral Small 24B Q4_K_M. Vitesse : 110-150 tok/sec. Palier : developpeurs professionnels.
  • Pour les modeles 70B (Llama 3.3) — Haut de gamme : RTX 5090 (32 Go, ~$2,000 prix conseille mais ~$4,000 en rue) accueille le 70B en Q4_K_M avec un leger deport CPU. Une RTX 4090 d'occasion (24 Go, ~$2,300) ne fait tourner le 70B qu'en Q2_K. Pour le Q4_K_M complet, utilisez une double RTX 5090. Vitesse : ~200 tok/sec (5090, modeles plus petits). Palier : recherche + production.
  • Meilleur rapport qualite-prix 2026 : une seule RTX 5070 Ti ou 5080 (16 Go) est le point ideal — elle fait tourner tout jusqu'au 32B en Q4_K_M sans la surenchere de prix de la serie 50 sur la 5090.
  • Pour les utilisateurs Apple : le Mac M5 Max (128 Go de memoire unifiee, ~$6,000) fait tourner le 70B en Q4_K_M a ~12-15 tok/sec — plus lent qu'un bureau multi-GPU, mais silencieux, econome en energie et portable.
GPUBest ForPriceSpeedTier
RTX 5060 Ti (16 GB)modeles 7-13B~$39450-70 tok/sEconomique
RTX 5070 (12 GB)modeles 14B~$60985-110 tok/sGrand public
RTX 5070 Ti / 5080 (16 GB)modeles 24-32B~$979-1,249110-150 tok/sProfessionnel
RTX 4090 (24 GB, occasion)32B, 70B (Q2)~$2,300150-180 tok/sFin de vie / occasion
RTX 5090 (32 GB)70B (Q4, leger deport)~$2,000 conseille (~$4,000 rue)~200 tok/sHaut de gamme
Double RTX 509070B (Q4) complet~$8,000300+ tok/sEntreprise
Mac M5 Max 128GB70B (Q4)~$6,000~12-15 tok/s (70B)Portable pro

⚠️Warning: Les prix de juin 2026 sont volatils. Une penurie de GDDR7/memoire a pousse la RTX 5090 a environ le double de son prix conseille de $1,999, et la RTX 4090 arretee coute desormais plus cher d'occasion que neuve. Les prix ci-dessus sont des chiffres de rue typiques — verifiez toujours les annonces actuelles avant d'acheter.

Comment calculer les besoins en VRAM ?

Les besoins en VRAM dependent de trois facteurs : la taille du modele (parametres), la quantification (bits par poids) et le mode d'inference. Utilisez cette formule pour determiner si votre GPU dispose d'assez de memoire. Pour un calculateur interactif, voir le calculateur de VRAM pour LLM locaux.

Formule :

```text VRAM (Go) = (taille du modele x bits de quantification) / 8 ```

Valeurs de quantification : FP16 = 16 bits, Q8_0 = 8 bits, Q5_K_M = 5 bits, Q4_K_M = 4 bits. Le point ideal pratique est Q4_K_M -- il utilise des poids 4 bits avec quantification K, que les GPU NVIDIA accelerent plus efficacement que l'ancien format Q4_0.

ModeleFP16Q8_0Q5_K_MQ4_K_M
Llama 4 Scout (109B total MoE)~218 GB~109 GB~68 GB~55 GB
Llama 3.1 8B16 GB8.5 GB5.7 GB4.7 GB
Qwen 3.6 27B~54 GB~28 GB~19 GB~16 GB
Qwen3 8B~16 GB~8.5 GB~5.7 GB~5 GB
Llama 3.3 70B140 GB70 GB48 GB40 GB
Qwen3 32B64 GB33 GB22 GB19 GB
Mistral Small 3.1 24B48 GB25 GB17 GB14 GB
Phi-4 Mini 3.8B7.6 GB4.1 GB2.7 GB2.3 GB

Q4_K_M est le defaut recommande pour le materiel grand public -- 90-95 % de la qualite FP16 pour 25-30 % du cout en VRAM. Llama 4 Scout utilise une architecture MoE avec 17B parametres actifs sur 109B au total. Les 109B experts doivent tous etre charges en memoire, donc Scout necessite ~55 Go en Q4 (ne tient dans 24 Go qu'en 1,78 bit). Le MoE reduit le calcul par token, pas l'empreinte VRAM.

Calculateur de VRAM montrant la formule (taille du modele x bits) / 8, avec exemples : 8B Q4_K_M = 4,7 Go, 13B Q5_K_M = 9,1 Go, 70B Q4_K_M = 40 Go. Q4_K_M est le point ideal recommande pour la plupart du materiel.
Calculateur de VRAM montrant la formule (taille du modele x bits) / 8, avec exemples : 8B Q4_K_M = 4,7 Go, 13B Q5_K_M = 9,1 Go, 70B Q4_K_M = 40 Go. Q4_K_M est le point ideal recommande pour la plupart du materiel.

KeyPoint: En une phrase : la VRAM est le pool memoire dedie du GPU -- le seul chiffre qui determine quels modeles d'IA vous pouvez faire tourner en local et a quelle qualite.

Cache KV : le cout VRAM cache

La formule de VRAM (taille du modele x bits / 8) ne couvre que les poids du modele -- le cache KV ajoute une VRAM supplementaire importante que la plupart des guides ignorent.

Le cache KV stocke l'etat d'attention de chaque token de votre fenetre de contexte. Il croit lineairement avec la longueur du contexte et reste en VRAM pendant toute la session.

Formule de VRAM du cache KV : `cache KV ≈ couches x tetes x dim_tete x 2 x longueur_contexte x 2 octets`

Modelecontexte 4Kcontexte 32Kcontexte 128K
Llama 3.1 8B0.5 GB4 GB16 GB
Llama 3.3 70B2 GB16 GB64 GB
Qwen3 32B1 GB8 GB32 GB

KeyPoint: En une phrase : le cache KV est une VRAM temporaire utilisee pour stocker le contexte de conversation -- il croit avec chaque token que vous generez et est distinct du stockage des poids du modele.

⚠️Warning: Un Llama 3.1 8B en Q4_K_M necessite 4,7 Go pour les poids -- mais ajoutez une fenetre de contexte de 32K et la VRAM totale grimpe a ~8,7 Go. Sur une carte de 8 Go, cela provoque des erreurs OOM.

KeyPoint: Regle empirique : ajoutez 25 % a la taille des poids du modele pour un contexte typique de 8K, 100 % pour 32K. Le contexte par defaut d'Ollama est de 2 048 tokens. Pour l'augmenter : PARAMETER num_ctx 32768 dans votre Modelfile.

Quel palier de GPU correspond a votre charge de travail ?

En juin 2026, les GPU NVIDIA offrent le plus de tokens/sec pour l'inference LLM locale a tous les niveaux de prix. Les sections sous chaque palier donnent des recommandations de modeles precises. Pour une comparaison detaillee de benchmarks, voir le guide des meilleurs GPU pour LLM local.

TierGPUVRAMBest ForSpeed
Economique (~$394)RTX 5060 Ti16 GBmodeles 7-13B~60 tok/s
Grand public (~$609)RTX 507012 GBmodeles 7-14B~90 tok/s
Milieu (~$979)RTX 5070 Ti16 GBmodeles 14-32B~110 tok/s
Eleve (~$1,249)RTX 508016 GBmodeles 14-32B~130 tok/s
Sommet (~$4,000 rue)RTX 509032 GB70B (Q4, leger deport)~200 tok/s
Serveur ($7,000+)RTX 6000 Ada / A10048-80 GBMulti-utilisateur, 70B+Production
IA de bureau ($4,699)NVIDIA DGX Spark128 GBGrands modeles MoE~3 tok/s (70B dense)
Recommandations de paliers de GPU (prix de rue juin 2026) : ~$394 RTX 5060 Ti (16 Go, 7-13B, 60 tok/s), ~$609 RTX 5070 (12 Go, 14B, 90 tok/s), ~$1,249 RTX 5080 (16 Go, 14-32B, 130 tok/s), ~$4,000 RTX 5090 (32 Go, 70B, 200 tok/s), $4,699 DGX Spark (128 Go, grand MoE). Le choix du GPU compte 10x plus que le CPU.
Recommandations de paliers de GPU (prix de rue juin 2026) : ~$394 RTX 5060 Ti (16 Go, 7-13B, 60 tok/s), ~$609 RTX 5070 (12 Go, 14B, 90 tok/s), ~$1,249 RTX 5080 (16 Go, 14-32B, 130 tok/s), ~$4,000 RTX 5090 (32 Go, 70B, 200 tok/s), $4,699 DGX Spark (128 Go, grand MoE). Le choix du GPU compte 10x plus que le CPU.

KeyPoint: En juin 2026, la serie RTX 50 (Blackwell) est la generation actuelle et les seules cartes grand public NVIDIA encore en production — la serie RTX 40 est arretee. La RTX 5090 (32 Go) est la carte a acheter pour le 70B, bien qu'une penurie de memoire maintienne les prix de rue bien au-dessus de son prix conseille de $1,999.

Meilleurs LLM locaux par palier de VRAM (juin 2026)

Utilisez ceci comme reference rapide selon le palier de VRAM de votre GPU :

Tous les modeles listes ci-dessous sont a poids ouverts — telechargeables, ajustables et gratuits a executer en local. Si vous hesitez entre poids ouverts et API proprietaires, voir notre comparaison LLM open source vs proprietaires pour les compromis cout et performance a differents volumes de tokens.

Le materiel determine quels modeles vous pouvez executer ; l'ingenierie de prompt determine leur efficacite. Un prompt bien structure sur un modele 7B surpasse souvent un prompt paresseux sur un modele 70B. Voir le guide complet de l'ingenierie de prompt pour des techniques qui maximisent la qualite de sortie quel que soit le nombre de parametres.

  • 8 Go de VRAM (RTX 5060 Ti, RTX 4060, Intel B580) : Llama 3.1 8B Q4_K_M (4,7 Go, ~70 tok/s) -- recommande. Qwen3 8B (5 Go, meilleur multilingue + codage). Phi-4 Mini 3.8B (2,3 Go, le plus rapide). Gemma 3 4B (~3 Go, petit modele Google de generation actuelle, multimodal). Evitez les modeles 13B+.
  • 12 Go de VRAM (RTX 4070 Ti, RTX 5070, Intel B770) : Llama 3.1 8B (4,7 Go, rapide avec de la marge). Qwen3 14B Q4_K_M (8,5 Go, meilleur raisonnement a budget serre). Qwen3 8B (5 Go, meilleur multilingue + codage). DeepSeek-R1 8B (5 Go, meilleur raisonnement). Evitez les modeles 30B+ et MoE comme Llama 4 Scout (~55 Go en Q4).
  • 16 Go de VRAM (RTX 4080, RTX 5070 Ti, RTX 5080) : Mistral Small 3.1 24B Q4_K_M (14 Go, meilleure qualite du palier). Devstral Small 24B Q4_K_M (~16 Go) pour le codage agentique. Qwen3 14B (9 Go, rapide avec marge de contexte). Llama 3.3 70B en Q2_K (17 Go, possible mais qualite degradee).
  • 24 Go de VRAM (RTX 5090, RTX 4090, Tesla L40) : Qwen 3.6 27B Q4_K_M (~16 Go, 77,2 % SWE-bench, meilleur modele de codage dense). DeepSeek-R1 32B Q4_K_M (~19 Go, meilleur raisonnement). Qwen3 32B Q5_K_M (~21 Go). Llama 3.3 70B necessite 2x GPU de 24 Go en Q4_K_M.
  • 32 Go de VRAM (RTX 5090) : Llama 3.3 70B Q4_K_M (40 Go -- necessite un deport CPU minimal pour les dernieres couches). Qwen3 32B (19 Go, tient entierement avec 13 Go de reserve). Pour le codage agentique, la gamme Kimi K2 (MoE, 1T total / 32B actifs, MIT modifie) est le choix poids lourd -- Kimi K2.7 Code (juin 2026) est le plus recent, K2.6 etant la version generale precedente ; les deux necessitent quantification et deport important a ce palier. La RTX 5090 est le premier GPU grand public unique qui accueille un 70B dense avec un deport minimal.
  • 48+ Go de VRAM (RTX 6000 Ada, A100, DGX Spark) : Llama 3.3 70B Q4_K_M (40 Go, tient entierement). Llama 4 Scout (17B actifs / 109B total MoE, ~55 Go en Q4 -- meilleur choix long contexte 10M tokens / multimodal). Llama 4 Maverick (17B actifs, 400B total, MoE). Llama 3.3 70B Q8_0 (70 Go -- necessite une A100 de 80 Go). Le NVIDIA DGX Spark (128 Go unifies) accueille tout modele a poids ouverts y compris le 70B en Q8_0 avec 58 Go de reserve.

Meilleurs LLM locaux pour 16 Go de VRAM (2026)

Le meilleur LLM local pour un GPU de 16 Go de VRAM en 2026 est Mistral Small 3.1 24B en Q4_K_M : il utilise ~13 Go, tourne a 55 tok/sec et est le modele generaliste le plus performant qui tient avec de la marge de contexte. Les cartes de 16 Go (NVIDIA RTX 5080, RTX 5070 Ti, RTX 4080 d'occasion ou une RTX 4090 de portable) plafonnent aux modeles 14-24B — un modele 70B necessite ~40 Go et ne tient pas.

Pour le codage agentique, Devstral Small 24B Q4_K_M tient a ~16 Go ; pour le raisonnement, DeepSeek-R1 14B Q8_0 est le choix. Le Mistral Small 4 plus recent (mars 2026) est un modele unique qui integre raisonnement, vision et codage et est le successeur naturel comme defaut de la classe 16 Go. Le tableau ci-dessous montre ce qui tient et ce qui ne tient pas — les lignes « Ne tient PAS » sont l'erreur la plus courante des proprietaires de 16 Go.

ModelQuantizationVRAM UsedSpeed (RTX 4080)Best ForFits 16 GB?
Mistral Small 3.1 24BQ4_K_M~13 GB55 tok/secDiscussion generale✅ Oui
Devstral Small 24BQ4_K_M~16 GB45 tok/secCodage agentique✅ Juste
Qwen3 14BQ8_0~15 GB45 tok/secCodage + raisonnement✅ Oui
DeepSeek-R1 14BQ8_0~15 GB40 tok/secMaths + analyse✅ Oui
Llama 3.1 8BFP16~16 GB70 tok/secReponses les plus rapides✅ Juste
Llama 3.3 70BQ4_K_M~39 GB----❌ Non (necessite 39 GB)
Graphique a barres montrant quels modeles tiennent dans 16 Go de VRAM : Mistral Small 3.1 24B Q4_K_M (13 Go ✅), Devstral Small 24B Q4_K_M (16 Go ✅), Qwen3 14B Q8_0 (15 Go ✅), Llama 3.3 70B Q4_K_M (39 Go ❌). Meilleur choix : Mistral Small 3.1 24B pour 55 tok/sec.
Graphique a barres montrant quels modeles tiennent dans 16 Go de VRAM : Mistral Small 3.1 24B Q4_K_M (13 Go ✅), Devstral Small 24B Q4_K_M (16 Go ✅), Qwen3 14B Q8_0 (15 Go ✅), Llama 3.3 70B Q4_K_M (39 Go ❌). Meilleur choix : Mistral Small 3.1 24B pour 55 tok/sec.

ProTip: 🏆 Meilleur global pour 16 Go : Mistral Small 3.1 24B Q4_K_M a ~13 Go, 55 tok/sec. Pour le codage agentique, utilisez Devstral Small 24B (Mistral AI, France) a 45 tok/sec. Meilleur raisonnement : DeepSeek-R1 14B Q8_0 a 40 tok/sec.

⚠️Warning: Les GPU RTX 4090 de portable ont 16 Go de VRAM (pas 24 Go). Ils partagent le meme plafond de modeles que la RTX 4080 de bureau.

KeyPoint: Quand passer a 24 Go (RTX 4090 de bureau) : uniquement si vous avez besoin de modeles 32B+ en Q8, ou voulez faire tourner deux modeles simultanement sans rechargement.

Quels LLM locaux tournent le mieux sur 12 Go de VRAM ?

Sur un GPU de 12 Go de VRAM (NVIDIA RTX 5070, RTX 4070 Ti ou RTX 3060 12 Go), vous pouvez faire tourner des modeles 7-8B en Q8 ou 14B en Q4_K_M. Note : les modeles MoE comme Llama 4 Scout NE tiennent PAS ici -- bien que Scout n'active que 17B parametres par token, les 109B experts au total doivent etre charges en memoire, necessitant ~55 Go en Q4.

Llama 3.1 8B en Q8_0 est le choix le plus fiable pour les configurations prudentes : 9 Go de VRAM, 80 tok/sec et qualite complete de suivi d'instructions. Qwen3 14B en Q4_K_M tient aussi a ~8,5 Go et offre un raisonnement nettement meilleur que le palier 8B.

ModelQuantizationVRAM UsedSpeed (RTX 4070 Ti)Best ForFits 12 GB?
Llama 3.1 8BQ8_0~9 GB80 tok/secMeilleur global, discussion generale + codage✅ Oui
Qwen3 14BQ4_K_M~8.5 GB65 tok/secMeilleur raisonnement a budget serre✅ Oui
Llama 3.2 11B VisionQ5_K_M~8 GB65 tok/secTaches image + texte✅ Oui
Qwen3 8BQ8_0~8 GB85 tok/secMeilleur multilingue + codage✅ Oui
Mistral Small v0.3FP16~14 GB----❌ Non (necessite 14 GB en FP16)
Llama 4 Scout (109B total MoE)Q4_K_M~55 GB----❌ Non (les 109B experts doivent se charger)

ProTip: 🏆 Meilleur global pour 12 Go : Llama 3.1 8B Q8_0 a ~9 Go, 80 tok/sec. Pour un meilleur raisonnement sur la meme carte, utilisez Qwen3 14B Q4_K_M a ~8,5 Go. Llama 4 Scout ne tient pas -- ses 109B experts MoE au total necessitent ~55 Go en Q4.

KeyPoint: La RTX 3060 12 Go est le point d'entree economique (~$200 d'occasion). Elle fait tourner tous les modeles 12 Go mais a ~60-70 tok/sec contre ~80-90 tok/sec sur RTX 4070 Ti en raison d'une architecture memoire plus ancienne.

Quels modeles 70B tiennent vraiment dans 24 Go de VRAM (RTX 4090) ?

Le besoin materiel pour faire tourner un modele 70B en local a une qualite Q4_K_M utilisable est de ~40 Go de VRAM — donc une seule RTX 4090 de 24 Go ne suffit pas. Vos vraies options pour le 70B en 2026 sont : 2x RTX 5090 (64 Go combines), une RTX 5090 (32 Go) avec un leger deport CPU, un GPU serveur de 48-80 Go (RTX 6000 Ada / A100), ou un Apple M5 Max / systeme a 128 Go de memoire unifiee. L'idee fausse courante est que « Q4 est petit » — a 70B parametres, meme Q4 necessite ~40 Go.

Sur une seule carte de 24 Go, la meilleure strategie est un modele 27-32B, qui offre une forte qualite et tient confortablement avec de la marge de contexte. Qwen3.6 27B en Q4_K_M est le meilleur modele de codage dense (77,2 % SWE-bench) ; DeepSeek-R1 32B est le meilleur choix raisonnement. Un GPU de 24 Go ne peut accueillir le 70B qu'en Q2_K, ou la qualite chute nettement. Voir comment faire tourner des modeles 70B sur 24 Go de VRAM pour les techniques de deport et multi-GPU.

ModelQuantizationVRAM RequiredFits 24 GB?Speed (RTX 4090)Notes
Qwen 3.6 27BQ4_K_M~16 GB✅ Oui55 tok/secMeilleur modele de codage dense, 77,2 % SWE-bench
DeepSeek-R1 32BQ4_K_M~19 GB✅ Oui60 tok/secMeilleur raisonnement, forte qualite globale
Qwen3 32BQ5_K_M~21 GB✅ Oui55 tok/secHaute qualite, excellent codage + instruction
Qwen3 32BQ8_0~34 GB❌ Non--Necessite un GPU de 48 GB
Llama 3.3 70BQ2_K~24 GB⚠️ Tout juste30 tok/secTient mais la qualite Q2 est nettement degradee
Llama 3.3 70BQ4_K_M~39 GB❌ Non--Necessite 2x RTX 4090 ou A100 80 GB
Besoins en VRAM vs limite de 24 Go de la RTX 4090 : Qwen 3.6 27B Q4_K_M (16 Go ✅), DeepSeek-R1 32B Q4_K_M (19 Go ✅), Qwen3 32B Q5_K_M (21 Go ✅), Llama 3.3 70B Q4_K_M (39 Go ❌ -- depasse 24 Go de 63 %). Point ideal : modeles 27-32B en Q4-Q5.
Besoins en VRAM vs limite de 24 Go de la RTX 4090 : Qwen 3.6 27B Q4_K_M (16 Go ✅), DeepSeek-R1 32B Q4_K_M (19 Go ✅), Qwen3 32B Q5_K_M (21 Go ✅), Llama 3.3 70B Q4_K_M (39 Go ❌ -- depasse 24 Go de 63 %). Point ideal : modeles 27-32B en Q4-Q5.

KeyPoint: 🏆 Meilleur pour RTX 4090 (24 Go) : Qwen 3.6 27B Q4_K_M (~16 Go, 77,2 % SWE-bench) pour le meilleur modele de codage dense. Pour le raisonnement : DeepSeek-R1 32B Q4_K_M (~19 Go, 60 tok/sec). Meilleur que Llama 3.3 70B Q2_K avec bien moins de VRAM.

⚠️Warning: Si vous avez specifiquement besoin de la qualite 70B en Q4+, la RTX 4090 n'est pas le bon GPU. Il vous faut 2x RTX 4090 (48 Go combines via parallelisme tensoriel) ou une RTX 6000 Ada (48 Go). Faire tourner le 70B en Q2_K sur une seule 4090 nuit nettement a la qualite de sortie.

Quel CPU et quelle RAM vous faut-il ?

Avec un GPU dedie, le CPU et la RAM sont des composants secondaires. Le GPU gere le calcul matriciel ; le CPU/RAM gerent la preparation du contexte. Pour une comparaison complete des vitesses d'inference GPU vs CPU vs Apple Silicon, voir le guide GPU vs CPU vs Apple Silicon.

CPU minimum : processeur 8 cœurs (Intel Core i7 14e generation, AMD Ryzen 7 7700X ou plus recent). Les CPU plus anciens ajoutent 20 %+ de latence.

RAM : 16 Go minimum (avec GPU). Sans GPU, 32 Go+ recommandes. La RAM ne limite pas directement la taille du modele lorsqu'un GPU est present.

Stockage : SSD de 500 Go pour les fichiers de modeles et l'OS. Le M.2 NVMe est prefere (chargement de modele plus rapide).

Quels modeles tournent bien sur 16 Go de RAM systeme sans GPU ?

Sans GPU, une machine avec 16 Go de RAM systeme peut faire tourner des modeles 3B-7B a 8-20 tokens/sec via l'inference CPU. Le goulot d'etranglement est la bande passante memoire, pas la capacite de RAM -- les CPU ont une bande passante bien inferieure aux GPU, ce qui explique une inference 5-10x plus lente.

Sur 16 Go de RAM systeme, la regle pratique est : taille du fichier de modele + 4 Go de surcharge OS ≤ 16 Go. Un modele 7B en Q4_K_M (4,9 Go) tient, mais laisse peu de marge pour les contextes longs. Le tableau ci-dessous montre les options realistes en juin 2026.

Pour un guide complet de modeles optimises en vitesse couvrant les paliers CPU seul, 4 Go, 6 Go et 8 Go de VRAM avec de vrais benchmarks, voir **Les LLM locaux les plus rapides pour PC d'entree de gamme**.

ModelQuantizationRAM UsedSpeed (Ryzen 9 7950X)Best ForNotes
Gemma 2 2BQ8_0~2.7 GB28 tok/secLe plus rapide, RAM minimaleLaisse 13 GB libres pour l'OS
Phi-4 Mini 3.8BQ4_K_M~2.5 GB25 tok/secCodage sur CPUMeilleur rapport qualite-par-RAM
Llama 3.2 3BQ8_0~3.8 GB20 tok/secDiscussion generale, RAM faibleFiable, largement pris en charge
Llama 3.1 8BQ4_K_M~4.9 GB12 tok/secMeilleure qualite CPU12 tok/sec est lent mais utilisable pour des taches par lots
Llama 3.1 8BQ8_0~9 GB8 tok/secQualite max sur CPUTrop lent pour un usage interactif sur la plupart des CPU
Vitesses d'inference CPU seul sur Ryzen 9 7950X : Gemma 2 2B Q8_0 (28 tok/sec le plus rapide), Phi-4 Mini Q4_K_M (25 tok/sec meilleur choix), Llama 3.1 8B Q8_0 (8 tok/sec). Une RTX 3060 d'occasion ($200) atteint 5-8x plus vite.
Vitesses d'inference CPU seul sur Ryzen 9 7950X : Gemma 2 2B Q8_0 (28 tok/sec le plus rapide), Phi-4 Mini Q4_K_M (25 tok/sec meilleur choix), Llama 3.1 8B Q8_0 (8 tok/sec). Une RTX 3060 d'occasion ($200) atteint 5-8x plus vite.

ProTip: 🏆 Meilleur pour 16 Go de RAM, sans GPU : Phi-4 Mini 3.8B Q4_K_M (2,5 Go, 25 tok/sec). Offre un codage et un raisonnement etonnamment solides pour sa taille.

KeyPoint: Realite vitesse CPU vs GPU : une NVIDIA RTX 3060 12 Go d'occasion (~$200) fait tourner Llama 3.1 8B a 70+ tok/sec -- 5-8x plus vite que le Ryzen 9 7950X en inference CPU seul. Si la vitesse compte, achetez un GPU avant d'ajouter de la RAM.

⚠️Warning: Faire tourner un modele 7B sur 16 Go de RAM en CPU seul laisse moins de 7 Go pour l'OS et le navigateur. Avec de longs contextes de conversation (32k+ tokens), le fichier de modele grossit au-dela de sa taille de base et peut provoquer un epuisement de la RAM. Maintenez la taille du contexte sous 4096 sur les machines CPU seul de 16 Go.

De combien de stockage avez-vous besoin ?

Les fichiers de modeles sont volumineux : un modele 7B en quantification 4 bits pese 4-5 Go. Planifiez le stockage selon le nombre et la taille des modeles que vous souhaitez conserver en local.

  • SSD de 500 Go : OS + 1-2 petits modeles (3B, 7B)
  • SSD de 1 To : OS + 3-5 modeles (mix de 7B et 13B)
  • SSD de 2 To : OS + 10+ modeles (tailles variees)
  • RAID NVMe de 4 To : configuration de production, chargement de modele rapide

Quelle configuration materielle acheter ?

Construire une machine LLM locale de zero signifie privilegier le GPU d'abord, puis le CPU et la RAM. Voici trois configurations realistes. Pour les configurations multi-GPU, voir le guide LLM local multi-GPU. Pour les installations domotiques, les mini PC compacts conviennent souvent mieux que les tours de bureau completes — voir le meilleur mini PC pour Home Assistant avec IA locale →.

BudgetGPUCPURAMModelsCost
$1500 (entree)RTX 4070 Tii7 1370016 GB7-13BRealiste
$2500 (solide)RTX 4080i7 14700K32 GB13-30BRecommande
$4000 (haut de gamme)2× RTX 4090Ryzen 9 7950X128 GBTous (70B+)Excessif pour usage personnel
Trois configurations : $1500 entree de gamme (RTX 4070 Ti, i7 13700, 16 Go) pour modeles 7-13B, $2500 solide (RTX 4080, i7 14700K, 32 Go) pour 13-30B, $4000 haut de gamme (2× RTX 4090, Ryzen 9, 128 Go) pour tout modele. Le milieu de gamme offre le meilleur rapport qualite-prix.
Trois configurations : $1500 entree de gamme (RTX 4070 Ti, i7 13700, 16 Go) pour modeles 7-13B, $2500 solide (RTX 4080, i7 14700K, 32 Go) pour 13-30B, $4000 haut de gamme (2× RTX 4090, Ryzen 9, 128 Go) pour tout modele. Le milieu de gamme offre le meilleur rapport qualite-prix.

Que faire si vous ne pouvez pas vous offrir le materiel ?

Si un GPU a $250-400 depasse votre budget, ou si votre portable est trop ancien pour prendre en charge les moteurs d'inference modernes, les LLM locaux ne seront peut-etre pas rentables pour vous en 2026.

Calculez le cout reel :

  • Local : $800-2,000 de materiel initial + electricite + maintenance sur 2-3 ans
  • Cloud : $5-50/mois pour un usage developpeur typique (API Llama ou GPT-5.5 mini)

Pour les utilisateurs legers (< 100 000 tokens/mois), les API cloud coutent $5-10/mois et ne necessitent aucun materiel. Pour les utilisateurs intensifs (> 10M tokens/mois), le local est rentabilise en 6-12 mois.

Comparez tous les compromis cout et performance local vs cloud** pour trouver votre point d'equilibre. Beaucoup de developpeurs decouvrent que le cloud est moins cher pour leur usage reel.

Vous achetez deja en dessous des paliers de VRAM recommandes ? Voir Meilleure appli IA locale pour un PC d'entree de gamme pour savoir quelles combinaisons de modele et d'appli tournent vraiment sur 8 Go ou moins.

Comment maximiser la vitesse de llama.cpp sur RTX 4070 Ti ?

Avec les bons reglages, llama.cpp sur une RTX 4070 Ti atteint 85-95 tokens/sec sur Llama 3.1 8B Q4_K_M -- plus du double de la vitesse par defaut a la sortie de boite. Le drapeau le plus impactant est `--n-gpu-layers 99`, qui deporte toutes les couches du modele sur le GPU. Sans lui, les couches reviennent au CPU, creant un goulot d'etranglement severe.

Ces reglages s'appliquent directement a llama.cpp et a Ollama (qui utilise llama.cpp en interne). Ollama regle `--n-gpu-layers 99` automatiquement sur le materiel NVIDIA si les pilotes sont installes correctement.

  • Q4_K_M bat Q4_0 de 15-20 % sur RTX 4070 Ti. La variante K_M utilise une quantification mixte que les cœurs tensoriels NVIDIA accelerent plus efficacement. Choisissez toujours Q4_K_M plutot que Q4_0 quand les deux sont disponibles.
  • IQ4_XS est le format le plus petit (~8 % plus petit que Q4_K_M) avec une perte de qualite minimale. Utile pour faire tenir Qwen3 14B dans 12 Go de VRAM quand Q4_K_M est limite.
  • Q5_K_M tourne a presque la meme vitesse que Q4_K_M sur les GPU NVIDIA (< 5 % plus lent) tout en offrant une qualite de sortie nettement meilleure. A utiliser quand vous avez 20 % de marge de VRAM.
FlagWhat It DoesImpactDefaultNotes
--n-gpu-layers 99Deporte toutes les couches sur le GPU+100-150 % de vitesse0 (CPU seul)Drapeau le plus important -- reglez-le toujours en premier
--threads [cores]Threads CPU pour le traitement du prompt+10-15 % de vitesseTous les threads (HT inclus)Reglez sur le nombre de cœurs physiques uniquement. L'hyperthreading nuit a l'inference.
--ctx-size 2048Taille du cache KV / fenetre de contexteEconomise 0,5-8 Go de VRAM40962048 = ~0,5 Go de VRAM en plus. 32768 = ~8 Go en plus. N'augmentez que si necessaire.
--n-batch 512Taille de lot du traitement du prompt+5-10 % de debit512Bon defaut. Augmentez a 1024 pour les charges par lots si la VRAM le permet.
--flash-attnNoyau Flash Attention 2-20-30 % de VRAM en contexte longDesactiveDisponible depuis llama.cpp b2900. Reduit la VRAM pour les contextes > 8k tokens.
Config llama.cpp par defaut : ~40 tok/sec. Optimisee (--n-gpu-layers 99 + --ctx-size 2048 + --flash-attn) : ~90 tok/sec -- une amelioration de vitesse de 125 % sur RTX 4070 Ti faisant tourner Llama 3.1 8B Q4_K_M.
Config llama.cpp par defaut : ~40 tok/sec. Optimisee (--n-gpu-layers 99 + --ctx-size 2048 + --flash-attn) : ~90 tok/sec -- une amelioration de vitesse de 125 % sur RTX 4070 Ti faisant tourner Llama 3.1 8B Q4_K_M.

ProTip: Lancez `ollama ps` pour confirmer que votre modele est charge sur le GPU. Si l'utilisation du GPU affiche 0 % dans `nvidia-smi` pendant la generation, les pilotes ne routent pas correctement vers CUDA. Reinstallez le NVIDIA CUDA Toolkit et redemarrez Ollama.

KeyPoint: Reference vitesse RTX 4070 Ti : Llama 3.1 8B Q4_K_M = 85-95 tok/sec. Llama 3.3 13B Q4_K_M = 60-70 tok/sec. Qwen3 7B Q8_0 = 90-95 tok/sec. Cela suppose --n-gpu-layers 99 et --ctx-size 2048.

⚠️Warning: Augmenter --ctx-size au-dela de 8192 sur un GPU de 12 Go provoquera un redeport des couches du modele vers le CPU si le cache KV epuise la VRAM restante. Si la vitesse chute soudainement sur de longues conversations, reduisez la taille du contexte ou utilisez --flash-attn.

Le materiel Mac peut-il faire tourner des LLM locaux ?

Apple Silicon (serie M) fait tourner les LLM locaux efficacement grace a la memoire unifiee partagee entre CPU et GPU. Le M5 de base est sorti en octobre 2025 ; les M5 Pro et M5 Max ont suivi en mars 2026. Apple mesure jusqu'a 4x plus de rapidite dans le traitement de prompt LLM (temps jusqu'au premier token) sur M5 Pro/Max par rapport a la generation M4, bien que les gains de generation de tokens soient plus modestes.

Le M5 Max avec 128 Go de memoire unifiee (jusqu'a 614 Go/s) fait tourner les modeles 70B en Q4_K_M confortablement — environ 12-15 tok/sec — dans un portable ou un Mac Studio. Le M5 Pro (jusqu'a 64 Go unifies, 307 Go/s) gere les modeles 32B avec une marge genereuse pour le cache KV et le multitache. En juin 2026, le M5 Max est le meilleur Apple Silicon disponible ; un Mac Studio M5 Ultra est evoque mais pas encore sorti.

Sur un MacBook avec 8 Go de RAM, tenez-vous-en aux modeles 3-4B. Avec la memoire unifiee partagee entre l'OS et le modele, 8 Go accueille de facon realiste Phi-4 Mini 3.8B, Llama 3.2 3B ou Gemma 3 4B en Q4_K_M via Ollama ou llama.cpp (les deux utilisent le backend GPU Metal automatiquement). Un modele 7B est limite a 8 Go et fera du swap sous charge ; 16 Go est le minimum confortable pour les modeles 7-8B sur un Mac.

MacGPU MemoryBest ForLimitation
Serie M 8 GB (Air / base)8 GB unifiesmodeles 3-4B (Phi-4 Mini, Gemma 3 4B)7B limite ; l'OS se dispute la RAM
M3 Pro MacBook Pro 16"18 GB unifiesmodeles 7-8B (rapide)Peut faire tourner du 14B lentement
M4 Max36-128 GB unifiesmodeles 13-32B70B uniquement en config 128 GB max
M5 Pro (MacBook Pro)64 GB unifies, 307 GB/smodeles 32B confortablementLlama 4 Scout tourne bien
M5 Max (MacBook Pro / Studio)128 GB unifies, jusqu'a 614 GB/smodeles 70B en Q4_K_M~12-15 tok/sec sur 70B
Comparaison du materiel Mac : serie M 8 Go (modeles 3-4B), M3 Pro 16" (18 Go, 7-8B), M4 Max (36-128 Go, 13-32B), M5 Pro (64 Go, 32B), M5 Max (128 Go, 70B en Q4_K_M ~12-15 tok/sec). 16 Go unifies est le minimum confortable pour les modeles 7B sur un Mac.
Comparaison du materiel Mac : serie M 8 Go (modeles 3-4B), M3 Pro 16" (18 Go, 7-8B), M4 Max (36-128 Go, 13-32B), M5 Pro (64 Go, 32B), M5 Max (128 Go, 70B en Q4_K_M ~12-15 tok/sec). 16 Go unifies est le minimum confortable pour les modeles 7B sur un Mac.

Quand utiliser du materiel serveur plutot que grand public ?

Pour un deploiement en production (fonctionnement 24h/24 et 7j/7, plusieurs utilisateurs), le materiel de classe serveur est recommande plutot que les GPU grand public. Le materiel grand public est optimise pour le jeu, pas pour l'inference soutenue.

  • Grand public (RTX 5090) : ~$2,000 prix conseille (~$4,000 en rue en 2026), 32 Go de VRAM, mono-utilisateur, sujet au throttling thermique sous charge soutenue.
  • Serveur (RTX 6000 Ada) : ~$7,000, 48 Go de VRAM, concu pour un usage 24h/24, meilleur refroidissement, correction d'erreurs.
  • Recommandation : commencez par une RTX 5090. Si vous faites tourner des modeles 70B 24h/24 pour plusieurs utilisateurs, passez a une double A100 ou RTX 6000 Ada.
Materiel grand public vs serveur : RTX 5090 (~$4,000 rue, 32 Go, mono-utilisateur, temps partiel) vs RTX 6000 Ada ($7,000+, 48 Go, multi-utilisateur, service 24h/24). Commencez par du materiel grand public ; passez au niveau serveur uniquement pour des services de production.
Materiel grand public vs serveur : RTX 5090 (~$4,000 rue, 32 Go, mono-utilisateur, temps partiel) vs RTX 6000 Ada ($7,000+, 48 Go, multi-utilisateur, service 24h/24). Commencez par du materiel grand public ; passez au niveau serveur uniquement pour des services de production.

NVIDIA DGX Spark : ordinateur IA de bureau de 128 Go

Le NVIDIA DGX Spark ($4,699 en fevrier 2026, contre $3,999 a son lancement) est un ordinateur IA de bureau compact de 128 Go qui peut contenir entierement Llama 3.3 70B en Q8_0 en memoire unifiee. Les Apple Mac Studio / MacBook Pro a 128 Go et les systemes AMD Strix Halo 128 Go peuvent faire de meme, il n'est donc pas unique — mais il est livre avec la pile logicielle CUDA de NVIDIA.

Construit sur le superpuce GB10 Grace Blackwell, le DGX Spark est sorti en octobre 2025 avec 128 Go de memoire unifiee LPDDR5x. Note : sa bande passante memoire reelle est d'environ 273 Go/s, donc la generation de tokens en 70B dense est lente — des tests independants (LMSYS) ont mesure environ 3 tok/sec sur Llama 70B. Le chiffre de calcul FP4 affiche en titre ne se traduit pas par un decodage rapide en flux unique. Le DGX Spark convient mieux aux grands modeles mixture-of-experts (Llama 4 Scout/Maverick, Kimi K2) ou seule une fraction des parametres s'active par token.

SpecValue
Memoire unifiee128 GB LPDDR5x
Llama 3.3 70B en Q4_K_M✅ tient (40 GB)
Llama 3.3 70B en Q8_0✅ tient (70 GB)
Vitesse d'inference (70B)~3 tok/s
Prix$4,699
OSDGX OS (Ubuntu), Ollama preinstalle
Bande passante memoire~273 GB/s (reelle)
vs RTX 50904× plus de memoire, mais bande passante bien inferieure

KeyPoint: Un GPU dedie (RTX 5090, ou double 5090) genere les tokens bien plus vite que le DGX Spark sur les modeles denses grace a une bande passante memoire bien superieure. Choisissez le DGX Spark pour la capacite — contenir de tres grands modeles MoE dans une seule machine — pas pour la vitesse 70B en flux unique.

Quelles sont les erreurs materielles les plus courantes ?

  • Acheter du CPU seul alors qu'un GPU est disponible. Une RTX 4070 Ti a $600 surpassera un CPU a $2000. Le GPU domine la vitesse des LLM.
  • Ne pas tenir compte de la surcharge VRAM. Taille du fichier de modele + surcharge systeme + contexte = VRAM totale utilisee. Achetez toujours 25 % de plus que la taille du modele.
  • Supposer que tous les modeles 70B tiennent dans 40 Go de VRAM. Ils tiennent, tout juste, en quantification Q4 (4 bits) uniquement. Q5 necessite 45 Go+.
  • Ignorer l'alimentation et le refroidissement. La RTX 4090 consomme 575 W. Il faut une alimentation de 1200 W et un bon flux d'air dans le boitier.
  • Penser qu'un vieux GPU fera l'affaire. La RTX 2080 est 10x plus lente que la RTX 4070 Ti. L'architecture GPU moderne surpasse nettement les generations precedentes.
  • Ne pas tenir compte de la VRAM du cache KV en plus des poids du modele : un modele 7B en Q4_K_M represente 4,7 Go de poids -- mais avec une fenetre de contexte de 32K, le cache KV ajoute ~4 Go de plus, soit ~8,7 Go au total. Sur une carte de 8 Go cela provoque des erreurs OOM. Ajoutez toujours 25-100 % a la taille du modele selon la longueur du contexte.
  • Considerer le cout du materiel comme le seul cout : si vous ne pouvez pas vous offrir 16 Go+ de RAM ou un GPU dedie, les API cloud coutent moins cher pour un usage a faible volume ($0,01-0,05 pour 1K tokens). Voir LLM local vs cloud : analyse des couts pour le compromis complet.

Quelles regles de conformite regionales s'appliquent au materiel LLM local ?

UE (RGPD + reglement IA de l'UE) : faire tourner des LLM en local maintient toutes les donnees d'inference dans votre infrastructure, eliminant les inquietudes de transfert transfrontalier de donnees au titre de l'article 44 du RGPD. Les obligations du reglement IA de l'UE pour les systemes d'IA a haut risque autonomes (annexe III) devaient initialement s'appliquer a partir du 2 aout 2026, mais le « Digital Omnibus on AI » — convenu a titre provisoire en mai 2026 et en attente d'adoption formelle en juin 2026 — repousse cette date au 2 decembre 2027 (l'IA a haut risque integree dans des produits reglementes etant reportee au 2 aout 2028). Les obligations de transparence de l'article 50 du reglement IA s'appliquent toujours selon le calendrier initial. Le materiel local satisfait par defaut aux exigences de residence des donnees.

Japon (APPI) : la reforme APPI de 2022 du Japon a renforce les regles de notification de violation et de transfert transfrontalier mais n'impose pas d'exigence de minimisation des donnees specifique a l'IA (elle s'appuie sur les obligations generales de limitation de finalite). Plus pertinents pour l'IA sont le paquet de reforme APPI 2025 du Japon et sa premiere loi sur l'IA — la loi de promotion de l'IA (en vigueur depuis juin 2025), un cadre privilegiant l'innovation sans sanctions. Le materiel LLM sur site garde les donnees personnelles dans votre infrastructure pour le traitement de documents et l'automatisation du support client.

Chine : les mesures interimaires pour les services d'IA generative de la Cyberspace Administration of China (CAC) (en vigueur en aout 2023) exigent des fournisseurs ayant une influence sur l'opinion publique de realiser une evaluation de securite CAC et un depot d'algorithme. Depuis le 1er septembre 2025, la Chine impose aussi l'etiquetage des contenus generes par IA au titre des mesures d'etiquetage de la CAC et de la norme nationale GB 45438-2025. Faire tourner du materiel local avec des modeles a poids ouverts evite l'exposition de conformite basee sur API pour un usage interne en entreprise.

Questions frequentes sur le materiel LLM local

Puis-je faire tourner un modele 70B sur un portable ?

Uniquement avec une quantification lourde (Q2, 2 bits) et un repli CPU. Peu pratique. Les portables conviennent aux modeles 7B. Pour le 70B, utilisez un bureau avec RTX 4090+.

La RTX 4090 est-elle excessive pour un usage personnel ?

Pas si vous faites tourner des modeles 70B ou plusieurs modeles simultanement. Pour de la simple discussion 7B, une RTX 4070 Ti suffit. La RTX 4090 est perenne si vous voulez de la flexibilite.

Dois-je acheter une RTX 5090 ou attendre la RTX 6090 ?

La RTX 5090 est disponible (debut 2026). Les GPU serveur RTX 6000 Ada sont aussi solides. A moins d'avoir un budget illimite, la RTX 5090 ou 4090 sont excellentes.

Comment la quantification affecte-t-elle la qualite ?

FP16 = 100 % de qualite (reference), Q8 = 99 %, Q5 = 95 %, Q4 = 90-95 %. Pour la plupart des taches, Q4 est indiscernable du FP16.

Puis-je mettre a niveau le GPU plus tard ?

Oui. Commencez avec une RTX 4070 Ti maintenant, passez a une RTX 5090 dans 2 ans si besoin. Le GPU est le composant le plus remplacable.

De combien de RAM ai-je besoin pour faire tourner un modele 7B en local ?

8 Go de RAM est le minimum absolu pour un modele 7B. 16 Go est recommande pour un usage confortable aux cotes du navigateur et de l'OS. 32 Go offre de la marge pour des fenetres de contexte plus grandes et le multitache.

Puis-je faire tourner des LLM locaux sur Apple Silicon (M1/M2/M3/M4/M5) ?

Oui. Apple Silicon utilise une memoire unifiee partagee entre CPU et GPU. Le M5 Pro (64 Go, 307 Go/s) fait bien tourner les modeles 32B. Le M5 Max (128 Go, jusqu'a 614 Go/s) fait tourner le 70B en Q4_K_M a environ 12-15 tok/sec. Sur un Mac de 8 Go, tenez-vous-en aux modeles 3-4B.

Quels sont les meilleurs modeles llama.cpp pour un MacBook avec M3 et 8 Go de RAM ?

Sur un MacBook M3 avec 8 Go de RAM, faites tourner des modeles 3-4B en Q4_K_M : Phi-4 Mini 3.8B, Llama 3.2 3B ou Gemma 3 4B. Utilisez Ollama ou llama.cpp — les deux utilisent le backend GPU Metal automatiquement. Un modele 7B est limite et fera du swap sous charge ; maintenez le contexte sous 4096 tokens. Pour un usage confortable en 7-8B sur un Mac, 16 Go de memoire unifiee est le minimum pratique.

Quel CPU est le meilleur pour les LLM locaux sans GPU ?

Des CPU a grand nombre de cœurs avec un grand cache L3 : AMD Ryzen 9 7950X ou Intel Core i9-14900K. Comptez 5-15 tokens/sec pour les modeles 7B. L'inference CPU est 3-5x plus lente que le GPU.

La vitesse de stockage affecte-t-elle les performances du LLM local ?

Oui, au moment du chargement du modele. Un SSD NVMe (3-7 Go/s) charge un modele 7B en 2-5 secondes contre 20-60 secondes sur un disque dur. La vitesse d'inference apres chargement n'est pas affectee par le stockage.

Puis-je utiliser plusieurs GPU pour faire tourner des modeles plus grands ?

Oui, via le parallelisme tensoriel. Deux RTX 5090 (32 Go chacune) offrent 64 Go de VRAM, assez pour un modele 70B en Q4_K_M. Ollama et llama.cpp prennent en charge le multi-GPU via --n-gpu-layers reparti sur les cartes.

Quels sont les meilleurs LLM locaux pour 16 Go de VRAM en 2026 ?

Mistral Small 3.1 24B Q4_K_M (13 Go, 55 tok/sec) est le meilleur global pour RTX 5080 / RTX 5070 Ti / RTX 4090 de portable. Pour le codage agentique : Devstral Small 24B Q4_K_M (16 Go, 45 tok/sec). Pour le raisonnement : DeepSeek-R1 14B (15 Go, 40 tok/sec). Le Mistral Small 4 plus recent (mars 2026) est le successeur tout-en-un. Llama 3.3 70B ne tient pas -- il necessite ~40 Go en Q4_K_M.

Une seule RTX 4090 peut-elle faire tourner un modele 70B a bonne qualite ?

Non -- pas a la qualite Q4_K_M. Llama 3.3 70B en Q4_K_M necessite ~39 Go de VRAM. La RTX 4090 a 24 Go. Vous pouvez le faire tourner en Q2_K (~24 Go) mais la qualite chute nettement. Meilleures options : Qwen 3.6 27B Q4_K_M (~16 Go, 77,2 % SWE-bench, meilleur codage dense) ou DeepSeek-R1 32B Q4_K_M (~19 Go, meilleur raisonnement).

Quel est le meilleur LLM local pour 16 Go de RAM systeme sans GPU ?

Phi-4 Mini 3.8B Q4_K_M (2,5 Go de RAM, ~25 tok/sec sur Ryzen 9 7950X) est la meilleure option pour l'inference CPU seul sur 16 Go de RAM systeme. Gemma 2 2B Q8 est le plus rapide a ~28 tok/sec. Llama 3.1 8B Q4_K_M (4,9 Go) tient aussi mais tourne a ~12 tok/sec -- lent pour un usage interactif.

Sources

Vous connaissez vos besoins materiels ? Trouvez le meilleur GPU economique pour les LLM locaux.

Meilleurs GPU economiques pour LLM locaux →

Note sur les faits tiers

Cet article fait référence à des modèles d’IA, des benchmarks, des prix et des licences de tiers. Le paysage de l’IA évolue rapidement. Les scores de benchmark, les conditions de licence, les noms de modèles et les prix des API peuvent changer entre le moment de la rédaction et le moment où vous lisez ceci. Avant de prendre des décisions de déploiement ou de conformité basées sur cet article, vérifiez les chiffres actuels auprès de la source officielle de chaque fournisseur : fiches de modèles Hugging Face pour les licences et benchmarks, sites web des fournisseurs pour les prix API, et EUR-Lex pour les textes RGPD et AI Act actuels. Cet article reflète les informations publiques disponibles en mai 2026.

Utilisez PromptQuorum avec un LLM local, vos propres clés API, ou les deux — vous choisissez le backend.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux