PromptQuorumPromptQuorum
Accueil/Power Local LLM/Meilleurs GPU pour LLM locaux : guide d'achat 2026
Overview & Reference

Meilleurs GPU pour LLM locaux : guide d'achat 2026

·14 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Le meilleur GPU pour les LLM locaux est celui dont la VRAM correspond à votre modèle, pas la carte la plus rapide. Un RTX 3060 12 Go exécute n'importe quel modèle 7B, un RTX 4090 24 Go gère les modèles 33B, et un RTX 5090 32 Go est la seule carte grand public capable de faire tourner un modèle 70B seule.

La plupart des conseils sur les GPU pour LLM locaux optimisent le mauvais chiffre. La vitesse en tokens par seconde décide de la rapidité de réponse d'un modèle, mais c'est la VRAM qui décide si le modèle s'exécute tout court — et un modèle qui ne tient pas en mémoire est infiniment plus lent qu'un modèle qui y tient. Ce guide compare huit GPU grand public sur quatre gammes de prix selon les chiffres qui pèsent réellement sur un achat : capacité VRAM, vitesse d'inférence mesurée, consommation et prix. Une réserve sur les prix : ils ont flambé en 2026 à cause d'une pénurie de mémoire, et les cartes se vendent désormais 1,5 à 2 fois au-dessus de leur tarif de lancement — chaque prix ici est un instantané de mai 2026, vérifiez donc le tarif actuel avant d'acheter.

Cette page contient des liens de référence vers des produits tiers. PromptQuorum n'est inscrit à aucun programme d'affiliation — ce sont de simples liens qui ne génèrent aucune commission.

Points clés

  • La VRAM est la contrainte déterminante. Un modèle qui ne tient pas en VRAM échoue au chargement ou déborde sur la RAM système et devient trop lent pour un usage interactif. Choisissez la gamme dont la VRAM correspond à votre modèle visé, puis optimisez la vitesse à l'intérieur de cette gamme.
  • Les prix ont flambé en 2026. Une pénurie de mémoire a poussé les prix GPU 1,5 à 2 fois au-dessus du tarif de lancement sur tous les marchés — un RTX 5090 coûte env. 3 800 €, pas son tarif de lancement. Traitez chaque prix ici comme un instantané de mai 2026 et appuyez-vous sur le marché de l'occasion.
  • Choix budget : NVIDIA RTX 3060 12 Go (neuf env. 340-400 €, moins cher d'occasion) — exécute tout modèle 7B à 15-20 tok/s et la plupart des modèles 13B en Q4. Le meilleur rapport qualité-prix pour débuter avec les LLM locaux en 2026.
  • Choix milieu de gamme : NVIDIA RTX 4060 Ti 16 Go (env. 780-820 €) — 16 Go de VRAM dégagent les modèles 14B avec une marge de contexte, et c'est le GPU le plus proche de son tarif de lancement, donc le moins touché par la flambée.
  • Choix haut de gamme : NVIDIA RTX 4080 Super 16 Go (env. 1 500-1 700 €) — la carte 16 Go la plus rapide, et après les mouvements de prix de 2026 elle coûte à peu près autant que le RTX 4070 Ti Super, plus lent.
  • Choix enthousiaste : NVIDIA RTX 4090 24 Go / RTX 5090 32 Go — le RTX 4090 (env. 2 900-3 200 €) exécute les modèles 33B ; le RTX 5090 (3 499-3 949 €) est la seule carte grand public capable de faire tenir un modèle 70B en Q4 sans configuration bi-GPU.
  • AMD est viable mais plus exigeant. Le RX 6700 XT (12 Go) et le RX 7800 XT (16 Go) offrent une VRAM par euro compétitive, mais la configuration ROCm ajoute des heures de travail face à NVIDIA CUDA.
  • La consommation évolue avec la gamme. Un RTX 3060 tire 170 W ; un RTX 5090 tire 575 W et exige une alimentation de 850 à 1000 W. Budgétez l'alimentation en même temps que la carte.

Faits en bref

  • Gamme budget : RTX 3060 12 Go ou RX 6700 XT 12 Go — exécute le 7B et la plupart des modèles 13B.
  • Milieu de gamme : RTX 4060 Ti 16 Go ou RX 7800 XT 16 Go — exécute confortablement les modèles 14B.
  • Haut de gamme : RTX 4080 Super 16 Go ou RTX 4070 Ti Super 16 Go — inférence 14B rapide, travail 22B léger.
  • Gamme enthousiaste : RTX 4090 24 Go ou RTX 5090 32 Go — modèles 33B, et 70B en Q4 sur le 5090.
  • Règle VRAM pour Q4_K_M : environ 0,6 Go par milliard de paramètres, plus 2-4 Go pour le contexte et l'outillage.
  • Plage de consommation : RTX 3060 170 W, RTX 4060 Ti 165 W, RTX 4070 Ti Super 285 W, RTX 4080 Super 320 W, RTX 4090 450 W, RTX 5090 575 W.
  • Réalité des prix 2026 : une pénurie de mémoire a poussé les prix 1,5 à 2 fois au-dessus du tarif de lancement ; le marché de l'occasion offre souvent le meilleur rapport qualité-prix.

Comment les huit GPU se comparent pour les LLM locaux en 2026

Les chiffres de VRAM et de consommation sont les spécifications constructeur. Les vitesses d'inférence du RTX 3060, RTX 4080 Super, RTX 4090 et RTX 5090 sont des valeurs 7B Q4 mesurées par les tests matériels de PromptQuorum ; les chiffres du RTX 4060 Ti 16 Go, du RX 7800 XT et du RTX 4070 Ti Super sont des estimations à l'échelle de la gamme. Les prix sont un instantané français de mai 2026 (TTC) — la pénurie de mémoire de 2026 les a poussés 1,5 à 2 fois au-dessus du tarif de lancement, vérifiez donc avant d'acheter.

📍 En une phrase

Pour les LLM locaux, la VRAM d'un GPU décide quels modèles vous pouvez exécuter et ses tokens par seconde décident de leur vitesse de réponse — achetez pour la première, puis optimisez la seconde.

💬 En termes simples

Voyez la VRAM comme la taille d'un bureau et le modèle comme ce que vous posez dessus. Un GPU plus rapide dégage le bureau plus vite, mais si le modèle n'y tient pas du tout, la vitesse n'entre jamais en jeu. Choisissez d'abord la gamme dont le bureau est assez grand.

GPUVRAMVitesse (7B Q4)ConsommationPrix (mai 2026)Idéal pour
RTX 3060 12 Go12 Go15-20 tok/s170 Wenv. 340-400 € neuf / moins cher d'occasionEntrée budget — tout modèle 7B
RX 6700 XT12 Go10-14 tok/s230 Wenv. 430-490 € (fin de production)VRAM la moins chère, accepte la config AMD
RTX 4060 Ti 16 Go16 Go~20-25 tok/s165 Wenv. 780-820 €Milieu de gamme — modèles 14B, faible conso
RX 7800 XT16 Go~18-24 tok/s (est.)263 Wenv. 510-560 € neuf16 Go chez AMD, accepte la config ROCm
RTX 4070 Ti Super16 Go~80-90 tok/s (est.)285 Wenv. 1 450-1 630 €14B rapide, consommation plus basse
RTX 4080 Super16 Go~120 tok/s320 Wenv. 1 500-1 700 € neufChoix de la rédaction — la 16 Go la plus rapide
RTX 409024 Go~150 tok/s450 Wenv. 2 900-3 200 € neuf / env. 2 600 € d'occasionModèles 33B, bi-GPU pour le 70B
RTX 509032 Go~160 tok/s575 W3 499-3 949 € neuf70B en Q4 sur un seul GPU
Huit GPU grand public pour les LLM locaux comparés par VRAM, vitesse d'inférence 7B Q4, consommation et prix de mai 2026 sur quatre gammes de budget. La VRAM monte de 12 Go (RTX 3060) à 32 Go (RTX 5090) ; achetez pour la taille de modèle dont vous avez besoin avant d'optimiser la vitesse.
Huit GPU grand public pour les LLM locaux comparés par VRAM, vitesse d'inférence 7B Q4, consommation et prix de mai 2026 sur quatre gammes de budget. La VRAM monte de 12 Go (RTX 3060) à 32 Go (RTX 5090) ; achetez pour la taille de modèle dont vous avez besoin avant d'optimiser la vitesse.

Quel GPU acheter ?

Votre plus gros modèle visé détermine votre gamme ; votre budget tranche entre NVIDIA et AMD à l'intérieur de cette gamme. Trouvez la ligne qui correspond à votre situation.

Votre situationAchetez ceci
J'ai moins de 400 € et je veux exécuter des modèles 7BRTX 3060 12 Go (d'occasion)
Je veux la carte la moins chère qui exécute des LLM et j'accepte le travail de configurationRX 6700 XT (d'occasion)
Je veux exécuter des modèles 14B avec un budget énergie serréRTX 4060 Ti 16 Go
Je veux une carte qui exécute le 14B rapidement et dure plusieurs annéesRTX 4070 Ti Super 16 Go
Je veux la carte 16 Go la plus rapide et le prix est secondaireRTX 4080 Super 16 Go
J'ai besoin de modèles 33B ou je prévois une future configuration bi-GPU 70BRTX 4090 24 Go
J'ai besoin d'une seule carte qui exécute des modèles 70B en Q4RTX 5090 32 Go
Je ne suis pas sûr et je veux le premier GPU le plus sûrRTX 3060 12 Go — montez en gamme plus tard si vous la dépassez

Gamme budget : RTX 3060 12 Go et RX 6700 XT

La gamme budget exécute tout modèle 7B et la plupart des modèles 13B — et pour la plupart des nouveaux utilisateurs de LLM locaux, c'est toute la capacité dont ils ont besoin. Le RTX 3060 12 Go est le choix recommandé ; le RX 6700 XT est l'alternative moins chère si vous acceptez la friction de configuration AMD. Le marché de l'occasion compte le plus dans cette gamme — les prix du neuf ont fortement grimpé avec la flambée de 2026.

  • RTX 3060 12 Go (env. 340-400 € neuf, moins cher d'occasion) : 12 Go de VRAM, 170 W, 15-20 tok/s sur les modèles 7B en Q4. Exécute Mistral 7B, Qwen3 8B, DeepSeek-R1 7B et la plupart des modèles 13B. La variante 12 Go est celle à acheter — évitez la variante 6 Go, limitée aux modèles 3B. Achetez d'occasion — le stock neuf est en fin de production et gonflé.
  • RX 6700 XT (env. 430-490 €, fin de production) : 12 Go de VRAM, 230 W, 10-14 tok/s sur les modèles 7B. La façon la moins chère d'entrer dans les LLM locaux, mais plus lente que le RTX 3060 et dépendante d'AMD ROCm, ce qui ajoute du temps de configuration.
  • Pourquoi acheter cette gamme : le coût d'entrée le plus bas, une faible consommation sur le RTX 3060, et assez de VRAM pour les modèles 7B-13B qui couvrent le chat général, l'aide au code et le résumé.
  • Pourquoi éviter cette gamme : si vous savez déjà que vous voulez des modèles 14B ou plus, la gamme budget vous frustrera en quelques semaines — commencez plutôt au milieu de gamme.

💡Tip: Achetez le RTX 3060 spécifiquement dans sa version 12 Go. Le RTX 3060 6 Go a une apparence similaire dans les annonces mais ne fait tenir que des modèles 3B — la moitié du nombre de paramètres, c'est la différence entre un assistant utilisable et un jouet.

⚠️Warning: Le RX 6700 XT est la carte la moins chère ici, mais prévoyez 3 à 5 heures pour la configuration ROCm sous Linux. Si votre temps vaut plus que les quelques dizaines d'euros économisés face à un RTX 3060 d'occasion, achetez la carte NVIDIA.

Milieu de gamme : RTX 4060 Ti 16 Go et RX 7800 XT

Le milieu de gamme existe pour une raison : 16 Go de VRAM dégagent les modèles 14B que les cartes 12 Go ne peuvent pas faire tenir avec un contexte utilisable. Si les modèles de classe 14B sont votre cible, c'est la gamme la moins chère qui les exécute correctement — et le RTX 4060 Ti 16 Go se distingue en restant proche de son tarif de lancement à travers la flambée de 2026.

  • RTX 4060 Ti 16 Go (env. 780-820 €) : 16 Go de VRAM, 165 W, environ 20-25 tok/s sur les modèles 7B. Il utilise la même puce GPU que le RTX 4060 Ti 8 Go, la vitesse par token est donc similaire — la version 16 Go achète de la capacité, pas de la vitesse brute. Ses 165 W sont la consommation la plus basse de ce guide rapportée à la capacité, et c'est le GPU le moins gonflé par la flambée.
  • RX 7800 XT (env. 510-560 € neuf) : 16 Go de VRAM, 263 W. Il n'a pas été testé individuellement pour ce guide ; attendez-vous à une vitesse dans la plage du RTX 4060 Ti, avec la configuration AMD ROCm comme contrepartie.
  • Pourquoi acheter cette gamme : vous voulez des modèles 14B, vous voulez une faible consommation (RTX 4060 Ti) ou vous voulez 16 Go au prix le plus bas possible.
  • Pourquoi éviter cette gamme : si les modèles 7B suffisent, la gamme budget économise 200 € ; si vous voulez une inférence 14B rapide, le haut de gamme est nettement plus rapide.

📌Note: Le RTX 4060 Ti 16 Go est une montée en capacité, pas en vitesse, par rapport à la version 8 Go. Achetez-le parce que vous devez faire tenir des modèles 14B, pas parce que vous attendez plus de tokens par seconde.

Haut de gamme : RTX 4080 Super et RTX 4070 Ti Super

Le haut de gamme garde 16 Go de VRAM mais ajoute la vitesse qui rend les modèles 7B-14B instantanés et les modèles 22B utilisables. Les deux cartes font tenir les mêmes modèles que le milieu de gamme — vous payez pour des tokens par seconde, pas pour de la capacité. La flambée de 2026 a fortement creusé l'écart entre cette gamme et le milieu de gamme.

  • RTX 4080 Super 16 Go (env. 1 500-1 700 €) : 16 Go de VRAM, 320 W, environ 120 tok/s sur les modèles 7B. Le choix de la rédaction — la carte 16 Go la plus rapide, et après les mouvements de prix de 2026 elle coûte à peu près autant que le RTX 4070 Ti Super, plus lent.
  • RTX 4070 Ti Super 16 Go (env. 1 450-1 630 €) : 16 Go de VRAM, 285 W. Légèrement plus lent que le RTX 4080 Super à un prix neuf quasi identique — choisissez-le pour sa consommation plus basse de 285 W, ou achetez-le d'occasion pour la carte 16 Go rapide la moins chère.
  • Pourquoi acheter cette gamme : vous exécutez des modèles 14B en continu et les voulez instantanés, ou vous faites du travail 22B léger et voulez de la marge.
  • Pourquoi éviter cette gamme : si vous avez besoin de modèles 33B ou 70B, aucune carte 16 Go ne les fera tenir — passez à la gamme enthousiaste plutôt que de trop dépenser ici.

💡Tip: Dans cette gamme, optez par défaut pour le RTX 4080 Super — à un prix neuf quasi identique, il est nettement plus rapide que le RTX 4070 Ti Super. Ne choisissez le 4070 Ti Super que pour économiser environ 35 W de consommation, ou achetez-le d'occasion à prix réduit.

Gamme enthousiaste : RTX 4090 et RTX 5090

La gamme enthousiaste est la seule qui exécute des modèles au-delà de 22B — et le RTX 5090 32 Go est la seule carte grand public capable de faire tenir un modèle 70B en Q4. Achetez ici pour la capacité VRAM, pas pour la vitesse ; la vitesse est un effet secondaire. La flambée de 2026 a frappé cette gamme le plus durement, les prix bougent donc d'une semaine à l'autre.

  • RTX 4090 24 Go (env. 2 900-3 200 € neuf / env. 2 600 € d'occasion) : 24 Go de VRAM, 450 W, environ 150 tok/s sur les modèles 7B et 36 tok/s sur un modèle 70B Q4. Exécute confortablement les modèles 33B. À noter : la flambée a poussé les prix d'occasion du RTX 4090 près d'un RTX 5090 neuf.
  • RTX 5090 32 Go (3 499-3 949 € neuf) : 32 Go de VRAM GDDR7, 575 W, environ 160 tok/s sur le 7B et 45 tok/s sur le 70B Q4. La capacité de 32 Go est l'argument central — c'est la seule carte grand public qui exécute un modèle 70B en Q4 sans second GPU.
  • Pourquoi acheter cette gamme : vous avez besoin de modèles 33B ou 70B, vous faites de l'inférence par lots, ou vous voulez une carte qui n'aura pas besoin d'être remplacée avant des années.
  • Pourquoi éviter cette gamme : pour les modèles 7B-14B, elle est surdimensionnée — le haut de gamme délivre des réponses instantanées sur ces tailles pour moins de la moitié du prix et de la consommation.

⚠️Warning: Le RTX 5090 tire 575 W à lui seul. Associez-le à une alimentation de 850 à 1000 W — une unité de 750 W faiblira en charge. Budgétez la mise à niveau de l'alimentation dans l'achat, pas après coup.

📌Note: Avant la flambée de 2026, deux RTX 4090 d'occasion coûtaient moins cher qu'un RTX 5090. La situation s'est inversée : à env. 2 600-3 200 € pièce, une paire de RTX 4090 coûte désormais bien plus qu'un seul RTX 5090. Pour une nouvelle configuration 70B, le RTX 5090 seul est désormais à la fois plus simple et moins cher.

Combien de VRAM vous faut-il ?

En quantification Q4_K_M, un modèle a besoin d'environ 0,6 Go de VRAM par milliard de paramètres, plus 2-4 Go pour le contexte et la surcharge d'outillage. Cette formule se projette directement sur les quatre gammes.

  • Modèles 7B — 8-9 Go : tiennent dans toutes les gammes. Une carte 12 Go laisse une marge confortable.
  • Modèles 13-14B — 11-13 Go : ont besoin de 16 Go en pratique une fois le contexte et l'outillage comptés. Milieu de gamme et au-dessus.
  • Modèles 22B — 14-16 Go : serrés sur une carte 16 Go ; confortables à partir du haut de gamme.
  • Modèles 33B — 19-22 Go : ont besoin d'une carte 24 Go. Territoire du RTX 4090.
  • Modèles 70B — 39-42 Go en Q4 : ont besoin d'un RTX 5090 32 Go poussé à fond, ou d'une configuration bi-GPU. Une seule carte 24 Go ne peut pas faire tenir un modèle 70B en Q4.

💡Tip: La longueur de contexte est un coût VRAM caché — les prompts longs et les grandes fenêtres de contexte consomment de la VRAM en plus des poids du modèle. Laissez toujours 2-4 Go de marge. Pour la méthode complète, voir le guide des besoins en VRAM lié dans les articles liés.

Pourquoi les prix GPU ont flambé en 2026

Les prix GPU ont fortement grimpé en 2026 à cause d'une pénurie de mémoire, poussant les cartes grand public 1,5 à 2 fois au-dessus de leur tarif de lancement. Cela modifie le calcul d'achat, planifiez donc autour de cela plutôt qu'autour des tarifs de lancement.

📍 En une phrase

Les prix GPU en 2026 sont 1,5 à 2 fois au-dessus du tarif de lancement à cause d'une pénurie de puces mémoire, donc un acheteur de LLM locaux devrait privilégier le marché de l'occasion et la plus petite carte qui correspond au modèle visé.

💬 En termes simples

Les cartes ne sont pas devenues meilleures — la mémoire qu'elles contiennent est devenue rare et chère. Tant que cela ne s'apaise pas, traitez le tarif de lancement comme un chiffre historique, achetez d'occasion quand vous le pouvez et ne payez pas pour plus de VRAM que ce dont votre modèle a réellement besoin.

  • La cause est la mémoire, pas les GPU. Une pénurie d'approvisionnement en GDDR et HBM a renchéri toute carte dotée de mémoire rapide — et les GPU aptes aux LLM sont précisément les cartes à forte VRAM les plus touchées.
  • Le RTX 5090 est l'exemple le plus clair : un tarif de lancement de 1 999 $, mais env. 3 800 € en magasin en mai 2026 — presque le double.
  • Les cartes d'entrée de gamme ont mieux résisté. Le RTX 4060 Ti 16 Go reste proche de son tarif de lancement ; la flambée évolue avec la quantité de mémoire rapide qu'une carte embarque.
  • Le marché de l'occasion est désormais le bon plan. Un RTX 3060 12 Go ou un RX 6700 XT d'occasion échappe à l'essentiel de la flambée — les prix d'occasion ont bien moins augmenté que ceux du neuf.
  • Décision : si vous pouvez attendre, guettez l'apaisement de la pénurie ; sinon, achetez d'occasion quand c'est possible et prenez la plus petite carte qui correspond à votre modèle visé.

Arbre de décision : choisissez votre GPU en quatre questions

Quatre questions, dans l'ordre, orientent la plupart des acheteurs vers une seule carte.

📍 En une phrase

Choisissez un GPU pour les LLM locaux en répondant d'abord à la plus grande taille de modèle, ensuite au plafond budgétaire, puis à NVIDIA contre AMD, et enfin à la marge de l'alimentation.

💬 En termes simples

Commencez par le plus gros modèle que vous voulez réellement exécuter et laissez-le fixer votre gamme. Ce n'est qu'ensuite que vous regardez le prix, la marque et si votre alimentation peut gérer la carte. Faire l'inverse, c'est ainsi qu'on dépense trop ou qu'on achète une carte incapable de faire tourner son modèle.

  • 1. Quel est le plus gros modèle que vous voulez exécuter ? 7B : gamme budget. 14B : milieu de gamme. 22B : haut de gamme. 33B : RTX 4090. 70B : RTX 5090 ou bi-GPU.
  • 2. Quel est votre plafond budgétaire absolu ? Sous env. 250 € (d'occasion) : RTX 3060 12 Go. Sous 600 € : RTX 4060 Ti 16 Go. Env. 1 450-1 700 € : RTX 4080 Super ou 4070 Ti Super. À partir de 2 600 € : RTX 4090 ou RTX 5090.
  • 3. NVIDIA ou AMD ? Choisissez NVIDIA sauf si vous possédez déjà du matériel AMD ou trouvez une forte remise sur le RX 7800 XT — CUDA supprime des heures de configuration ROCm.
  • 4. Votre alimentation a-t-elle de la marge ? Les cartes au-dessus du milieu de gamme ont besoin de 285 à 575 W ; vérifiez votre alimentation et le refroidissement du boîtier avant d'acheter du matériel de gamme enthousiaste.
Flux de décision en quatre questions pour choisir un GPU de LLM local : la plus grande taille de modèle visée fixe la gamme, le plafond budgétaire affine le choix, NVIDIA contre AMD décide la marque, et la marge de l'alimentation confirme le choix de gamme enthousiaste.
Flux de décision en quatre questions pour choisir un GPU de LLM local : la plus grande taille de modèle visée fixe la gamme, le plafond budgétaire affine le choix, NVIDIA contre AMD décide la marque, et la marge de l'alimentation confirme le choix de gamme enthousiaste.

Prix régionaux et où acheter

Les prix GPU varient selon la région — les prix ici sont un instantané français (TVA 20 % incluse), et la flambée de 2026 a touché chaque marché. Les liens ci-dessous sont de simples liens de recherche de produits ; ils ne portent aucune balise d'affiliation et ne génèrent aucune commission.

  • France : Amazon.fr et LDLC offrent le plus large stock ; Materiel.net et Top Achat sont aussi des références pour les cartes graphiques.
  • Comparateur de prix : Idealo.fr et Geizhals.eu sont les standards pour comparer les prix du neuf en France — vérifiez-y la source la moins chère actuellement.
  • Belgique et Suisse : Alternate.be et Digitec.ch couvrent les marchés francophones voisins ; les prix et la disponibilité diffèrent légèrement de la France.
  • Occasion : LeBonCoin est le plus grand marché français de l'occasion pour les GPU — souvent le choix nettement moins cher, surtout pour les cartes plus anciennes comme le RTX 3060.
  • Disponibilité : les cartes haut de gamme (RTX 4090, RTX 5090) sont par moments en rupture en 2026 ; attendez-vous à des prix fluctuants et vérifiez plusieurs revendeurs.

⚠️Warning: À cause de la flambée de 2026, chaque chiffre de ce guide est un instantané mouvant de mai 2026. Ouvrez toujours l'annonce actuelle du revendeur avant d'acheter — les prix ont bougé d'une semaine à l'autre.

Erreurs courantes à l'achat d'un GPU pour LLM locaux

  • Acheter pour les tokens par seconde au lieu de la VRAM. Une carte plus rapide qui ne fait pas tenir votre modèle est inutile. Confirmez d'abord que le modèle tient en VRAM avec 2-4 Go de marge, puis comparez la vitesse dans cette gamme.
  • Acheter le RTX 3060 6 Go au lieu de la version 12 Go. Ils partagent un nom mais pas un usage — la carte 6 Go plafonne aux modèles 3B. Confirmez toujours la variante 12 Go dans l'annonce.
  • Supposer que le RTX 4060 Ti 16 Go est plus rapide que la version 8 Go. Il ne l'est pas — c'est la même puce GPU avec plus de mémoire. Achetez-le pour la capacité (modèles 14B), pas pour la vitesse.
  • S'ancrer sur le tarif de lancement au lieu du prix actuel. La flambée de 2026 signifie que les tarifs de lancement ne reflètent plus la réalité. Budgétez face au prix en direct du revendeur, et privilégiez le marché de l'occasion là où il échappe à la flambée.
  • Ignorer les exigences d'alimentation. Un RTX 5090 tire 575 W et a besoin d'une alimentation de 850 à 1000 W. Une carte qui s'effondre en charge est pire qu'une carte plus lente qui tourne de façon stable.
  • Choisir AMD sans budgéter le temps de configuration. Le RX 6700 XT et le RX 7800 XT offrent un bon rapport qualité-prix, mais la configuration ROCm coûte des heures. Pesez ce temps face à l'argent économisé par rapport à une carte NVIDIA.
  • Surdimensionner pour des modèles 7B. Si les modèles 7B couvrent votre usage, un RTX 4090 est de l'argent et de l'énergie gaspillés. Adaptez la gamme au modèle, pas au budget dont vous disposez.
Sept erreurs courantes à l'achat d'un GPU pour LLM locaux : acheter pour la vitesse plutôt que la VRAM, confondre les RTX 3060 6 Go et 12 Go, attendre du RTX 4060 Ti 16 Go qu'il soit plus rapide, s'ancrer sur le tarif de lancement, ignorer les besoins d'alimentation, sous-budgéter le temps de configuration AMD et surdimensionner pour des modèles 7B.
Sept erreurs courantes à l'achat d'un GPU pour LLM locaux : acheter pour la vitesse plutôt que la VRAM, confondre les RTX 3060 6 Go et 12 Go, attendre du RTX 4060 Ti 16 Go qu'il soit plus rapide, s'ancrer sur le tarif de lancement, ignorer les besoins d'alimentation, sous-budgéter le temps de configuration AMD et surdimensionner pour des modèles 7B.

Sources

FAQ

Quel est le GPU le moins cher capable de bien exécuter des LLM locaux ?

Un NVIDIA RTX 3060 12 Go d'occasion est le GPU le moins cher qui exécute bien les LLM locaux. Ses 12 Go de VRAM font tenir tout modèle 7B et la plupart des modèles 13B en quantification Q4, à 15-20 tokens par seconde. Le RX 6700 XT, moins cher, fonctionne aussi, mais il est plus lent et exige une configuration AMD ROCm. Achetez d'occasion — les prix du neuf ont environ doublé dans la flambée de 2026.

Pourquoi les prix GPU sont-ils si élevés en 2026 ?

Une pénurie de puces mémoire a provoqué la flambée des prix GPU de 2026. L'approvisionnement en GDDR et HBM s'est resserré, renchérissant chaque carte graphique dotée de mémoire rapide, et les cartes à forte VRAM aptes aux LLM ont été les plus touchées. En mai 2026, la plupart des cartes se vendent 1,5 à 2 fois au-dessus de leur tarif de lancement — un RTX 5090 lancé à 1 999 $ se vend autour de 3 800 €. Le marché de l'occasion a échappé à l'essentiel de la hausse.

Combien de VRAM me faut-il pour des LLM locaux ?

En quantification Q4_K_M, comptez environ 0,6 Go de VRAM par milliard de paramètres plus 2-4 Go de surcharge. Cela donne 8-9 Go pour les modèles 7B, 11-13 Go pour le 14B, 19-22 Go pour le 33B et 39-42 Go pour le 70B. Une carte 12 Go couvre confortablement le 7B ; le 70B exige un RTX 5090 32 Go ou une configuration bi-GPU.

Le RTX 4060 Ti 16 Go est-il plus rapide que la version 8 Go ?

Non. Les RTX 4060 Ti 16 Go et 8 Go utilisent la même puce GPU, la vitesse d'inférence par token est donc similaire — environ 20-25 tokens par seconde sur les modèles 7B. La version 16 Go achète de la capacité, vous permettant d'exécuter des modèles 14B qui ne tiennent pas en 8 Go. Achetez-la pour la VRAM, pas pour la vitesse.

Faut-il acheter NVIDIA ou AMD pour des LLM locaux ?

Achetez NVIDIA sauf si vous possédez déjà du matériel AMD ou trouvez une forte remise. NVIDIA CUDA fonctionne d'emblée avec Ollama, LM Studio et llama.cpp. Les cartes AMD comme les RX 6700 XT et RX 7800 XT offrent une VRAM par euro compétitive, mais la configuration ROCm coûte généralement plusieurs heures sous Linux.

Un seul GPU peut-il exécuter un modèle 70B ?

Seul le RTX 5090 32 Go, et uniquement en quantification Q4 où un modèle 70B a besoin d'environ 39-42 Go — ce qui implique une quantification agressive ou un déchargement partiel. Un RTX 4090 24 Go ne peut pas faire tenir un modèle 70B en Q4 seul ; la solution courante est deux RTX 4090 pour une VRAM combinée, bien que la flambée de prix de 2026 ait rendu cette paire plus chère qu'un seul RTX 5090.

Le RTX 5090 vaut-il la peine face au RTX 4090 pour des LLM locaux ?

Uniquement si vous avez spécifiquement besoin d'exécuter des modèles 70B sur une seule carte. Le RTX 5090 a 32 Go de VRAM contre 24 Go pour le RTX 4090, ce qui est le facteur décisif. Pour les modèles 7B-33B, le RTX 4090 fait tenir les mêmes modèles ; après la flambée de 2026 les deux sont proches en prix, donc les 8 Go supplémentaires et la vitesse légèrement plus élevée du 5090 en font le meilleur achat neuf si le budget le permet.

Quelle alimentation me faut-il pour ces GPU ?

Adaptez l'alimentation à la gamme : une unité de 550 W convient au RTX 3060, 650-750 W aux RTX 4060 Ti et 4070 Ti Super, 850 W au RTX 4090, et 850-1000 W sont nécessaires pour le RTX 5090, qui tire 575 W à lui seul. Des alimentations sous-dimensionnées causent de l'instabilité en charge.

← Retour à Power Local LLM

Meilleur GPU pour LLM locaux 2026 : du budget au RTX 5090