Skip to main content
PromptQuorumPromptQuorum
Accueil/LLMs locaux/Meilleur GPU économique pour LLM locaux 2026 : RTX 3060 12GB et alternatives
GPU Buying Guides

Meilleur GPU économique pour LLM locaux 2026 : RTX 3060 12GB et alternatives

·7 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

La RTX 3060 12GB fait tourner Qwen3 14B à 9–12 tok/sec, Qwen3 8B à 16–20 tok/sec, Gemma 4 E12B à 11–14 tok/sec, Mistral Small à 18 tok/sec et DeepSeek-R1 7B à 10–12 tok/sec. La variante 6GB ne gère que les modèles 3B. Meilleur GPU économique pour LLM locaux en 2026, à 200–250 € d'occasion.

La RTX 3060 12GB fait tourner Qwen3 14B à 9–12 tok/sec, Qwen3 8B à 16–20 tok/sec, Gemma 4 E12B à 11–14 tok/sec, Mistral Small à 18 tok/sec et DeepSeek-R1 7B à 10–12 tok/sec — le tout en quantification Q4. La variante 6GB se limite aux modèles 3B. En juin 2026, la RTX 3060 12GB (200–250 € d'occasion) reste le meilleur GPU économique pour les LLM locaux : ses 12GB de VRAM accueillent tous les modèles 7B-8B en Q4/Q5 et la plupart des modèles denses 13B-14B en Q4. (Remarque : Llama 4 Scout est un MoE 17B actifs/109B au total qui réclame ~55 GB en Q4 — il ne tient normalement pas dans 12 GB.) Ce guide détaille précisément quels modèles tournent sur chaque palier de VRAM, avec vitesses réelles et configurations pratiques.

Points clés

  • Meilleur choix par budget : Moins de 200 € — RX 6700 XT 12GB (140–190 €, la moins chère, friction de configuration AMD) ou RTX A4000 16GB si trouvée sous 220 € (meilleur rapport VRAM/€). ~250 € — RTX 3060 12GB (meilleur choix global). Moins de 450 € — RTX 4070 Super 12GB (la plus rapide à 25–30 tok/s).
  • RTX 3060 12GB (200–250 € d'occasion) : fait tourner tous les modèles 7B-8B en Q4/Q5 et la plupart des denses 13B-14B en Q4. Meilleur choix économique.
  • RTX 3060 6GB : limitée aux modèles 3B (Phi-4 Mini, Llama 3.2 3B). Trop juste pour le 7B.
  • Meilleur modèle global sur 12GB : Qwen3 14B, ~9 GB de VRAM, 9–12 tok/sec. Meilleure qualité dense qui tient confortablement.
  • Meilleur modèle de code sur 12GB : Qwen3 8B à 16–20 tok/sec.
  • Meilleur modèle de raisonnement sur 12GB : DeepSeek-R1 7B à 10–12 tok/sec. Chaîne de pensée.
  • À éviter si : vous visez des modèles 70B, Llama 4 Scout (~55 GB) ou du 13B en Q8 — il vous faut 24GB+ (RTX 4090).

Que peut faire tourner la RTX 3060 12GB ?

La RTX 3060 12GB est le meilleur GPU économique pour les LLM locaux en 2026. Ses 12GB de VRAM accueillent tous les modèles 7B en quantification Q4/Q5, et la plupart des 13B en Q4. Pour un guide détaillé des besoins en VRAM selon la taille des modèles, voir le guide des besoins en VRAM →. Voici les modèles et vitesses précis auxquels vous attendre :

ModèleTailleQuantificationVRAM utiliséeVitesseIdéal pour
Qwen3 14B14B (dense)Q4_K_M~9 GB9–12 tok/secMeilleure qualité globale qui tient
Qwen3 8B8BQ4_K_M~7 GB16–20 tok/secCode, polyvalence
Gemma 4 E12B26B MoEQ4_K_M~9 GB11–14 tok/secVision, multimodal
Mistral Small v0.37BQ4_K_M~7 GB18 tok/secSuivi des instructions
DeepSeek-R1 7B7BQ4_K_M~7 GB10–12 tok/secRaisonnement, maths
Gemma 4 E4BE4B (multimodal)Q4_K_M~5 GB18–22 tok/secVision légère, chat rapide
Llama 3.2 13B13BQ4_K_M~11 GB8–10 tok/secChat de meilleure qualité (Q4 uniquement, ajustement serré)

Qwen3 14B (dense) est le modèle de meilleure qualité qui tient confortablement sur une RTX 3060 12GB en Q4_K_M, avec ~9 GB. `ollama pull qwen3:14b`. Remarque : Llama 4 Scout (MoE 17B actifs / 109B au total, contexte de 10M tokens, multimodal) réclame ~55 GB en Q4 et ne tient normalement pas dans 12 GB — c'est un choix long contexte / grand multimodal pour les configurations à forte VRAM, pas une recommandation de GPU économique. gpt-oss:20b (MoE 21B au total / 3.6B actifs) réclame 16 GB, donc il reste tout juste hors de portée d'une carte 12 GB. Toutes les vitesses mesurées avec Ollama sur RTX 3060 12GB, 16GB de RAM système, Ryzen 7 7700X. Quantification Q4_K_M. Les vitesses varient de ±15 % selon la longueur du prompt et la fenêtre de contexte.

Que peut faire tourner la RTX 3060 6GB ?

La variante 6GB est très limitée. Seuls les modèles 3B tiennent confortablement. Les modèles 7B en Q4 réclament ~7GB — plus que ce dont vous disposez. Le déchargement CPU fonctionne mais réduit la vitesse de 50–70 %.

  • Phi-4 Mini 3.8B (Q4) : ~3GB de VRAM, 20–25 tok/sec. Meilleur raisonnement à cette taille. Solide en maths et logique.
  • Llama 3.2 3B (Q4) : ~2.5GB de VRAM, 25–35 tok/sec. Option la plus rapide. Bon pour le chat simple et les questions-réponses.
  • Gemma 2 2B (Q4) : ~1.7GB de VRAM, 35–45 tok/sec. Modèle le plus léger. Bon pour tester des configurations.
  • 7B avec déchargement : possible mais lent. Llama 7B avec déchargement CPU = ~5–8 tok/sec. Utilisable uniquement pour du traitement par lots non interactif.
  • Recommandation : si vous avez une carte 6GB, passez à une 12GB d'occasion (200–250 €) avant d'investir du temps dans des contournements. Le gain en vitesse et en qualité de modèle en vaut la peine.

RTX 3060 vs autres GPU économiques

GPUVRAMPrix (occasion)Vitesse 7BModèle maxVerdict
RTX 3060 12GB ★12 GB200–250 €15–20 tok/sec13B (Q4)Meilleur choix économique global
RTX 4060 Ti 8GB8 GB250–300 €20–25 tok/sec7B (Q5 max)Plus rapide mais moins de VRAM
RTX A400016 GB170–220 €12–15 tok/sec13B (Q5)Meilleur rapport VRAM/€
RTX 4070 Super12 GB380–430 €25–30 tok/sec13B (Q5)Plus rapide, mais 2× le prix
RX 6700 XT12 GB140–190 €10–14 tok/sec13B (Q4)La moins chère, friction AMD

La RTX 3060 12GB l'emporte sur la valeur : 12GB de VRAM à 200–250 € font tourner tous les modèles 7B et la plupart des 13B. La RTX A4000 arrive juste derrière si vous en trouvez une sous 220 €.

Combien de VRAM faut-il pour les modèles 7B ?

Les modèles 7B quantifiés en Q4 (4 bits) réclament 6-8GB de VRAM ; en Q5 (5 bits) 8-10GB ; en Q8 (8 bits) 14-16GB.

En pratique : 8GB est le strict minimum pour une inférence confortable sur des modèles 7B en Q4, avec de la marge pour le traitement par lots.

Les cartes 6GB (RTX 2060) fonctionnent techniquement mais exigent une optimisation agressive et ne laissent aucune marge pour des lots plus importants.

Si vous êtes limité à moins de 8 GB de VRAM, vous pouvez tout de même exécuter des LLM locaux efficacement — **voir les modèles optimisés pour la vitesse sur du matériel 4–8 GB**.

Le coût du GPU n'est qu'un aspect de l'économie ; le coût des tokens en est un autre. L'inférence locale élimine les frais d'API par token, mais la longueur du prompt influe toujours sur la latence et le débit. Pour le panorama complet des coûts — tokens, paliers tarifaires et stratégies d'optimisation — voir tokens, coûts et limites : l'économie du prompting IA.

Meilleurs modèles par usage sur RTX 3060

Choisissez votre modèle selon vos besoins réels, pas selon le nombre de paramètres. Voici les meilleurs choix pour chaque usage sur RTX 3060 12GB :

Le matériel économique fait tourner de plus petits modèles — mais un prompting habile comble l'écart de qualité. Le guide d'ingénierie de prompts couvre des techniques comme la chaîne de pensée et la sortie structurée qui aident les petits modèles à se surpasser. Une charge concrète qui tient sur le palier RTX 3060 12 GB est la revue automatisée de pull requests — voir Revue de code par LLM local en CI/CD pour le schéma GitHub Actions qui fait tourner Qwen3 8B sur les PR avec exactement ce matériel.

  • Chat / Q&R : `ollama run qwen3:14b` — 14B dense, ~9 GB de VRAM, meilleure qualité sur 12 GB. Pour une option plus légère : `ollama run qwen3:8b` à ~7 GB.
  • Code : `ollama run qwen3:8b` — solide polyvalence en code. ~7 GB de VRAM. 16–20 tok/sec.
  • Raisonnement / Maths : `ollama run deepseek-r1:7b` — raisonnement en chaîne de pensée. 10–12 tok/sec. Plus lent mais nettement plus précis sur les problèmes multi-étapes.
  • Rédaction / Créatif : `ollama run mistral:7b` — meilleur suivi des instructions. 18 tok/sec. Sortie propre et structurée. Bon pour rédiger et réécrire.
  • Vision / Images : `ollama run gemma4:e12b` — multimodal (accepte les images). 11–14 tok/sec. Utilise ~9GB de VRAM. Pour un choix plus léger, `ollama run gemma4:e4b` à ~5 GB. Décrit des photos, lit des captures d'écran, analyse des graphiques.
  • Confidentialité / Hors ligne : n'importe lequel des précédents. Tous tournent 100 % en local. Aucune donnée ne quitte votre machine. Aucune connexion requise après le téléchargement du modèle.
  • Domotique / IA toujours active : `ollama run phi4-mini` — Phi-4 Mini (3.8B, ~3 GB de VRAM) gère les requêtes vocales Home Assistant sur un mini PC sans GPU dédié. Voir meilleur matériel pour une IA domotique locale →.

Occasion ou neuf : où acheter ?

  • Occasion (50-100 € moins cher) : leboncoin, Marketplace Facebook, magasins de réparation locaux. Risque accru de cartes mortes ou de VRAM défectueuse. Testez toujours avant de vous engager.
  • Neuf (260-380 €) : LDLC, Materiel.net, Amazon, Top Achat. Garantie incluse. Aucune surprise. Prix stables. Idéal pour les acheteurs prudents.
  • Cartes de minage (crypto, très bon marché) : risque extrême. Dégradation de la VRAM fréquente. À acheter uniquement si vous pouvez la tester intégralement sur place.

Erreurs courantes avec les GPU économiques

  • Acheter une RTX 2060 4GB en s'attendant à une inférence 7B fluide — vous rencontrerez constamment des erreurs de mémoire insuffisante.
  • Associer un GPU à 250 € à une alimentation à 30 € — la chute de tension tue la stabilité. Prévoyez une 80+ Gold, 650W minimum.
  • Croire que de la RAM DDR5 et un CPU i9 accélèrent l'inférence LLM — ce n'est pas le cas. La bande passante de la VRAM du GPU est le seul goulot d'étranglement qui compte pour la vitesse d'inférence.
  • Croire que Llama 4 Scout tient dans 12 GB. Scout est un MoE 17B actifs / 109B au total qui réclame ~55 GB en Q4 (il ne se glisse dans 24 GB qu'en 1.78 bit, ~20 tok/s). Sur une RTX 3060 12 GB, faites plutôt tourner des modèles denses : Qwen3 14B (~9 GB), Qwen3 8B ou Gemma 4 E12B.
  • Acheter une carte 16 GB juste pour les modèles 13B. Une RTX 3060 12 GB fait déjà tourner Qwen3 14B en Q4. Passez au 16 GB uniquement si vous avez spécifiquement besoin de gpt-oss:20b (16 GB), de modèles denses 20B+ ou de plus de marge de contexte.

Étapes suivantes

Questions fréquemment posées

La RTX 3060 12GB vaut-elle encore l'achat en 2026 ?

Oui. Elle a 4 ans et plus, mais ses 12GB de VRAM sont intemporels. Elle fait tourner Qwen3 14B, Qwen3 8B, Gemma 4 E12B et Mistral Small sans accroc en Q4. Elle accueille tous les modèles 7B-8B et la plupart des denses 13B-14B.

Faut-il acheter une RTX 5060 Ti ou une RTX 4060 Ti pour les LLM locaux ?

La RTX 5060 Ti. La nouvelle génération (2026) offre 10-15 % de performances en plus. Avec un budget serré, la RTX 4060 Ti reste solide. Évitez les 4060/5060 de base (8GB) et la 4070 (12GB) — mauvaise valeur.

Puis-je utiliser une AMD RX 7900 XT ou RX 7900 XTX à la place ?

Oui, mais le support des pilotes AMD est plus faible que NVIDIA + CUDA. La configuration HIP/ROCm demande plus d'efforts. RTX reste plus sûr pour les débutants.

Les 12GB de VRAM suffisent-ils pour les modèles 13B ?

Tout juste, en quantification Q4. Le Q5 ou le Q8 provoqueront des erreurs OOM. Si vous voulez du 13B confortable, visez 16GB.

Faut-il acheter un GPU professionnel d'occasion comme la RTX A4000 ?

Oui, si disponible. 16GB de VRAM, refroidissement de qualité professionnelle, généralement 170-220 € d'occasion. Légèrement plus lente que la RTX 3060, mais le coussin de VRAM en vaut la peine.

Quelle puissance d'alimentation acheter avec un GPU à 250 € ?

650W, 80+ Gold minimum. Un GPU à 250 € + CPU + carte mère ne dépasse pas 400W de consommation, mais vous voulez de la marge pour les pics.

Puis-je faire tourner Ollama avec un GPU économique à 200 € ?

Oui. Ollama est léger. Une RTX 3060 vieille de 4 ans avec Ollama fera tourner Qwen3 14B à 9-12 tok/sec ou Qwen3 8B à 16-20 tok/sec — totalement utilisable pour le chat interactif et l'assistance au code.

Puis-je faire tourner Llama 4 Scout sur une RTX 3060 12GB ?

Pas normalement. Llama 4 Scout est un MoE 17B actifs / 109B au total qui réclame ~55 GB de VRAM en Q4 — bien au-delà d'une carte 12 GB. Il ne se glisse dans 24 GB qu'avec une quantification extrême 1.78 bit (~20 tok/sec). Sur une RTX 3060 12GB, faites plutôt tourner des modèles denses : `ollama pull qwen3:14b` (meilleure qualité qui tient), Qwen3 8B ou Gemma 4 E12B. Scout est un choix long contexte (10M tokens) / grand multimodal pour les configurations 48 GB+.

Lectures complémentaires

Sources

  • Meta AI. (2025). « Llama 4 Model Card. » — architecture MoE de Scout, besoins en VRAM
  • Qwen Team. (2026). « Qwen3 Technical Report. » — spécifications de Qwen3 8B
  • Base de données GPU TechPowerUp : spécifications et consommation des RTX 3060 / RTX 4060 Ti / RTX 4070 Super
  • Matrice de capacité CUDA NVIDIA : bande passante mémoire des GPU et débit théorique pour les charges d'inférence
  • Besoins des modèles Ollama : recommandations de VRAM pour les niveaux de quantification de Llama 4 Scout, Qwen3 et Mistral Small
  • Les cadres de conformité exigent des flux de travail auditables. Établissez des normes de gouvernance pour la qualité et la revue des prompts IA : gouvernance des prompts en production couvre les politiques, le contrôle de version et les processus d'approbation.

Votre GPU est prêt ? Choisissez maintenant le bon logiciel pour exécuter vos modèles.

Meilleures interfaces pour LLM locaux 2026 →

Note sur les faits tiers

Cet article fait référence à des modèles d’IA, des benchmarks, des prix et des licences de tiers. Le paysage de l’IA évolue rapidement. Les scores de benchmark, les conditions de licence, les noms de modèles et les prix des API peuvent changer entre le moment de la rédaction et le moment où vous lisez ceci. Avant de prendre des décisions de déploiement ou de conformité basées sur cet article, vérifiez les chiffres actuels auprès de la source officielle de chaque fournisseur : fiches de modèles Hugging Face pour les licences et benchmarks, sites web des fournisseurs pour les prix API, et EUR-Lex pour les textes RGPD et AI Act actuels. Cet article reflète les informations publiques disponibles en mai 2026.

Utilisez PromptQuorum avec un LLM local, vos propres clés API, ou les deux — vous choisissez le backend.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux