PromptQuorumPromptQuorum
Accueil/LLMs locaux/Meilleurs GPU Budget pour les LLM Locaux
GPU Buying Guides

Meilleurs GPU Budget pour les LLM Locaux

·7 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

La RTX 3060 12 Go exécute Llama 4 Scout 17B (MoE) à 12–16 tok/sec, Qwen3 8B à 16–20 tok/sec, Mistral 7B à 18 tok/sec et DeepSeek-R1 7B à 10–12 tok/sec — le tout en quantification Q4. La variante 6 Go est limitée aux modèles 3B. En mai 2026, la RTX 3060 12 Go (200–250 $ d'occasion) reste le meilleur GPU budget pour les LLM locaux : 12 Go VRAM accueille tous les modèles 7B et la plupart des 13B en Q4, plus Llama 4 Scout (MoE) qui offre une qualité bien au-dessus des modèles denses 7B-8B.

Points clés

  • RTX 3060 12 Go (200–250 $ d'occasion) : Exécute tous les 7B et la plupart des 13B en Q4. Plus Llama 4 Scout (MoE) à ~10 Go — meilleure qualité.
  • RTX 3060 6 Go : Limité aux modèles 3B (Phi-4 Mini, Llama 3.2 3B). Trop juste pour 7B.
  • Meilleur modèle global sur 12 Go : Llama 4 Scout 17B (MoE) à ~10 Go VRAM, 12–16 tok/sec. Qualité comparable aux modèles denses 30B.
  • Meilleur modèle code sur 12 Go : Qwen3 8B à 16–20 tok/sec. Amélioration vs Qwen3.
  • Meilleur modèle raisonnement sur 12 Go : DeepSeek-R1 7B à 10–12 tok/sec.
  • À éviter si : vous voulez des modèles 70B ou 13B en Q8 — il faut 24 Go (RTX 4090).

Que peut-on exécuter sur RTX 3060 12 Go ?

La RTX 3060 12 Go est le meilleur GPU budget pour les LLM locaux en 2026. 12 Go de VRAM accueille tous les modèles 7B en Q4/Q5 et la plupart des 13B en Q4 :

ModèleTailleQuantificationVRAMVitesseIdéal pour
Llama 4 Scout 17B17B actif (109B MoE)Q4_K_M~10 Go12–16 tok/secMeilleure qualité globale (MoE)
Llama 3.2 7B7BQ4_K_M~7 Go15–20 tok/secChat, Q&R (Legacy)
Mistral 7B v0.37BQ4_K_M~7 Go18 tok/secSuivi d'instructions
Qwen3 8B8BQ4_K_M~7 Go16–20 tok/secCode (Amélioration Qwen2.5)
DeepSeek-R1 7B7BQ4_K_M~7 Go10–12 tok/secRaisonnement, maths
Gemma 4 9B9BQ4_K_M~8 Go12–15 tok/secVision, multimodal
Llama 3.2 13B13BQ4_K_M~11 Go8–10 tok/secChat haute qualité (Q4 seulement)

Llama 4 Scout est la plus grande amélioration pour les propriétaires RTX 3060 12GB en 2026. Son architecture MoE signifie seulement 17B paramètres actifs par token (sur 109B total), offrant une qualité bien au-dessus des modèles denses 7B-8B à usage VRAM similaire. `ollama pull llama4:scout`. Toutes les vitesses mesurées avec Ollama sur RTX 3060 12 Go, 16 Go RAM système, Ryzen 7 7700X. Quantification Q4_K_M. Variations ±15%.

Que peut-on exécuter sur RTX 3060 6 Go ?

La variante 6 Go est très limitée. Seuls les modèles 3B tiennent confortablement. Les 7B en Q4 nécessitent ~7 Go — plus que disponible.

  • Phi-4 Mini 3.8B (Q4) : ~3 Go VRAM, 20–25 tok/sec. Meilleur raisonnement à cette taille.
  • Llama 3.2 3B (Q4) : ~2,5 Go VRAM, 25–35 tok/sec. Option la plus rapide.
  • Gemma 2 2B (Q4) : ~1,7 Go VRAM, 35–45 tok/sec. Modèle le plus léger.
  • 7B avec offloading : Possible mais lent. Llama 7B avec CPU offload = ~5–8 tok/sec.
  • Recommandation : Si vous avez une carte 6 Go, passez à 12 Go d'occasion (200–250 $).

Quel budget GPU devriez-vous allouer?

Pour un système LLM local fonctionnel, prévoyez 800-1 200 € de coût total du système, avec GPU = 30-40% de ce budget (~300-400 €).

Un GPU à 300 € associé à un CPU à 30 € crée des goulots. Un GPU à 1 500 € avec une carte mère à 30 € gaspille de l'argent.

En avril 2026, le pic performance-par-euro se situe dans la gamme 300-400 € (RTX 3060-4070 Super d'occasion).

RTX 3060 vs autres GPU budget

GPUVRAMPrix (Occasion)Vitesse 7BMax modèleVerdict
RTX 3060 12 Go ★12 Go180–230 €15–20 tok/sec13B (Q4)Meilleur choix budget
RTX 4060 Ti 8 Go8 Go230–280 €20–25 tok/sec7B (Q5 max)Plus rapide, moins VRAM
RTX A400016 Go160–210 €12–15 tok/sec13B (Q5)Meilleur VRAM par euro
RTX 4070 Super12 Go370–420 €25–30 tok/sec13B (Q5)Plus rapide, 2× prix
RX 6700 XT12 Go130–180 €10–14 tok/sec13B (Q4)Moins cher, friction AMD

La RTX 3060 12 Go l'emporte en valeur : 12 Go VRAM pour 180–230 € exécute tous les 7B et la plupart des 13B.

Quel modèle est le meilleur pour chaque cas d'usage?

Codage (Qwen 2.5 7B): Qwen 2.5 7B excelle à la génération de code et au raisonnement. Nécessite RTX 3060 12GB ou RTX 4060 Ti 8GB. Idéal sur les cartes enterprise RTX A6000 si disponibles pour les modèles 32B+.

Raisonnement Anglais (Llama 3.3): Llama 3.3 est le meilleur modèle polyvalent pour le raisonnement factuel. Llama 3.3 70B nécessite 48GB VRAM (RTX 6000 ou A100). La version 7B tient sur n'importe quel GPU 8GB+.

Utilisation locale légère (Mistral 7B): Mistral 7B est le modèle haut de gamme le plus léger. S'exécute confortablement sur RTX 3060 12GB ou RTX 4060 Ti 8GB. Parfait pour l'inférence portative.

Quels modèles gagnent par cas d'usage?

Meilleur au global: Llama 3.3 (ouvert, capable, largement optimisé)

Meilleur pour le codage: Qwen 2.5 (compréhension de code spécialisée)

Meilleur léger: Mistral 7B (VRAM minimal, inférence rapide)

Meilleur GPU budget: RTX 3060 12GB (200-250 € d'occasion)

Comparaison des modèles: Quel modèle gagne?

ModèleMeilleur pourForceFaiblesseMin VRAM (Q4)
Qwen 2.5 7BCodageExcellente précision de code, raisonnement multilinguePlus faible au raisonnement anglais pur vs Llama6-8 GB
Llama 3.3 8BRaisonnementPolyvalent fort, raisonnement factuelPlus lourd que Mistral, plus de VRAM requis8-10 GB
Mistral 7BEfficacitéInférence la plus rapide, VRAM minimal, légerMoins capable que Llama/Qwen aux tâches complexes6-8 GB

Combien de VRAM avez-vous besoin pour les modèles 7B?

Les modèles 7B quantifiés à Q4 (4-bit) nécessitent 6-8GB VRAM; Q5 (5-bit) nécessite 8-10GB; Q8 (8-bit) nécessite 14-16GB.

En pratique: 8GB est le minimum absolu pour une inférence confortable sur les modèles 7B à Q4 avec espace pour le traitement par lot.

Les cartes 6GB (RTX 2060) fonctionnent techniquement mais nécessitent une optimisation agressive et ne laissent pas de place pour des lots plus élevés.

Le coût GPU est un côté de l'économie ; le coût des tokens en est l'autre. L'inférence locale élimine les frais API par token, mais la longueur du prompt affecte toujours la latence et le débit. Pour le tableau complet des coûts — tokens, niveaux de tarification et stratégies d'optimisation — voir tokens, coûts et limites : l'économie du prompting IA.

Meilleurs modèles par usage sur RTX 3060

Choisissez votre modèle selon votre besoin, pas le nombre de paramètres :

Le matériel d'entrée de gamme fait tourner des modèles plus petits — mais un prompting habile comble l'écart de qualité. Le guide de prompt engineering couvre des techniques comme la chain-of-thought et les sorties structurées qui aident les modèles plus petits à performer au-delà de leur taille. Un cas d'usage concret qui rentre dans le palier RTX 3060 12 Go est la revue automatique de pull-requests — voir Revue de code par LLM local en CI/CD pour le pattern GitHub Actions qui fait tourner Qwen3 8B contre des PR sur exactement ce matériel.

  • Chat / Q&R : `ollama run llama4:scout` — MoE, ~10 Go VRAM, meilleure qualité sur 12 Go. Pour une option plus légère : `ollama run llama3.2:3b` à 2.5 Go.
  • Code : `ollama run qwen3:8b` — Performance de codage améliorée vs Qwen3. 5 Go VRAM. 16–20 tok/sec.
  • Raisonnement / Maths : `ollama run deepseek-r1:7b` — Chain-of-thought. 10–12 tok/sec.
  • Écriture / Créatif : `ollama run mistral:7b` — Meilleur suivi d'instructions. 18 tok/sec.
  • Vision / Images : `ollama run gemma4:9b` — Multimodal. 12–15 tok/sec. ~8 Go VRAM.
  • Confidentialité / Hors ligne : Tous les modèles ci-dessus. 100% local.

Occasion vs. Neuf: Où devriez-vous acheter?

  • Occasion (50-100 € moins cher): eBay, Facebook Marketplace, Craigslist, magasins de réparation informatique locaux. Risque plus élevé de cartes mortes ou de mauvais VRAM. Testez toujours avant engagement.
  • Neuf (280-400 €): Amazon.fr, LDLC, Materiel.net, Darty. Garantie incluse. Aucune surprise. Prix stables. Bon pour les acheteurs aversifs au risque.
  • Cartes minées (crypto, super bon marché): Risque extrême. Dégradation du VRAM commune. Achetez seulement si vous pouvez tester complètement sur place.

Quelles erreurs GPU budget devriez-vous éviter?

  • Acheter une RTX 2060 4GB et s'attendre à une inférence 7B fluide--vous aurez constamment des erreurs de mémoire insuffisante.
  • Associer un GPU à 300 € avec un PSU à 30 € (alimentation)--la chute de tension tue la stabilité. Budgétisez 80+ Gold certifié, 650W minimum.
  • Supposer que la RAM DDR5 et le CPU i9 accélèrent l'inférence des LLM--ils ne le font pas. La bande passante du VRAM GPU est le seul goulot qui affecte la vitesse d'inférence.
  • Ne pas essayer Llama 4 Scout sur 12 Go VRAM. De nombreux propriétaires RTX 3060 supposent qu'ils sont limités à des modèles denses 7B-8B. Llama 4 Scout (MoE, 17B actif / 109B total) tient à ~10 Go et offre une qualité comparable aux modèles denses 30B. Si vous avez 12 Go VRAM et n'avez pas essayé Scout, vous sous-utilisez considérablement votre matériel.
  • Acheter une carte 16 Go juste pour les modèles 13B. Avec Llama 4 Scout disponible à ~10 Go, la mise à niveau 12→16 Go est moins nécessaire qu'il y a six mois. Mettez à niveau à 16 Go uniquement si vous avez spécifiquement besoin de Llama 3.1 70B, Mistral Small 3.1 ou d'autres modèles denses 20B+.

Quel GPU budget devriez-vous acheter?

Pour les tâches de codage: Choisissez RTX 3060 12GB ou RTX A4000 (16GB) + Qwen 2.5 7B. Vous obtenez une génération de code forte sans dépenses excessives.

Pour le raisonnement polyvalent: Choisissez RTX 4060 Ti 8GB ou RTX 3060 12GB + Llama 3.3 7B. Meilleur équilibre coût et capacité.

Pour les configurations locales légères: Choisissez RTX 4060 Ti 8GB + Mistral 7B. Inférence la plus rapide, consommation d'énergie la plus faible, empreinte VRAM minimale.

Recommandation globale: RTX 3060 12GB (d'occasion, 200-250 €) est une valeur imbattable. S'associe à tout modèle 7B-13B, a un coussin VRAM de 12GB et coûte moins que les cartes entry-level neuves.

FAQ

La RTX 3060 12GB vaut-elle toujours le coup en 2026?

Oui. Elle a 4+ ans, mais 12GB VRAM est intemporel. Exécute Llama 4 Scout 17B (MoE), Qwen3 8B et Mistral 7B sans à-coups. L'architecture MoE de Llama 4 Scout signifie 12 Go VRAM est maintenant suffisant pour la qualité du modèle qui nécessitait auparavant 16+ Go.

Devrais-je acheter RTX 4060 ou RTX 4060 Ti pour les LLM locaux?

RTX 4060 Ti. La base 4060 (8GB) et 4070 (12GB) offrent un mauvais rapport qualité-prix. Le Ti est la meilleure carte RTX 40 au prix pour le travail LLM.

Puis-je utiliser une AMD RX 6700 ou 6800 XT à la place?

Oui, mais le support des pilotes pour ONNX Runtime sur AMD est plus faible que NVIDIA + CUDA. Attendez-vous à plus de frictions de configuration. RTX est plus sûr pour les budgets.

Les 12GB VRAM suffisent-ils pour les modèles 13B?

À peine, à la quantification Q4. Q5 ou Q8 causera des erreurs OOM. Si vous voulez le confort 13B, visez 16GB.

Devrais-je acheter un GPU enterprise d'occasion comme RTX A4000?

Oui, si disponible. 16GB VRAM, refroidissement professionnel, généralement 180-230 € d'occasion. Légèrement plus lent que RTX 3060, mais le coussin VRAM en vaut la peine.

Quelle puissance PSU devrais-je acheter avec un GPU à 300 €?

650W, 80+ Gold minimum. Un GPU à 300 € + CPU + carte mère ne dépasse pas 400W, mais vous voulez de la marge pour les pics.

Puis-je exécuter Ollama avec un GPU budget à 200 €?

Oui. Ollama est léger. Une RTX 3060 vieille de 4 ans avec Ollama exécutera Llama 4 Scout à 12-16 tok/sec ou Qwen3 8B à 16-20 tok/sec — totalement utilisable pour chat interactif et assistance en codage.

Puis-je exécuter Llama 4 Scout sur une RTX 3060 12GB?

Oui. Llama 4 Scout utilise l'architecture MoE — 17B paramètres actifs sur 109B total. À Q4_K_M, il utilise ~10 Go VRAM, tenant confortablement dans la mémoire RTX 3060 12GB. Attendez-vous à 12-16 tok/sec. C'est la mise à niveau unique meilleure pour les propriétaires RTX 3060 en 2026 : `ollama pull llama4:scout`.

Quel GPU recommandez-vous pour la conformité RGPD en entreprise?

Minimum RTX 3060 12GB ou A4000 16GB pour jusqu'à 50 utilisateurs avec Llama 3.3 13B Q4. GPU ECC recommandée pour la détection d'erreurs. La sécurité du firmware/physique empêche les dumps de GPU-Memory.

Quel GPU est recommandé pour un serveur d'équipe en petite entreprise?

RTX 3060 12GB ou A4000 pour 1-50 employés. RTX 4070 Super ou A6000 pour 50-200 employés. RTX 3060 peut exécuter Llama 3.3 13B Q4 + vLLM avec 3-5 requêtes simultanées. Les équipes plus grandes nécessitent A100 avec clustering enterprise.

Quelle est la différence de performance entre RTX 3060 et 4060 Ti?

RTX 4060 Ti est ~15-20% plus rapide, mais RTX 3060 a 4GB VRAM supplémentaires. Pour les modèles 7B, les deux offrent une inférence confortable; choisissez selon le budget.

Les cartes minées sont-elles sûres pour les LLM locaux?

Risqué. Le VRAM se dégrade après des années d'exploitation intensive. Achetez seulement si vous pouvez stresser-tester sur place complètement avant engagement.

Quelle configuration matérielle fonctionne pour chaque modèle?

  • Pour exécuter Llama 3.3 70B localement: Voir Modèles 70B sur matériel grand public pour recommandations RTX 4090, double GPU et GPU enterprise.
  • Pour les modèles de codage Qwen 2.5: Voir Meilleurs GPU pour LLM locaux pour configurations Qwen optimisées.
  • Pour exécuter Mistral 7B sur matériel minimal: Ce guide (RTX 3060 ou 4060 Ti) est votre point de départ.
  • Pour calculer les besoins VRAM exacts: Utilisez Calculatrice VRAM pour votre taille de modèle et niveau de quantification.

Lecture Associée

Sources

  • Meta AI. (2025). "Llama 4 Model Card." — Architecture Scout MoE, exigences VRAM
  • Qwen Team. (2026). "Qwen3 Technical Report." — Spécifications Qwen3 8B
  • Base de données GPU TechPowerUp: Spécifications RTX 3060 / RTX 4060 Ti / RTX 4070 Super et consommation d'énergie
  • Matrice de capacité NVIDIA CUDA: Bande passante mémoire GPU et débit théorique pour les charges de travail d'inférence
  • Exigences de modèle Ollama: Recommandations VRAM pour Llama 4 Scout, Qwen3 et Mistral 7B niveaux de quantification

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

RTX 3060 à RX 6800 XT : 5 GPU budget pour LLMs locaux 2026