Points clés
- Meilleur choix par budget : Moins de 200 € — RX 6700 XT 12GB (140–190 €, la moins chère, friction de configuration AMD) ou RTX A4000 16GB si trouvée sous 220 € (meilleur rapport VRAM/€). ~250 € — RTX 3060 12GB (meilleur choix global). Moins de 450 € — RTX 4070 Super 12GB (la plus rapide à 25–30 tok/s).
- RTX 3060 12GB (200–250 € d'occasion) : fait tourner tous les modèles 7B-8B en Q4/Q5 et la plupart des denses 13B-14B en Q4. Meilleur choix économique.
- RTX 3060 6GB : limitée aux modèles 3B (Phi-4 Mini, Llama 3.2 3B). Trop juste pour le 7B.
- Meilleur modèle global sur 12GB : Qwen3 14B, ~9 GB de VRAM, 9–12 tok/sec. Meilleure qualité dense qui tient confortablement.
- Meilleur modèle de code sur 12GB : Qwen3 8B à 16–20 tok/sec.
- Meilleur modèle de raisonnement sur 12GB : DeepSeek-R1 7B à 10–12 tok/sec. Chaîne de pensée.
- À éviter si : vous visez des modèles 70B, Llama 4 Scout (~55 GB) ou du 13B en Q8 — il vous faut 24GB+ (RTX 4090).
Que peut faire tourner la RTX 3060 12GB ?
La RTX 3060 12GB est le meilleur GPU économique pour les LLM locaux en 2026. Ses 12GB de VRAM accueillent tous les modèles 7B en quantification Q4/Q5, et la plupart des 13B en Q4. Pour un guide détaillé des besoins en VRAM selon la taille des modèles, voir le guide des besoins en VRAM →. Voici les modèles et vitesses précis auxquels vous attendre :
| Modèle | Taille | Quantification | VRAM utilisée | Vitesse | Idéal pour |
|---|---|---|---|---|---|
| Qwen3 14B | 14B (dense) | Q4_K_M | ~9 GB | 9–12 tok/sec | Meilleure qualité globale qui tient |
| Qwen3 8B | 8B | Q4_K_M | ~7 GB | 16–20 tok/sec | Code, polyvalence |
| Gemma 4 E12B | 26B MoE | Q4_K_M | ~9 GB | 11–14 tok/sec | Vision, multimodal |
| Mistral Small v0.3 | 7B | Q4_K_M | ~7 GB | 18 tok/sec | Suivi des instructions |
| DeepSeek-R1 7B | 7B | Q4_K_M | ~7 GB | 10–12 tok/sec | Raisonnement, maths |
| Gemma 4 E4B | E4B (multimodal) | Q4_K_M | ~5 GB | 18–22 tok/sec | Vision légère, chat rapide |
| Llama 3.2 13B | 13B | Q4_K_M | ~11 GB | 8–10 tok/sec | Chat de meilleure qualité (Q4 uniquement, ajustement serré) |
Qwen3 14B (dense) est le modèle de meilleure qualité qui tient confortablement sur une RTX 3060 12GB en Q4_K_M, avec ~9 GB. `ollama pull qwen3:14b`. Remarque : Llama 4 Scout (MoE 17B actifs / 109B au total, contexte de 10M tokens, multimodal) réclame ~55 GB en Q4 et ne tient normalement pas dans 12 GB — c'est un choix long contexte / grand multimodal pour les configurations à forte VRAM, pas une recommandation de GPU économique. gpt-oss:20b (MoE 21B au total / 3.6B actifs) réclame 16 GB, donc il reste tout juste hors de portée d'une carte 12 GB. Toutes les vitesses mesurées avec Ollama sur RTX 3060 12GB, 16GB de RAM système, Ryzen 7 7700X. Quantification Q4_K_M. Les vitesses varient de ±15 % selon la longueur du prompt et la fenêtre de contexte.
Que peut faire tourner la RTX 3060 6GB ?
La variante 6GB est très limitée. Seuls les modèles 3B tiennent confortablement. Les modèles 7B en Q4 réclament ~7GB — plus que ce dont vous disposez. Le déchargement CPU fonctionne mais réduit la vitesse de 50–70 %.
- Phi-4 Mini 3.8B (Q4) : ~3GB de VRAM, 20–25 tok/sec. Meilleur raisonnement à cette taille. Solide en maths et logique.
- Llama 3.2 3B (Q4) : ~2.5GB de VRAM, 25–35 tok/sec. Option la plus rapide. Bon pour le chat simple et les questions-réponses.
- Gemma 2 2B (Q4) : ~1.7GB de VRAM, 35–45 tok/sec. Modèle le plus léger. Bon pour tester des configurations.
- 7B avec déchargement : possible mais lent. Llama 7B avec déchargement CPU = ~5–8 tok/sec. Utilisable uniquement pour du traitement par lots non interactif.
- Recommandation : si vous avez une carte 6GB, passez à une 12GB d'occasion (200–250 €) avant d'investir du temps dans des contournements. Le gain en vitesse et en qualité de modèle en vaut la peine.
RTX 3060 vs autres GPU économiques
| GPU | VRAM | Prix (occasion) | Vitesse 7B | Modèle max | Verdict |
|---|---|---|---|---|---|
| RTX 3060 12GB ★ | 12 GB | 200–250 € | 15–20 tok/sec | 13B (Q4) | Meilleur choix économique global |
| RTX 4060 Ti 8GB | 8 GB | 250–300 € | 20–25 tok/sec | 7B (Q5 max) | Plus rapide mais moins de VRAM |
| RTX A4000 | 16 GB | 170–220 € | 12–15 tok/sec | 13B (Q5) | Meilleur rapport VRAM/€ |
| RTX 4070 Super | 12 GB | 380–430 € | 25–30 tok/sec | 13B (Q5) | Plus rapide, mais 2× le prix |
| RX 6700 XT | 12 GB | 140–190 € | 10–14 tok/sec | 13B (Q4) | La moins chère, friction AMD |
La RTX 3060 12GB l'emporte sur la valeur : 12GB de VRAM à 200–250 € font tourner tous les modèles 7B et la plupart des 13B. La RTX A4000 arrive juste derrière si vous en trouvez une sous 220 €.
Combien de VRAM faut-il pour les modèles 7B ?
Les modèles 7B quantifiés en Q4 (4 bits) réclament 6-8GB de VRAM ; en Q5 (5 bits) 8-10GB ; en Q8 (8 bits) 14-16GB.
En pratique : 8GB est le strict minimum pour une inférence confortable sur des modèles 7B en Q4, avec de la marge pour le traitement par lots.
Les cartes 6GB (RTX 2060) fonctionnent techniquement mais exigent une optimisation agressive et ne laissent aucune marge pour des lots plus importants.
Si vous êtes limité à moins de 8 GB de VRAM, vous pouvez tout de même exécuter des LLM locaux efficacement — **voir les modèles optimisés pour la vitesse sur du matériel 4–8 GB**.
Le coût du GPU n'est qu'un aspect de l'économie ; le coût des tokens en est un autre. L'inférence locale élimine les frais d'API par token, mais la longueur du prompt influe toujours sur la latence et le débit. Pour le panorama complet des coûts — tokens, paliers tarifaires et stratégies d'optimisation — voir tokens, coûts et limites : l'économie du prompting IA.
Meilleurs modèles par usage sur RTX 3060
Choisissez votre modèle selon vos besoins réels, pas selon le nombre de paramètres. Voici les meilleurs choix pour chaque usage sur RTX 3060 12GB :
Le matériel économique fait tourner de plus petits modèles — mais un prompting habile comble l'écart de qualité. Le guide d'ingénierie de prompts couvre des techniques comme la chaîne de pensée et la sortie structurée qui aident les petits modèles à se surpasser. Une charge concrète qui tient sur le palier RTX 3060 12 GB est la revue automatisée de pull requests — voir Revue de code par LLM local en CI/CD pour le schéma GitHub Actions qui fait tourner Qwen3 8B sur les PR avec exactement ce matériel.
- Chat / Q&R : `ollama run qwen3:14b` — 14B dense, ~9 GB de VRAM, meilleure qualité sur 12 GB. Pour une option plus légère : `ollama run qwen3:8b` à ~7 GB.
- Code : `ollama run qwen3:8b` — solide polyvalence en code. ~7 GB de VRAM. 16–20 tok/sec.
- Raisonnement / Maths : `ollama run deepseek-r1:7b` — raisonnement en chaîne de pensée. 10–12 tok/sec. Plus lent mais nettement plus précis sur les problèmes multi-étapes.
- Rédaction / Créatif : `ollama run mistral:7b` — meilleur suivi des instructions. 18 tok/sec. Sortie propre et structurée. Bon pour rédiger et réécrire.
- Vision / Images : `ollama run gemma4:e12b` — multimodal (accepte les images). 11–14 tok/sec. Utilise ~9GB de VRAM. Pour un choix plus léger, `ollama run gemma4:e4b` à ~5 GB. Décrit des photos, lit des captures d'écran, analyse des graphiques.
- Confidentialité / Hors ligne : n'importe lequel des précédents. Tous tournent 100 % en local. Aucune donnée ne quitte votre machine. Aucune connexion requise après le téléchargement du modèle.
- Domotique / IA toujours active : `ollama run phi4-mini` — Phi-4 Mini (3.8B, ~3 GB de VRAM) gère les requêtes vocales Home Assistant sur un mini PC sans GPU dédié. Voir meilleur matériel pour une IA domotique locale →.
Occasion ou neuf : où acheter ?
- Occasion (50-100 € moins cher) : leboncoin, Marketplace Facebook, magasins de réparation locaux. Risque accru de cartes mortes ou de VRAM défectueuse. Testez toujours avant de vous engager.
- Neuf (260-380 €) : LDLC, Materiel.net, Amazon, Top Achat. Garantie incluse. Aucune surprise. Prix stables. Idéal pour les acheteurs prudents.
- Cartes de minage (crypto, très bon marché) : risque extrême. Dégradation de la VRAM fréquente. À acheter uniquement si vous pouvez la tester intégralement sur place.
Erreurs courantes avec les GPU économiques
- Acheter une RTX 2060 4GB en s'attendant à une inférence 7B fluide — vous rencontrerez constamment des erreurs de mémoire insuffisante.
- Associer un GPU à 250 € à une alimentation à 30 € — la chute de tension tue la stabilité. Prévoyez une 80+ Gold, 650W minimum.
- Croire que de la RAM DDR5 et un CPU i9 accélèrent l'inférence LLM — ce n'est pas le cas. La bande passante de la VRAM du GPU est le seul goulot d'étranglement qui compte pour la vitesse d'inférence.
- Croire que Llama 4 Scout tient dans 12 GB. Scout est un MoE 17B actifs / 109B au total qui réclame ~55 GB en Q4 (il ne se glisse dans 24 GB qu'en 1.78 bit, ~20 tok/s). Sur une RTX 3060 12 GB, faites plutôt tourner des modèles denses : Qwen3 14B (~9 GB), Qwen3 8B ou Gemma 4 E12B.
- Acheter une carte 16 GB juste pour les modèles 13B. Une RTX 3060 12 GB fait déjà tourner Qwen3 14B en Q4. Passez au 16 GB uniquement si vous avez spécifiquement besoin de gpt-oss:20b (16 GB), de modèles denses 20B+ ou de plus de marge de contexte.
Étapes suivantes
- Meilleures GPU AMD pour LLM local — Envisagez AMD ? Comparaison complète AMD vs NVIDIA →
- Meilleurs modèles Ollama open source — Quels modèles tournent le mieux sur une GPU budget ? →
- Combien de VRAM me faut-il ? — Adaptez votre GPU à la taille du modèle →
Questions fréquemment posées
La RTX 3060 12GB vaut-elle encore l'achat en 2026 ?
Oui. Elle a 4 ans et plus, mais ses 12GB de VRAM sont intemporels. Elle fait tourner Qwen3 14B, Qwen3 8B, Gemma 4 E12B et Mistral Small sans accroc en Q4. Elle accueille tous les modèles 7B-8B et la plupart des denses 13B-14B.
Faut-il acheter une RTX 5060 Ti ou une RTX 4060 Ti pour les LLM locaux ?
La RTX 5060 Ti. La nouvelle génération (2026) offre 10-15 % de performances en plus. Avec un budget serré, la RTX 4060 Ti reste solide. Évitez les 4060/5060 de base (8GB) et la 4070 (12GB) — mauvaise valeur.
Puis-je utiliser une AMD RX 7900 XT ou RX 7900 XTX à la place ?
Oui, mais le support des pilotes AMD est plus faible que NVIDIA + CUDA. La configuration HIP/ROCm demande plus d'efforts. RTX reste plus sûr pour les débutants.
Les 12GB de VRAM suffisent-ils pour les modèles 13B ?
Tout juste, en quantification Q4. Le Q5 ou le Q8 provoqueront des erreurs OOM. Si vous voulez du 13B confortable, visez 16GB.
Faut-il acheter un GPU professionnel d'occasion comme la RTX A4000 ?
Oui, si disponible. 16GB de VRAM, refroidissement de qualité professionnelle, généralement 170-220 € d'occasion. Légèrement plus lente que la RTX 3060, mais le coussin de VRAM en vaut la peine.
Quelle puissance d'alimentation acheter avec un GPU à 250 € ?
650W, 80+ Gold minimum. Un GPU à 250 € + CPU + carte mère ne dépasse pas 400W de consommation, mais vous voulez de la marge pour les pics.
Puis-je faire tourner Ollama avec un GPU économique à 200 € ?
Oui. Ollama est léger. Une RTX 3060 vieille de 4 ans avec Ollama fera tourner Qwen3 14B à 9-12 tok/sec ou Qwen3 8B à 16-20 tok/sec — totalement utilisable pour le chat interactif et l'assistance au code.
Puis-je faire tourner Llama 4 Scout sur une RTX 3060 12GB ?
Pas normalement. Llama 4 Scout est un MoE 17B actifs / 109B au total qui réclame ~55 GB de VRAM en Q4 — bien au-delà d'une carte 12 GB. Il ne se glisse dans 24 GB qu'avec une quantification extrême 1.78 bit (~20 tok/sec). Sur une RTX 3060 12GB, faites plutôt tourner des modèles denses : `ollama pull qwen3:14b` (meilleure qualité qui tient), Qwen3 8B ou Gemma 4 E12B. Scout est un choix long contexte (10M tokens) / grand multimodal pour les configurations 48 GB+.
Lectures complémentaires
- Mini PC AMD Ryzen AI Max+ (2026) — Alternative aux GPU dédiés : iGPU + NPU 50 TOPS à 1 100–2 300 €.
- Combien de VRAM pour les LLM locaux
- RTX 5090 vs RTX 4090
- GPU d'occasion pour LLM locaux
- Meilleurs GPU pour LLM locaux
- Calculateur de VRAM
- Portable ou fixe pour les LLM locaux — Comparaison complète des plateformes : fixe avec GPU vs MacBook pour les LLM locaux.
- Ingénierie de prompts pour LLM locaux — optimisez vos prompts pour les modèles sur matériel économique.
- Prompting en chaîne de pensée — améliore nettement la qualité de sortie de DeepSeek-R1.
- Mac Mini M5 comme serveur IA local — Alternative économique aux configurations GPU : IA toujours active à env. 560 € de matériel + 35 €/an d'électricité.
- Apple Silicon M5 pour LLM locaux — Guide complet M5 Pro/Max : benchmarks, configurations Mac, paliers de mémoire et quel Mac acheter pour l'inférence locale.
- Apple Silicon vs GPU NVIDIA pour LLM locaux — Comparaison complète coût et performance : quand un Mac bat un GPU économique.
- Meilleurs modèles pour Apple Silicon 2026 — Recommandations de modèles pour les paliers de mémoire unifiée 16GB–128GB.
- Melhores GPUs Econômicas para LLMs Locais (Português) — versão em português deste guia
- Pour les prix des GPU au Japon, les détaillants d'Akihabara et les options du marché de l'occasion sur Mercari et Yahoo Auctions, voir notre <a href="/prompt-bites/best-gpu-local-llm-japan-price" class="text-primary hover:underline">guide du GPU au meilleur rapport qualité-prix pour LLM locaux au Japon</a>.
Sources
- Meta AI. (2025). « Llama 4 Model Card. » — architecture MoE de Scout, besoins en VRAM
- Qwen Team. (2026). « Qwen3 Technical Report. » — spécifications de Qwen3 8B
- Base de données GPU TechPowerUp : spécifications et consommation des RTX 3060 / RTX 4060 Ti / RTX 4070 Super
- Matrice de capacité CUDA NVIDIA : bande passante mémoire des GPU et débit théorique pour les charges d'inférence
- Besoins des modèles Ollama : recommandations de VRAM pour les niveaux de quantification de Llama 4 Scout, Qwen3 et Mistral Small
- Les cadres de conformité exigent des flux de travail auditables. Établissez des normes de gouvernance pour la qualité et la revue des prompts IA : gouvernance des prompts en production couvre les politiques, le contrôle de version et les processus d'approbation.