Points clés
- GPU (RTX 3060 8 Go) : Mistral 7B Q4 à 15 tok/sec. Meilleur rapport vitesse/qualité.
- GPU (RTX 2060 4 Go) : Mistral 7B Q2 (2 bits) à 20 tok/sec. Qualité acceptable, vitesse élevée.
- CPU (ancien portable) : Phi 2.7B Q4 à 3 tok/sec. Utilisable pour le chat, lent pour le code.
- CPU + GPU désactivé (batterie) : TinyLlama 1.1B Q4 à 2 tok/sec. Chat uniquement.
- Classement vitesse (du plus rapide au plus lent) : GPU (RTX) > GPU (iGPU) > CPU (AVX) > CPU (scalaire).
- Classement qualité : Mistral 7B > Phi 2.7B > TinyLlama 1.1B.
- Optimal : Quantifier les grands modèles (Mistral Q2) plutôt qu'utiliser des modèles minuscules. Q2 Mistral > Q4 TinyLlama.
- Coût : Tous gratuits (open source) vs. API ChatGPT (~0,002 $ pour 1 000 tokens).
Quel est le modèle le plus rapide pour votre matériel ?
Adaptez votre matériel au bon modèle — le mauvais choix laisse 10–30× de vitesse sur la table.
| Votre matériel | Modèle recommandé | Vitesse attendue |
|---|---|---|
| 4 Go RAM, CPU seul (vieux 4 cœurs) | TinyLlama 1.1B Q4 | 5–10 tok/sec |
| 8 Go RAM, CPU seul (8 cœurs modernes) | Phi 2.7B Q4 | 10–20 tok/sec |
| iGPU (Intel Iris / AMD iGPU) | Mistral 7B Q4 | 5–8 tok/sec |
| GPU 8 Go VRAM (RTX 3060 / 3070) | Mistral 7B Q4 | 25–40 tok/sec |
Quel LLM local faire tourner sur votre matériel ?
**Choisissez le plus grand modèle que votre VRAM peut tenir en Q4, puis revenez à une quantification plus faible avant de passer à un modèle plus petit. La quantification dégrade moins la qualité qu'un changement de taille de modèle.**
| Matériel | Meilleur modèle | Vitesse | Qualité | Notes |
|---|---|---|---|---|
| RTX 3060 8 Go | Mistral 7B Q4 | 15 tok/sec | Excellente | Référence pour « GPU bas de gamme » |
| RTX 2060 4 Go | Mistral 7B Q2 | 20 tok/sec | Bonne | Qualité légèrement réduite, vitesse accrue |
| Intel Iris (iGPU) | Mistral 7B Q4 | 5 tok/sec | Excellente | Lent mais fonctionnel sur portables |
| CPU moderne (8 cœurs) | Phi 2.7B Q4 | 3 tok/sec | Correcte | Acceptable pour chat léger |
| Vieux CPU (4 cœurs) | TinyLlama 1.1B Q4 | 1 tok/sec | Faible | Lent ; Q&A simple uniquement |
GPU vs CPU pour les LLMs locaux : lequel est plus rapide sur matériel bas de gamme ?
Inférence GPU : 15–20 tok/sec sur RTX 3060. Requiert la configuration CUDA. Rapide, meilleure qualité. Consultez le guide GPU budget pour des options économiques.
iGPU (graphiques intégrés) : 5–8 tok/sec sur Intel Iris. Aucune configuration requise. Plus lent que le GPU dédié.
Inférence CPU : 1–5 tok/sec sur multi-cœur moderne. Fonctionne partout. Le plus lent.
Règle : Si vous avez un GPU (même intégré), utilisez-le. Le CPU est le dernier recours.
Pourquoi les modèles plus petits sont plus rapides sur PC bas de gamme
La taille du modèle détermine directement la vitesse. Un modèle 1B–3B tient entièrement en RAM système, permettant au CPU ou GPU de diffuser les données en continu. Les modèles plus grands nécessitent un échange mémoire — déplacer des données entre la RAM et le disque — ce qui ralentit la génération de 10–100× (le goulot d'étranglement est l'E/S disque, pas le calcul).
Le tableau de décision matérielle illustre ce principe : TinyLlama 1.1B atteint 5–10 tok/sec sur de vieux CPU, tandis que les modèles 13B+ sont impraticables sur matériel bas de gamme.
- Modèles 1B–3B : Tiennent en 4–8 Go RAM → génération la plus rapide → qualité acceptable
- Modèles 7B : À la limite sur systèmes 8 Go → plus lents par pression mémoire → qualité élevée
- Modèles 13B+ : Nécessitent 16+ Go VRAM ou swap → trop lents pour un usage interactif
À quelle vitesse fonctionnent les LLMs locaux sur PC bas de gamme ?
Sur systèmes CPU seul, attendez-vous à :
- Modèles 3B → 15–40 tokens/sec (anciens CPU : 10–15, nouveaux CPU avec optimisation : 30–40)
- Modèles 7B → 10–25 tokens/sec (selon les cœurs CPU et la quantification ; avec optimisation agressive, certains atteignent 30+)
- C'est plus lent que les API cloud (ChatGPT 4o : 80–150 tok/sec), mais suffisant pour un usage interactif. Un modèle 3B à 25 tok/sec génère une réponse de 500 tokens en 20 secondes — acceptable pour des tâches non urgentes comme la revue de code, la synthèse et l'écriture créative.
Comment la quantification affecte-t-elle la vitesse sur PC bas de gamme ?
Q4 (4 bits) : ~1 % de perte qualité, 50 % d'économie VRAM. Choix standard. Consultez le guide quantification pour tous les niveaux.
Q3 (3 bits) : ~3 % de perte qualité, 62 % d'économie VRAM. Acceptable pour le chat.
Q2 (2 bits) : ~10 % de perte qualité, 75 % d'économie VRAM. Risqué ; à utiliser uniquement en cas d'OOM.
Impact vitesse : Q2 est ~30 % plus rapide que Q4 par réduction de la bande passante mémoire, pas des calculs.
Stratégie : Quantifier les grands modèles (Mistral 7B Q2) plutôt qu'utiliser des modèles minuscules (TinyLlama).
Mistral 7B Q2 > TinyLlama 1.1B Q4 en vitesse et en qualité.
Les modèles plus rapides sacrifient la qualité pour la vitesse — mais en réglant la température et le top-p, vous pouvez récupérer beaucoup de cette qualité. Une température plus basse (0,1–0,3) sur les modèles rapides produit une sortie plus cohérente que les paramètres par défaut. Consultez température et top-p expliqués pour les paramètres exacts.
Comment accélérer l'inférence CPU seul ?
- Activer AVX-512 : Si le CPU le supporte, utilisez `LLAMACPP_AVX512=1 ollama run phi`. ~20 % de gain de vitesse.
- Réduire la fenêtre de contexte : Contexte plus court = plus rapide. Utilisez `--ctx-size 1024` au lieu de 4096.
- **Utiliser llama.cpp plutôt qu'Ollama :** Légèrement plus rapide sur CPU (~10 % de gain) par réduction des surcharges.
- Désactiver le multithreading : Contre-intuitif, mais sur les CPU faibles, le mono-thread est plus rapide (pas de surcharge de threads).
- Décharger sur l'iGPU : Même un GPU intégré faible surpasse le CPU. Vérifiez la disponibilité GPU avec `lspci`.
Benchmarks réels (avril 2026)
Mesures réelles sur cinq configurations matérielles, avril 2026. Toutes avec Ollama et paramètres par défaut, sans tuning :
- RTX 3060 12 Go + Mistral 7B Q4 : 15 tok/sec.
- RTX 2060 4 Go + Mistral 7B Q2 : 20 tok/sec (quantification agressive).
- Intel Iris (MacBook Air M1) + Mistral 7B Q4 : 8 tok/sec.
- Ryzen 7 7700X CPU + Phi 2.7B Q4 : 3 tok/sec.
- Celeron N3050 (vieux portable) + TinyLlama 1.1B Q4 : 0.5 tok/sec (inutilisable).
Ce qu'il faut éviter sur PC bas de gamme
- N'exécutez pas de modèles 13B+ — ils dépassent les limites RAM. Un modèle 13B en Q4 nécessite 8–10 Go VRAM, au-delà de la capacité pratique d'un PC bas de gamme. Même avec Q2 agressif, les modèles 13B nécessitent 5–6 Go. Restez sur 7B et moins.
- Évitez la quantification Q8 — plus lente pour un gain de qualité minimal. Q8 utilise presque 2× le VRAM de Q4 (8 Go vs 5.5 Go pour Mistral 7B) et n'offre que ~2 % d'amélioration qualité. Pour les systèmes 4 Go, Q8 est impraticable ; pour 8 Go, Q4 reste optimal.
- N'attendez pas une autocomplétion en temps réel. À 3 tok/sec sur CPU, générer 50 tokens prend 16 secondes. L'autocomplétion interactive nécessite ≥20 tok/sec. Les LLMs locaux sur CPU bas de gamme conviennent au chat par lots et aux brouillons — pas à l'autocomplétion en direct.
- N'utilisez pas l'inférence CPU seul pour des chatbots en production. Acceptable pour les outils internes et les prototypes. Les API cloud (latence 15–20 ms) surpassent les CPU bas de gamme (latence 300+ ms) pour les services orientés utilisateurs. Utilisez l'inférence locale pour les scénarios confidentiels ou hors ligne.
Erreurs courantes
- Erreur : Choisir TinyLlama pour la vitesse sur CPU. Problème : TinyLlama 1.1B n'est pas significativement plus rapide que Mistral 7B Q2. Solution : Utilisez Mistral 7B Q2 — même vitesse, 40 % meilleure qualité de sortie.
- Erreur : Ne pas activer les flags d'accélération CPU. Problème : L'absence d'AVX/NEON offre 20 % de gain de vitesse sans coût. Solution : Définissez `LLAMACPP_AVX512=1` ou `LLAMACPP_NEON=1` avant de lancer Ollama.
- Erreur : Forcer Q2 pour faire tenir un 7B dans 4 Go. Problème : La quantification Q2 provoque souvent des crashs OOM à cause du surcoût du cache KV. Solution : Utilisez un modèle 3B en Q4 à la place.
- Erreur : Supposer que le matériel plus récent signifie toujours une inférence plus rapide. Problème : Le Ryzen desktop n'est pas plus rapide par token que l'ARM mobile, faute d'optimisation mémoire. Solution : Benchmarkez votre matériel réel.
- Erreur : Utiliser le mauvais slug Ollama pour votre modèle. Problème : `ollama run phi` charge Phi-2, pas Phi-4 ou Phi-Mini. Solution : Vérifiez ollama.com/library et utilisez les tags de modèle exacts.
LLMs locaux sur PC bas de gamme : contexte régional
UE / RGPD : Exécuter des LLMs locaux sur matériel bas de gamme est le schéma de déploiement le plus conforme au RGPD pour les particuliers et petites entreprises — aucune donnée ne quitte l'appareil. Le règlement AI de l'UE (applicable depuis février 2025) n'impose pas d'obligations de documentation pour l'inférence personnelle. La CNIL recommande l'IA locale pour le traitement de données professionnelles sensibles (financières, médicales, juridiques) lorsque la confidentialité est prioritaire.
Japon : Les directives de gouvernance IA du METI encouragent la minimisation des données. L'inférence CPU sur matériel bas de gamme satisfait les exigences les plus strictes de souveraineté des données — pas d'appels API, pas de journalisation, pas d'accès tiers. Pour les utilisateurs japonais exécutant Qwen2.5 sur CPU, un débit de 1–3 tok/sec est acceptable pour les résumés de documents non urgents.
Chine : L'inférence locale sur matériel grand public est courante pour les déploiements Qwen2.5 et DeepSeek-R1, où l'accès aux API cloud de modèles non chinois est restreint. Qwen2.5 1.5B et 3B fonctionnent sur matériel CPU seul comme alternative fonctionnelle aux API cloud.
Questions fréquentes sur l'exécution de LLMs locaux sur PC bas de gamme
Qu'est-ce qui qualifie un PC comme bas de gamme pour les LLMs locaux ?
Un PC bas de gamme pour les LLMs locaux est toute machine avec moins de 8 Go de VRAM dédié, ou un système CPU seul. Cela inclut la plupart des portables avec Intel Iris ou AMD Radeon intégrés, les PC de bureau avec GTX 1060 ou GPU plus anciens, et les Chromebooks. La contrainte clé n'est pas la vitesse CPU mais la mémoire disponible pour les poids du modèle.
Puis-je faire tourner Mistral 7B sur un GPU 4 Go ?
En quantification Q2, oui. En Q4, non (crash OOM). Q2 a une perte de qualité acceptable (~5–10 % de score MMLU en moins), mais la vitesse augmente de 30 %. C'est un compromis pratique pour les utilisateurs avec VRAM limité.
L'inférence CPU est-elle utilisable pour les chatbots ?
Oui, pour les scénarios à faible débit et asynchrones. À 3 tok/sec, une réponse de 100 tokens prend ~3 minutes. C'est inutilisable pour la conversation interactive mais acceptable pour le traitement par lots ou des tâches comme la rédaction d'e-mails.
Dois-je utiliser Phi 2.7B ou TinyLlama 1.1B sur CPU ?
Phi 2.7B est le meilleur choix. Il est seulement 0.5 tok/sec plus lent que TinyLlama mais produit une qualité 40 % supérieure sur les tâches de raisonnement. TinyLlama n'existe qu'en dernier recours pour matériel extrêmement contraint.
Comment vérifier si mon GPU supporte CUDA ?
Exécutez `nvidia-smi` dans le terminal. S'il affiche des informations GPU, vous avez le support CUDA. Si c'est « command not found » ou « no NVIDIA GPU », consultez la documentation Intel/AMD pour les pilotes GPU intégrés.
Comment la quantification affecte-t-elle la vitesse d'inférence ?
La quantification réduit principalement les besoins en bande passante mémoire, pas le calcul. Q2 (2 bits) est environ 30 % plus rapide que Q4 (4 bits) car le modèle charge moins d'octets par passe forward. Cependant, Q2 entraîne une pénalité qualité de ~10 %. Règle pratique : Q4 par défaut, Q2 uniquement si le modèle ne tient pas en VRAM disponible en Q4.
Puis-je quantifier en dessous de Q2 ?
Techniquement oui (Q1), mais la qualité se dégrade catastrophiquement — jusqu'à 30 % de perte de précision. Non recommandé pour aucun cas d'usage pratique.
L'inférence hybride CPU + GPU est-elle supportée ?
Oui, via l'offloading de couches. Avec llama.cpp vous pouvez utiliser `--n-gpu-layers 10` pour décharger les 10 premières couches sur le GPU tout en gardant le reste sur CPU. Cette approche hybride offre une vitesse proche du GPU sur VRAM limité.
Quel est le LLM local le plus rapide ?
Les modèles les plus rapides sont les modèles à paramètres 1B–3B comme Llama 3.2 3B, qui peuvent atteindre 15–40 tokens/sec sur des CPU modernes optimisés et jusqu'à 40–60 tok/sec avec accélération GPU. La vitesse dépend davantage du matériel que du modèle — un 7B sur GPU (25–40 tok/sec) dépasse un 3B sur CPU (10–25 tok/sec).
Puis-je faire tourner un LLM local avec 4 Go de RAM ?
Oui — les modèles 1B fonctionnent confortablement sur des systèmes 4 Go (1–1.3 Go par modèle + 2–3 Go pour l'OS). Les modèles plus grands nécessitent plus : 3B nécessite 2–3 Go, 7B nécessite 5.5–8 Go en Q4. Pour les systèmes 4 Go, Llama 3.2 1B ou TinyLlama 1.1B sont des choix pratiques, mais la qualité est limitée.
Un GPU est-il nécessaire pour la vitesse ?
Non, mais les GPU augmentent significativement la vitesse. Les systèmes CPU seul peuvent atteindre 10–25 tok/sec pour les modèles 3B avec optimisation ; les GPU atteignent 25–60 tok/sec. Pour les utilisateurs CPU seul, les modèles plus petits (1B–3B) sont essentiels. Un GPU n'est requis que pour des vitesses interactives sur les modèles 7B+.
Sources
- Fiche modèle Phi 2.7B — Microsoft Research. Scores de benchmark et notes d'architecture pour Phi-2 (2.7B paramètres).
- Dépôt TinyLlama 1.1B — Stability AI. Spécifications du modèle, données d'entraînement et benchmarks de performance pour TinyLlama 1.1B.
- Guide d'optimisation CPU llama.cpp — Flags d'accélération CPU incluant AVX-512, NEON et configuration des threads.