Points clés
- Manque de mémoire : passez à une quantification plus petite (Q4_K_M → Q3_K_S) ou un modèle plus petit.
- GPU non détecté sur NVIDIA : Mettez à jour le pilote vers 525+ sous Linux, 452+ sous Windows. Exécutez `nvidia-smi` pour confirmer.
- Inférence extrêmement lente : Vous exécutez uniquement sur CPU. Activez le déchargement GPU dans Ollama avec la variable d'environnement `OLLAMA_GPU_LAYERS`.
- Connexion refusée : Ollama n'est pas en cours d'exécution. Démarrez-le avec `ollama serve` ou redémarrez le service.
- Sortie brouillée : mauvais modèle de saisie. Utilisez la variante Instruct du modèle, pas la variante de base.
Erreur 1 : « Manque de mémoire » / Plantage Out-of-Memory
Les erreurs manque de mémoire signifient que le modèle nécessite plus de RAM que disponible — ce n'est pas une panne matérielle. C'est l'erreur la plus courante pour les utilisateurs novices. Voir Quantification LLM expliquée pour les détails sur la façon dont la quantification réduit les exigences RAM.
- Vérifier la mémoire disponible : Exécuter `free -h` sur macOS/Linux, ou ouvrir le Gestionnaire des tâches → Performance → Mémoire sur Windows.
- Passer à une quantification plus petite : Remplacer `Q8_0` ou `Q5_K_M` par `Q4_K_M`. Pour Ollama: `ollama run llama3.2-instruct-q4_K_M`.
- Fermer les applications en arrière-plan avant de charger le modèle — les navigateurs et autres applications consomment de la RAM que le modèle n'aura pas.
- Passer à un modèle plus petit : si 8B échoue sur 8 Go de RAM, essayez `llama3.2:3b` (ne nécessite que ~2,5 Go).
Vérifier la mémoire disponible sur Linux / macOS
# Linux
free -h
# macOS
vm_stat | grep "Pages free"
# Plus lisible sur macOS
top -l 1 | grep "PhysMem"Erreur 2 : GPU non utilisé (exécution CPU uniquement)
GPU non utilisé signifie que le LLM s'exécute 5–10× plus lentement que prévu — vérifier l'installation du pilote avant tout. Vérifier que votre GPU est visible pour le système :
# NVIDIA — doit afficher le nom GPU et la version du pilote
nvidia-smi
# AMD sous Linux
rocm-smi
# macOS — vérifier si Metal est disponible
system_profiler SPDisplaysDataType | grep "Metal"Comment activez-vous le GPU dans Ollama ?
- NVIDIA sur Linux : Installer le pilote NVIDIA 525+ et CUDA Toolkit 11.3+. Ollama détecte automatiquement CUDA au redémarrage.
- NVIDIA sur Windows : Assurez-vous que la version du pilote est 452.39 ou plus. Ollama installe automatiquement le support CUDA via l'installateur Windows.
- AMD sur Linux : Installer ROCm 5.7+. Si la détection échoue, définir `HSA_OVERRIDE_GFX_VERSION=11.0.0` pour les cartes RX 6000.
- Apple Silicon : Ollama utilise Metal par défaut — aucune configuration requise. Confirmer avec `ollama ps` après avoir chargé un modèle ; les couches GPU apparaissent dans la sortie.
Erreur 3 : L'inférence est extrêmement lente (moins de 5 Token/Seconde)
Moins de 5 tokens/seconde signifie que le modèle s'exécute uniquement sur CPU ou que le modèle est trop grand pour la VRAM disponible. Un modèle 7B sur GPU génère 30–80 tok/s ; le même modèle sur CPU génère 3–10 tok/s.
- Confirmer si le GPU est actif : Exécuter `ollama ps` tandis qu'un modèle est chargé. La sortie montre combien de couches sont sur GPU vs CPU.
- Réduire la taille du modèle : un modèle 13B sur CPU génère 3–6 tok/s. Passer à 7B double la vitesse ; passer à 3B la quadruple.
- Augmenter les couches GPU dans Ollama : Définir `OLLAMA_GPU_LAYERS=999` pour pousser toutes les couches sur GPU (Ollama capped à ce qui rentre dans VRAM).
- Utiliser une quantification plus rapide : Q4_K_M est la quantification la plus rapide qui maintient une qualité acceptable. Q8_0 est meilleure qualité mais ~30% plus lent.
Définir les couches GPU dans Ollama
# Définir la variable d'environnement avant de démarrer Ollama
export OLLAMA_GPU_LAYERS=999
ollama serve
# Ou dans un Modelfile
FROM llama3.1:8b
PARAMETER num_gpu 999Erreur 4 : « Connexion refusée » lors de l'appel de l'API
Connexion refusée signifie qu'Ollama n'est pas en cours d'exécution — l'API à `localhost:11434` répond uniquement quand le service est actif. Démarrez-le avant d'effectuer des appels API.
# Démarrer Ollama manuellement
ollama serve
# Sur Linux — redémarrer le service systemd
systemctl restart ollama
# Vérifier qu'il s'exécute
curl http://localhost:11434
# Attendu : "Ollama is running"Erreur 5 : Erreur « Modèle non trouvé »
« Modèle non trouvé » signifie que le nom du modèle dans votre commande ne correspond à aucun modèle téléchargé. Les noms de modèles dans Ollama sont sensibles à la casse et incluent les balises de version.
# Lister tous les modèles téléchargés
ollama list
# Télécharger un modèle s'il manque
ollama pull llama3.2
# Vérifier le nom de modèle exact — les balises importent
# "llama3.2" et "llama3.2:3b" sont des entrées différentesErreur 6 : Fichier de modèle corrompu
Les fichiers de modèle corrompus sont causés par des téléchargements interrompus — supprimer et retélécharger pour corriger. Ollama ne détecte pas toujours automatiquement les téléchargements partiels.
# Supprimer le modèle corrompu
ollama rm llama3.2
# Le retélécharger
ollama pull llama3.2
# Pour LM Studio : supprimer manuellement les fichiers de modèle
# Localisation par défaut : ~/.cache/lm-studio/models/Erreur 6b : « Failed to Resolve Model » dans LM Studio
« Failed to resolve model lmstudio-community/... » signifie que LM Studio ne peut pas trouver le modèle dans son registre. Cela se produit généralement lorsqu'un modèle est téléchargé depuis `lmstudio-community` sur Hugging Face mais que la référence de registre a changé. LM Studio utilise une entrée de registre mise en cache qui ne correspond plus aux fichiers de modèle disponibles.
- Ouvrir LM Studio → My Models → cliquer sur le menu trois points sur le modèle défaillant → sélectionner « Delete model » (conserve le fichier, supprime le registre)
- Rechercher le même modèle dans le navigateur de modèles et le retélécharger — LM Studio le réenregistrera
- Alternative : quitter LM Studio, naviguer vers `~/.cache/lm-studio/models/`, supprimer le dossier du modèle spécifique, puis retélécharger
# Effacer manuellement le cache du modèle LM Studio (macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>Erreur 7 : Erreurs d'initialisation CUDA / ROCm
Les erreurs CUDA et ROCm signifient une incompatibilité de version de pilote/bibliothèque — mettre à jour votre pilote vers la version minimale requise.
- « CUDA driver version insufficient » : Mettre à jour le pilote NVIDIA. Le minimum pour llama.cpp est CUDA 11.3 / driver 450.80.
- « No kernel image available for execution » : L'architecture de votre GPU n'est pas prise en charge. Les cartes GTX 900-series (Maxwell) et plus anciennes ne sont pas prises en charge par les versions récentes de CUDA.
- AMD ROCm « HSA_STATUS_ERROR_INVALID_ISA » : Définir `HSA_OVERRIDE_GFX_VERSION=10.3.0` (pour RX 6000) ou `11.0.0` (pour RX 7000) avant de démarrer Ollama.
- Vérifier la version CUDA : Exécuter `nvcc --version` ou `nvidia-smi | grep CUDA`.
Erreur 8 : Sortie brouillée, répétitive ou dénuée de sens
La sortie brouillée signifie presque toujours que vous utilisez un modèle de base au lieu d'une variante instruct/chat. Les modèles de base génèrent des complétions de texte brut, pas des réponses aux questions.
Les modèles de base (par exemple, `llama3.1:8b`) ne sont pas optimisés pour la conversation, et lorsqu'on les invite avec une question, ils génèrent des complétions brutes qui ressemblent à du charabia. Utilisez toujours la variante instruct : `llama3.1:8b-instruct`. Voir Comment installer LM Studio pour une méthode basée sur GUI pour basculer les variantes de modèle.
Dans Ollama, la balise par défaut pour la plupart des modèles pointe déjà vers la variante instruct. Si vous avez téléchargé manuellement depuis Hugging Face, confirmez que le nom de fichier inclut « Instruct » ou « chat ».
Erreur 9 : « Address Already in Use » -- Conflit de port
« Address already in use » signifie qu'un autre processus occupe le port 11434 (Ollama) ou 1234 (LM Studio). Trouvez et tuez le processus conflictuel.
# Trouvez ce qui utilise le port 11434 (Ollama)
lsof -i :11434
# Tuez-le par PID
kill -9 <PID>
# Ou changez le port Ollama
export OLLAMA_HOST=0.0.0.0:11435
ollama serveErreur 10 : Le modèle s'arrête au milieu de la réponse
S'arrêter au milieu de la réponse est causé par le dépassement des limites de longueur de contexte ou `num_predict` trop bas. Le `num_predict` par défaut dans de nombreuses configurations est de 128 jetons — juste assez pour 1–2 phrases.
- Augmenter num_predict : Ce paramètre définit les jetons maximum à générer. La valeur par défaut est souvent 128. Augmentez-la : Dans Ollama, ajoutez `PARAMETER num_predict 2048` au Modelfile.
- Vérifier la fenêtre de contexte : Si votre conversation est très longue, le modèle peut atteindre sa limite de contexte. Commencez une nouvelle session ou utilisez un modèle avec une fenêtre de contexte plus grande (Llama 3.2 3B supporte 128K).
- Vérifier les jetons d'arrêt : Certains Modelfiles incluent des séquences d'arrêt qui terminent la génération plus tôt. Vérifiez le invite système et le modèle pour des modèles d'arrêt inattendus.
Lectures connexes
- Quantification LLM expliquée -- Pourquoi Q4_K_M est la valeur par défaut et comment la quantification affecte la RAM
- Guide matériel LLM local 2026 -- Exigences matérielles pour exécuter des modèles 7B–70B
- Comment installer Ollama -- Guide d'installation et de configuration
- Ollama vs LM Studio -- Comparaison des deux outils LLM locaux les plus populaires
- Comment exécuter des LLMs locaux sur un portable -- Optimisation thermique et batterie spécifique au portable
- Meilleurs modèles LLM locaux pour débutants -- Recommandations de modèles pour 8 Go de RAM
- Meilleurs LLMs pour le code 2026 — Comparatif Qwen2.5-Coder vs DeepSeek
Où trouver plus d'aide
Pour les problèmes spécifiques au matériel sur les ordinateurs portables (étranglement thermique, drainage de la batterie), voir Comment exécuter des LLMs locaux sur un portable. Pour les questions de configuration de sécurité et de confidentialité, voir Liste de contrôle sécurité et confidentialité LLM local. La page des problèmes GitHub d'Ollama (github.com/ollama/ollama/issues) et le subreddit r/LocalLLaMA sont les ressources communautaires les plus actives pour les bugs spécifiques aux modèles.
Erreurs courantes dans le dépannage LLM local
- Confondre les erreurs OOM avec une panne matérielle -- l'erreur signifie que la RAM est trop petite pour le modèle, pas que le matériel est cassé. Correctif : utilisez la quantification Q4_K_M ou un modèle plus petit.
- Ne pas vérifier la charge du système -- la vitesse d'inférence se dégrade considérablement lorsque d'autres applications consomment CPU/GPU. Fermez votre navigateur, lecteur vidéo et processus en arrière-plan avant de faire un benchmarking.
- Ignorer l'incompatibilité de la version du pilote -- NVIDIA CUDA nécessite des versions de pilote spécifiques par version CUDA. Vérifiez la sortie `nvidia-smi` ; la version du pilote doit être ≥450.80 pour CUDA 11.x.
- Utiliser un mauvais nom de modèle dans Ollama -- `llama3.2` et `llama3.2:3b` sont différentes balises Ollama. Exécutez `ollama list` pour voir les noms exacts des modèles téléchargés.
- Ne pas redémarrer Ollama après une mise à jour du pilote -- Ollama détecte le GPU au démarrage. Après la mise à jour des pilotes NVIDIA ou ROCm, redémarrez complètement Ollama (`ollama serve`) pour re-détecter le GPU.
Sources
- NVIDIA. (2024). « CUDA Toolkit Release Notes. » https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/ — Exigences de version de pilote CUDA officielles par version.
- Ollama. (2026). « Ollama Troubleshooting. » https://github.com/ollama/ollama/blob/main/docs/troubleshooting.md — Documentation officielle d'Ollama pour les erreurs courantes.
- AMD. (2024). « ROCm Installation Guide. » https://rocm.docs.amd.com/projects/install-on-linux/en/latest/ — Installation ROCm AMD officielle et support GPU Linux.