PromptQuorumPromptQuorum
Accueil/LLMs locaux/Corriger les erreurs locales LLM 2026 : 10 problèmes courants dans Ollama, LM Studio et vLLM
Getting Started

Corriger les erreurs locales LLM 2026 : 10 problèmes courants dans Ollama, LM Studio et vLLM

·Lire 9 min·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Les erreurs les plus courantes dans les LLM locaux sont les plantages manque de mémoire, GPU non détecté, inférence CPU extrêmement lente, connexion refusée par l'API et sortie brouillée.

Les erreurs les plus courantes dans les LLM locaux sont les plantages manque de mémoire, GPU non détecté, inférence CPU extrêmement lente, connexion refusée par l'API et sortie brouillée. En avril 2026, il y a des solutions pour les 10 erreurs - la plupart nécessitent seulement une ou deux commandes de terminal. Ce guide couvre Ollama (port 11434), LM Studio (port 1234) et vLLM avec des commandes exactes pour chaque erreur.

Présentation: Corriger les erreurs locales LLM 2026 : 10 problèmes courants dans Ollama, LM Studio et vLLM

La présentation suivante couvre : les 10 erreurs les plus courantes dans la configuration des LLM locaux (manque de mémoire, GPU non détecté, inférence lente, connexion refusée, sortie brouillée), les exigences RAM pour les modèles 3B–14B en quantification Q4_K_M et Q8_0, un processus de débogage en 5 étapes et les commandes Ollama pour chaque correction. Télécharger le PDF comme carte de référence pour le dépannage des LLM locaux.

Parcourez les diapositives ci-dessous ou téléchargez en PDF. Télécharger la fiche de référence (PDF)

Points clés

  • Manque de mémoire : passez à une quantification plus petite (Q4_K_M → Q3_K_S) ou un modèle plus petit.
  • GPU non détecté sur NVIDIA : Mettez à jour le pilote vers 525+ sous Linux, 452+ sous Windows. Exécutez `nvidia-smi` pour confirmer.
  • Inférence extrêmement lente : Vous exécutez uniquement sur CPU. Activez le déchargement GPU dans Ollama avec la variable d'environnement `OLLAMA_GPU_LAYERS`.
  • Connexion refusée : Ollama n'est pas en cours d'exécution. Démarrez-le avec `ollama serve` ou redémarrez le service.
  • Sortie brouillée : mauvais modèle de saisie. Utilisez la variante Instruct du modèle, pas la variante de base.
10 erreurs LLM locales les plus courantes avec symptômes et correctifs — référence rapide pour les configurations Ollama, LM Studio et vLLM (avril 2026).
10 erreurs LLM locales les plus courantes avec symptômes et correctifs — référence rapide pour les configurations Ollama, LM Studio et vLLM (avril 2026).

Erreur 1 : « Manque de mémoire » / Plantage Out-of-Memory

Les erreurs manque de mémoire signifient que le modèle nécessite plus de RAM que disponible — ce n'est pas une panne matérielle. C'est l'erreur la plus courante pour les utilisateurs novices. Voir Quantification LLM expliquée pour les détails sur la façon dont la quantification réduit les exigences RAM.

  • Vérifier la mémoire disponible : Exécuter `free -h` sur macOS/Linux, ou ouvrir le Gestionnaire des tâches → Performance → Mémoire sur Windows.
  • Passer à une quantification plus petite : Remplacer `Q8_0` ou `Q5_K_M` par `Q4_K_M`. Pour Ollama: `ollama run llama3.2-instruct-q4_K_M`.
  • Fermer les applications en arrière-plan avant de charger le modèle — les navigateurs et autres applications consomment de la RAM que le modèle n'aura pas.
  • Passer à un modèle plus petit : si 8B échoue sur 8 Go de RAM, essayez `llama3.2:3b` (ne nécessite que ~2,5 Go).
Exigences RAM LLM local par taille de modèle : llama3.2 1B–3B tient dans 8 Go, modèles 7B–8B ont besoin de 16 Go, modèles 70B ont besoin de 64 Go à quantification Q4_K_M.
Exigences RAM LLM local par taille de modèle : llama3.2 1B–3B tient dans 8 Go, modèles 7B–8B ont besoin de 16 Go, modèles 70B ont besoin de 64 Go à quantification Q4_K_M.

Vérifier la mémoire disponible sur Linux / macOS

bash
# Linux
free -h

# macOS
vm_stat | grep "Pages free"

# Plus lisible sur macOS
top -l 1 | grep "PhysMem"

Erreur 2 : GPU non utilisé (exécution CPU uniquement)

GPU non utilisé signifie que le LLM s'exécute 5–10× plus lentement que prévu — vérifier l'installation du pilote avant tout. Vérifier que votre GPU est visible pour le système :

bash
# NVIDIA — doit afficher le nom GPU et la version du pilote
nvidia-smi

# AMD sous Linux
rocm-smi

# macOS — vérifier si Metal est disponible
system_profiler SPDisplaysDataType | grep "Metal"
Processeur seul vs GPU actif : Ollama sur CPU donne 2–8 tok/s ; mode GPU donne 30–120 tok/s. Vérifier avec ollama ps ou nvidia-smi.
Processeur seul vs GPU actif : Ollama sur CPU donne 2–8 tok/s ; mode GPU donne 30–120 tok/s. Vérifier avec ollama ps ou nvidia-smi.

Comment activez-vous le GPU dans Ollama ?

  • NVIDIA sur Linux : Installer le pilote NVIDIA 525+ et CUDA Toolkit 11.3+. Ollama détecte automatiquement CUDA au redémarrage.
  • NVIDIA sur Windows : Assurez-vous que la version du pilote est 452.39 ou plus. Ollama installe automatiquement le support CUDA via l'installateur Windows.
  • AMD sur Linux : Installer ROCm 5.7+. Si la détection échoue, définir `HSA_OVERRIDE_GFX_VERSION=11.0.0` pour les cartes RX 6000.
  • Apple Silicon : Ollama utilise Metal par défaut — aucune configuration requise. Confirmer avec `ollama ps` après avoir chargé un modèle ; les couches GPU apparaissent dans la sortie.

Erreur 3 : L'inférence est extrêmement lente (moins de 5 Token/Seconde)

Moins de 5 tokens/seconde signifie que le modèle s'exécute uniquement sur CPU ou que le modèle est trop grand pour la VRAM disponible. Un modèle 7B sur GPU génère 30–80 tok/s ; le même modèle sur CPU génère 3–10 tok/s.

  • Confirmer si le GPU est actif : Exécuter `ollama ps` tandis qu'un modèle est chargé. La sortie montre combien de couches sont sur GPU vs CPU.
  • Réduire la taille du modèle : un modèle 13B sur CPU génère 3–6 tok/s. Passer à 7B double la vitesse ; passer à 3B la quadruple.
  • Augmenter les couches GPU dans Ollama : Définir `OLLAMA_GPU_LAYERS=999` pour pousser toutes les couches sur GPU (Ollama capped à ce qui rentre dans VRAM).
  • Utiliser une quantification plus rapide : Q4_K_M est la quantification la plus rapide qui maintient une qualité acceptable. Q8_0 est meilleure qualité mais ~30% plus lent.

Définir les couches GPU dans Ollama

bash
# Définir la variable d'environnement avant de démarrer Ollama
export OLLAMA_GPU_LAYERS=999
ollama serve

# Ou dans un Modelfile
FROM llama3.1:8b
PARAMETER num_gpu 999

Erreur 4 : « Connexion refusée » lors de l'appel de l'API

Connexion refusée signifie qu'Ollama n'est pas en cours d'exécution — l'API à `localhost:11434` répond uniquement quand le service est actif. Démarrez-le avant d'effectuer des appels API.

bash
# Démarrer Ollama manuellement
ollama serve

# Sur Linux — redémarrer le service systemd
systemctl restart ollama

# Vérifier qu'il s'exécute
curl http://localhost:11434
# Attendu : "Ollama is running"

Erreur 5 : Erreur « Modèle non trouvé »

« Modèle non trouvé » signifie que le nom du modèle dans votre commande ne correspond à aucun modèle téléchargé. Les noms de modèles dans Ollama sont sensibles à la casse et incluent les balises de version.

bash
# Lister tous les modèles téléchargés
ollama list

# Télécharger un modèle s'il manque
ollama pull llama3.2

# Vérifier le nom de modèle exact — les balises importent
# "llama3.2" et "llama3.2:3b" sont des entrées différentes

Erreur 6 : Fichier de modèle corrompu

Les fichiers de modèle corrompus sont causés par des téléchargements interrompus — supprimer et retélécharger pour corriger. Ollama ne détecte pas toujours automatiquement les téléchargements partiels.

bash
# Supprimer le modèle corrompu
ollama rm llama3.2

# Le retélécharger
ollama pull llama3.2

# Pour LM Studio : supprimer manuellement les fichiers de modèle
# Localisation par défaut : ~/.cache/lm-studio/models/

Erreur 6b : « Failed to Resolve Model » dans LM Studio

« Failed to resolve model lmstudio-community/... » signifie que LM Studio ne peut pas trouver le modèle dans son registre. Cela se produit généralement lorsqu'un modèle est téléchargé depuis `lmstudio-community` sur Hugging Face mais que la référence de registre a changé. LM Studio utilise une entrée de registre mise en cache qui ne correspond plus aux fichiers de modèle disponibles.

  • Ouvrir LM Studio → My Models → cliquer sur le menu trois points sur le modèle défaillant → sélectionner « Delete model » (conserve le fichier, supprime le registre)
  • Rechercher le même modèle dans le navigateur de modèles et le retélécharger — LM Studio le réenregistrera
  • Alternative : quitter LM Studio, naviguer vers `~/.cache/lm-studio/models/`, supprimer le dossier du modèle spécifique, puis retélécharger
bash
# Effacer manuellement le cache du modèle LM Studio (macOS/Linux)
rm -rf ~/.cache/lm-studio/models/lmstudio-community/<model-name>

Erreur 7 : Erreurs d'initialisation CUDA / ROCm

Les erreurs CUDA et ROCm signifient une incompatibilité de version de pilote/bibliothèque — mettre à jour votre pilote vers la version minimale requise.

  • « CUDA driver version insufficient » : Mettre à jour le pilote NVIDIA. Le minimum pour llama.cpp est CUDA 11.3 / driver 450.80.
  • « No kernel image available for execution » : L'architecture de votre GPU n'est pas prise en charge. Les cartes GTX 900-series (Maxwell) et plus anciennes ne sont pas prises en charge par les versions récentes de CUDA.
  • AMD ROCm « HSA_STATUS_ERROR_INVALID_ISA » : Définir `HSA_OVERRIDE_GFX_VERSION=10.3.0` (pour RX 6000) ou `11.0.0` (pour RX 7000) avant de démarrer Ollama.
  • Vérifier la version CUDA : Exécuter `nvcc --version` ou `nvidia-smi | grep CUDA`.

Erreur 8 : Sortie brouillée, répétitive ou dénuée de sens

La sortie brouillée signifie presque toujours que vous utilisez un modèle de base au lieu d'une variante instruct/chat. Les modèles de base génèrent des complétions de texte brut, pas des réponses aux questions.

Les modèles de base (par exemple, `llama3.1:8b`) ne sont pas optimisés pour la conversation, et lorsqu'on les invite avec une question, ils génèrent des complétions brutes qui ressemblent à du charabia. Utilisez toujours la variante instruct : `llama3.1:8b-instruct`. Voir Comment installer LM Studio pour une méthode basée sur GUI pour basculer les variantes de modèle.

Dans Ollama, la balise par défaut pour la plupart des modèles pointe déjà vers la variante instruct. Si vous avez téléchargé manuellement depuis Hugging Face, confirmez que le nom de fichier inclut « Instruct » ou « chat ».

Erreur 9 : « Address Already in Use » -- Conflit de port

« Address already in use » signifie qu'un autre processus occupe le port 11434 (Ollama) ou 1234 (LM Studio). Trouvez et tuez le processus conflictuel.

bash
# Trouvez ce qui utilise le port 11434 (Ollama)
lsof -i :11434

# Tuez-le par PID
kill -9 <PID>

# Ou changez le port Ollama
export OLLAMA_HOST=0.0.0.0:11435
ollama serve

Erreur 10 : Le modèle s'arrête au milieu de la réponse

S'arrêter au milieu de la réponse est causé par le dépassement des limites de longueur de contexte ou `num_predict` trop bas. Le `num_predict` par défaut dans de nombreuses configurations est de 128 jetons — juste assez pour 1–2 phrases.

  • Augmenter num_predict : Ce paramètre définit les jetons maximum à générer. La valeur par défaut est souvent 128. Augmentez-la : Dans Ollama, ajoutez `PARAMETER num_predict 2048` au Modelfile.
  • Vérifier la fenêtre de contexte : Si votre conversation est très longue, le modèle peut atteindre sa limite de contexte. Commencez une nouvelle session ou utilisez un modèle avec une fenêtre de contexte plus grande (Llama 3.2 3B supporte 128K).
  • Vérifier les jetons d'arrêt : Certains Modelfiles incluent des séquences d'arrêt qui terminent la génération plus tôt. Vérifiez le invite système et le modèle pour des modèles d'arrêt inattendus.

Lectures connexes

Où trouver plus d'aide

Pour les problèmes spécifiques au matériel sur les ordinateurs portables (étranglement thermique, drainage de la batterie), voir Comment exécuter des LLMs locaux sur un portable. Pour les questions de configuration de sécurité et de confidentialité, voir Liste de contrôle sécurité et confidentialité LLM local. La page des problèmes GitHub d'Ollama (github.com/ollama/ollama/issues) et le subreddit r/LocalLLaMA sont les ressources communautaires les plus actives pour les bugs spécifiques aux modèles.

Erreurs courantes dans le dépannage LLM local

  • Confondre les erreurs OOM avec une panne matérielle -- l'erreur signifie que la RAM est trop petite pour le modèle, pas que le matériel est cassé. Correctif : utilisez la quantification Q4_K_M ou un modèle plus petit.
  • Ne pas vérifier la charge du système -- la vitesse d'inférence se dégrade considérablement lorsque d'autres applications consomment CPU/GPU. Fermez votre navigateur, lecteur vidéo et processus en arrière-plan avant de faire un benchmarking.
  • Ignorer l'incompatibilité de la version du pilote -- NVIDIA CUDA nécessite des versions de pilote spécifiques par version CUDA. Vérifiez la sortie `nvidia-smi` ; la version du pilote doit être ≥450.80 pour CUDA 11.x.
  • Utiliser un mauvais nom de modèle dans Ollama -- `llama3.2` et `llama3.2:3b` sont différentes balises Ollama. Exécutez `ollama list` pour voir les noms exacts des modèles téléchargés.
  • Ne pas redémarrer Ollama après une mise à jour du pilote -- Ollama détecte le GPU au démarrage. Après la mise à jour des pilotes NVIDIA ou ROCm, redémarrez complètement Ollama (`ollama serve`) pour re-détecter le GPU.
Processus de débogage LLM local en 5 étapes : vérifier RAM → vérifier GPU → vérifier serveur → vérifier modèle → vérifier qualité de sortie. Arrêtez à la première étape défaillante.
Processus de débogage LLM local en 5 étapes : vérifier RAM → vérifier GPU → vérifier serveur → vérifier modèle → vérifier qualité de sortie. Arrêtez à la première étape défaillante.

Sources

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Corriger les erreurs LLM local : OOM, GPU, port 2026