Points clés
- Téléchargez LM Studio depuis lmstudio.ai -- disponible pour macOS (Apple Silicon + Intel), Windows et Linux (AppImage).
- Minimum : 8 GB de RAM. Recommandé : 16 GB de RAM pour les modèles 7B. Les Mac Apple Silicon utilisent l'accélération GPU par défaut.
- Le navigateur de modèles intégré recherche Hugging Face directement -- téléchargez des modèles GGUF sans quitter l'application.
- LM Studio inclut une interface de chat intégrée et un serveur compatible OpenAI sur le port 1234.
- Idéal pour : les débutants qui préfèrent une interface graphique, ceux qui veulent comparer plusieurs modèles côte à côte, et tous ceux qui veulent un package complet sans commandes terminal.
Qu'est-ce que LM Studio ?
LM Studio est une application desktop pour exécuter des LLM locaux. Elle fournit un navigateur de modèles graphique, une interface de chat intégrée et un serveur API local -- tout dans une seule application. Sous le capot, elle utilise llama.cpp pour l'inférence, le même moteur qui alimente Ollama.
La différence clé par rapport à Ollama est que LM Studio est entièrement piloté par l'interface graphique. Vous parcourez et téléchargez des modèles via l'interface de l'application, lancez des discussions en un clic et gérez les paramètres du modèle avec des curseurs plutôt que des fichiers de configuration.
LM Studio est gratuit pour un usage personnel. Elle a été développée par LM Studio, Inc. et lancée en 2023. En 2026, elle supporte l'accélération NVIDIA CUDA, AMD ROCm et Apple Metal.
Quelles sont les exigences système pour LM Studio ?
| Spécification | Minimum | Recommandé |
|---|---|---|
| Système d'exploitation | macOS 13.6, Windows 10, Ubuntu 22.04 | macOS 14+, Windows 11, Ubuntu 24.04 |
| RAM | 8 GB | 16 GB ou plus |
| Stockage | 500 MB pour l'app + espace modèle | 50 GB+ libres pour plusieurs modèles |
| GPU (optionnel) | NVIDIA GTX série 10 ou plus récent | NVIDIA RTX 30/40, AMD RX 6000+ ou Apple M-série |
Comment télécharger et installer LM Studio ?
- 1Allez sur lmstudio.ai et cliquez sur le bouton télécharger pour votre système d'exploitation.
- 2macOS : Ouvrez le fichier .dmg et glissez LM Studio vers Applications. Au premier lancement, approuvez l'invite de sécurité dans Préférences Système → Confidentialité & Sécurité.
- 3Windows : Exécutez l'installeur LM-Studio-Setup.exe. LM Studio s'installe dans %LOCALAPPDATA%\LM-Studio.
- 4Linux : Téléchargez le fichier .AppImage. Rendez-le exécutable avec `chmod +x LM-Studio-*.AppImage` et lancez-le. Aucune installation système requise.
- 5Au premier lancement, LM Studio affiche un écran d'accueil et vous invite à télécharger un modèle.
Comment trouver et télécharger un modèle dans LM Studio ?
Utilisez l'onglet Recherche (icône loupe dans la barre latérale gauche) pour trouver des modèles :
- 1Cliquez sur l'onglet Recherche dans la barre latérale gauche.
- 2Tapez un nom de modèle -- par exemple « llama 3.1 » ou « phi-3 mini ».
- 3LM Studio affiche les modèles GGUF correspondants de Hugging Face avec les tailles de fichier et les options de quantification.
- 4Sélectionnez un niveau de quantification. Pour 8 GB de RAM : choisissez Q4_K_M (~4,5 GB pour un modèle 7B). Pour 16 GB de RAM : Q5_K_M ou Q6_K offrent une meilleure qualité.
- 5Cliquez sur la flèche de téléchargement. La progression s'affiche dans l'onglet Téléchargements.
Comment commencer à discuter avec un modèle dans LM Studio ?
- 1Cliquez sur l'onglet Chat (icône bulle de dialogue) dans la barre latérale gauche.
- 2En haut de la fenêtre de chat, cliquez sur la liste déroulante du sélecteur de modèle et choisissez votre modèle téléchargé.
- 3LM Studio charge le modèle en mémoire -- cela prend 5-30 secondes selon la taille du modèle et le matériel.
- 4Tapez votre message dans le champ de saisie en bas et appuyez sur Entrée ou cliquez sur Envoyer.
- 5La réponse du modèle s'affiche token par token. La vitesse de génération apparaît dans la barre d'état en bas de la fenêtre.
Comment ajuster les paramètres du modèle dans LM Studio ?
Le panneau de droite dans l'onglet Chat expose les paramètres d'inférence clés :
- Température (par défaut 0,8) : contrôle l'aléatoire de la réponse. Les valeurs plus basses (0,1-0,4) produisent une sortie plus concentrée et prévisible. Les valeurs plus élevées (0,8-1,2) produisent une sortie plus variée et créative.
- Longueur du contexte (par défaut 4096 tokens) : l'historique de conversation maximal que le modèle peut traiter. Un contexte plus long utilise plus de RAM. La plupart des modèles 7B supportent 4096-8192 tokens.
- Couches GPU (macOS/Linux/Windows avec GPU) : combien de couches du modèle décharger sur le GPU. Réglez au maximum pour l'inférence la plus rapide si votre GPU a assez de VRAM.
- Invite système : une instruction persistante ajoutée au début de chaque conversation. Utilisez-la pour définir le rôle ou le comportement du modèle.
Comment activer le serveur local de LM Studio ?
LM Studio inclut un serveur local qui imite l'API OpenAI. Toute application fonctionnant avec OpenAI peut utiliser votre modèle local via ce serveur :
- 1Cliquez sur l'onglet Serveur Local (l'icône « <-> ») dans la barre latérale gauche.
- 2Sélectionnez un modèle dans la liste déroulante du modèle en haut.
- 3Cliquez sur « Démarrer le serveur ». Le serveur démarre sur http://localhost:1234.
- 4Votre application doit définir `base_url = "http://localhost:1234/v1"` et n'importe quelle chaîne comme clé API (le serveur accepte n'importe quelle valeur).
Comment se connecter à LM Studio via Python ?
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:1234/v1",
api_key="not-needed"
)
response = client.chat.completions.create(
model="local-model",
messages=[{"role": "user", "content": "What is a local LLM?"}]
)
print(response.choices[0].message.content)Lequel choisir : LM Studio ou Ollama ?
| Facteur | LM Studio | Ollama |
|---|---|---|
| Interface | Application desktop graphique | Terminal + API |
| Source de modèles | Hugging Face (tout modèle GGUF) | Bibliothèque Ollama (sélectionné, ~200 modèles) |
| Port API | localhost:1234 | localhost:11434 |
| Gestion des modèles | Navigateur GUI avec info taille fichier | Commandes CLI (ollama pull, list, rm) |
| Automatisation | Limitée (orientée GUI) | Forte (scripting, Docker, CI) |
| Idéal pour | Débutants, utilisateurs GUI, exploration de modèles | Développeurs, automatisation, déploiements serveur |
Comment dépanner les problèmes courants de LM Studio ?
LM Studio affiche « Not enough memory to load model »
Le modèle nécessite plus de RAM que disponible. Fermez autres applications pour libérer de la mémoire, ou sélectionnez une quantification plus petite (Q3_K_S au lieu de Q4_K_M). Règle générale : multipliez la taille du fichier par 1,2 pour estimer la RAM requise. Un fichier de 4,5 GB nécessite ~5,4 GB de RAM libres.
Le modèle génère très lentement (moins de 5 tokens/seconde)
Le modèle s'exécute entièrement sur le CPU. Vérifiez Couches GPU dans le panneau droit -- si cela affiche 0, votre GPU n'est pas utilisé. Sur macOS, LM Studio active Metal (GPU) automatiquement pour Apple Silicon. Sur Windows/Linux avec NVIDIA, assurez-vous que votre pilote est à jour et augmentez Couches GPU au maximum.
Je ne peux pas trouver un modèle spécifique dans la recherche LM Studio
LM Studio recherche Hugging Face pour les fichiers GGUF. Si un modèle n'apparaît pas, essayez de rechercher directement par le nom du référentiel Hugging Face (par exemple « bartowski/Llama-3.1-8B-Instruct-GGUF »). Certains modèles plus récents peuvent ne pas être indexés.
Le serveur local retourne des erreurs « model not found »
Un modèle doit être chargé dans l'onglet Serveur Local avant que le serveur puisse répondre. Ouvrez l'onglet Serveur Local, sélectionnez un modèle dans la liste déroulante et cliquez sur Démarrer le serveur. Le nom du modèle dans les requêtes API peut être n'importe quelle chaîne -- LM Studio utilise le modèle actuellement chargé.
LM Studio pour les cas d'usage sensibles à la confidentialité
UE / RGPD : La CNIL recommande le déploiement d'IA locale pour les professionnels français traitant des données personnelles. LM Studio exécutant des modèles locaux est la configuration la plus préservant la confidentialité disponible pour les utilisateurs desktop. Aucun texte de prompt, contexte ou sortie n'est transmis en dehors de l'appareil -- les mécanismes de transfert RGPD Article 46 ne s'appliquent pas. Pour les professionnels de l'UE gérant des données personnelles (documents juridiques, notes médicales, analyse financière), LM Studio sur un MacBook M-series ou une station de travail Windows avec GPU discret fournit un environnement d'inférence locale entièrement conforme. Les directives BSI allemandes recommandent l'inférence locale pour les systèmes d'IA traitant des données personnelles sensibles. L'interface graphique de LM Studio rend cette configuration accessible aux professionnels non techniques qui ne peuvent pas utiliser les outils de terminal comme Ollama.
Japon (METI) : Les directives de gouvernance de l'IA du METI exigent de documenter où se produit l'inférence d'IA. LM Studio maintient un cache de modèles locaux à un chemin fixe sur le disque -- toute l'inférence est traçable au périphérique, au fichier de modèle et à la version. Les équipes d'entreprise japonaises utilisent LM Studio comme outil d'analyse de documents à zéro sortie pour les travaux de conformité et réglementaires sensibles.
Chine : LM Studio supporte les modèles Qwen2.5 en natif via la recherche Hugging Face -- recherchez « qwen2.5 » dans le navigateur de modèles pour trouver toutes les tailles disponibles. Pour les flux de travail en langue chinoise, Qwen2.5 7B ou 14B offrent une efficacité de token de 30-40% meilleure sur le texte chinois que les modèles entraînés occidentaux du même nombre de paramètres. Toute l'inférence s'exécute localement en vertu de la Loi sur la sécurité des données chinoises (数据安全法) sans aucun appel API externe.
Quelles sont les erreurs courantes lors de l'installation de LM Studio ?
- Ne pas allouer suffisamment de RAM système pour le modèle que vous avez sélectionné. Vérifiez la taille du fichier modèle et multipliez par 1,2 -- c'est la RAM libre minimale requise. Un modèle 7B Q4_K_M de 4,5 GB nécessite ~5,4 GB de RAM libres.
- Utiliser un modèle pré-quantifié qui est encore trop volumineux pour la VRAM GPU. Si un modèle dépasse la VRAM, LM Studio bascule vers l'inférence CPU, 5-10× plus lente. Vérifiez la taille du fichier par rapport à la VRAM GPU avant le téléchargement.
- S'attendre à des réponses instantanées de grands modèles sur des systèmes CPU uniquement. Un modèle 7B sur CPU produit 8-20 tokens/sec -- une réponse de 200 tokens prend 10-25 secondes. C'est normal. Utilisez un modèle 3B pour des réponses plus rapides sur les machines CPU uniquement.
- Définir Couches GPU à 0 sur une machine NVIDIA : LM Studio doit auto-détecter CUDA mais définit parfois par défaut 0 couches GPU après une installation fraîche. Ouvrez le panneau modèle → Couches GPU → glissez au maximum. Sur une RTX 4070 (12 GB VRAM), les couches max sur un modèle 7B passent de 8 tok/sec (CPU) à 80+ tok/sec (GPU) -- une différence de 10×.
- Télécharger des modèles FP16 quand Q4_K_M est disponible : Les modèles FP16 sont deux fois plus volumineux que Q4_K_M sans gain de qualité appréciable pour les tâches de chat. Un modèle 7B en FP16 est ~14 GB ; le même modèle à Q4_K_M est ~4,5 GB. Téléchargez toujours Q4_K_M par défaut sauf si vous avez une raison spécifique d'utiliser une précision supérieure.
Lectures complémentaires
- Qu'est-ce que les LLM locaux ? -- Concepts et composants clés
- Exécuter votre premier LLM local -- Prochaines étapes après l'installation
- Comment installer Ollama -- Alternative basée sur terminal à LM Studio
- Meilleurs modèles LLM locaux pour débutants -- Recommandations de modèles par matériel
- Guide de matériel LLM local 2026 -- Recommandations GPU et RAM pour obtenir les meilleures performances de LM Studio
- LLM locaux vs APIs cloud -- Comparaison de coûts et de vitesse pour décider quand l'inférence locale dans LM Studio est le bon choix
- Meilleurs LLMs pour le code 2026 — Comparatif Qwen2.5-Coder vs DeepSeek
FAQ
LM Studio affiche « Not enough memory to load model »
Le modèle nécessite plus de RAM que disponible. Fermez autres applications pour libérer de la mémoire, ou sélectionnez une quantification plus petite (Q3_K_S au lieu de Q4_K_M). Règle générale : multipliez la taille du fichier par 1,2 pour estimer la RAM requise. Un fichier de 4,5 GB nécessite ~5,4 GB de RAM libres.
Le modèle génère très lentement (moins de 5 tokens/seconde)
Le modèle s'exécute entièrement sur le CPU. Vérifiez Couches GPU dans le panneau droit -- si cela affiche 0, votre GPU n'est pas utilisé. Sur macOS, LM Studio active Metal (GPU) automatiquement pour Apple Silicon. Sur Windows/Linux avec NVIDIA, assurez-vous que votre pilote est à jour et augmentez Couches GPU au maximum.
Je ne peux pas trouver un modèle spécifique dans la recherche LM Studio
LM Studio recherche Hugging Face pour les fichiers GGUF. Si un modèle n'apparaît pas, essayez de rechercher directement par le nom du référentiel Hugging Face (par exemple « bartowski/Llama-3.1-8B-Instruct-GGUF »). Certains modèles plus récents peuvent ne pas être indexés.
Le serveur local retourne des erreurs « model not found »
Un modèle doit être chargé dans l'onglet Serveur Local avant que le serveur puisse répondre. Ouvrez l'onglet Serveur Local, sélectionnez un modèle dans la liste déroulante et cliquez sur Démarrer le serveur. Le nom du modèle dans les requêtes API peut être n'importe quelle chaîne -- LM Studio utilise le modèle actuellement chargé.
LM Studio est-il gratuit ?
Oui. LM Studio est gratuit pour un usage personnel sans limitations de fonctionnalités. Une licence commerciale est requise pour un usage professionnel -- voir lmstudio.ai/pricing pour les conditions actuelles. En avril 2026, le niveau personnel n'a pas de limites d'utilisation, de restrictions de modèles ou de filigranes.
Quelle est la différence entre LM Studio et Ollama ?
LM Studio est une application desktop graphique -- vous parcourez et téléchargez des modèles via une interface visuelle, lancez des discussions en un clic et ajustez les paramètres avec des curseurs. Ollama est un outil en ligne de commande et service d'arrière-plan -- plus rapide à configurer avec une seule commande, meilleur pour l'automatisation et le scripting. Les deux utilisent le même moteur d'inférence llama.cpp. Choisissez LM Studio pour un usage piloté par interface graphique ; choisissez Ollama pour les flux de travail de développeurs et l'automatisation.
Quels modèles fonctionnent avec LM Studio ?
N'importe quel modèle au format GGUF de Hugging Face. La recherche intégrée couvre l'intégralité du hub de modèles Hugging Face. Les choix populaires incluent Llama 3.1 8B, Qwen2.5 7B, Mistral 7B, Phi-4 Mini et Gemma 3 9B. Recherchez par nom de modèle dans l'onglet Discover. LM Studio affiche les tailles de fichier pour chaque niveau de quantification avant le téléchargement.
LM Studio utilise-t-il mon GPU automatiquement ?
Oui sur Apple Silicon -- l'accélération Metal est activée par défaut. Sur Windows et Linux avec GPU NVIDIA, LM Studio détecte CUDA automatiquement si les pilotes sont installés. Vérifiez le paramètre Couches GPU dans le panneau modèle -- s'il affiche 0 couche sur GPU, votre GPU n'est pas utilisé. Augmentez Couches GPU au maximum pour utiliser pleinement la VRAM disponible.
Où LM Studio stocke-t-il les modèles téléchargés ?
Sur macOS : ~/Library/Application Support/LM Studio/Models/lmstudio-community/. Sur Windows : %USERPROFILE%\.cache\lm-studio\models\. Sur Linux : ~/.cache/lm-studio/models/. Vous pouvez modifier l'emplacement du stockage dans LM Studio Paramètres → Général → Répertoire de stockage des modèles.
Puis-je utiliser LM Studio avec VS Code ou Cursor ?
Oui. Lancez le serveur local de LM Studio sur localhost:1234, puis configurez votre extension IDE pour utiliser http://localhost:1234/v1 comme URL de base API avec n'importe quelle chaîne comme clé API. Les extensions VS Code qui supportent les APIs compatibles OpenAI (Continue, alternatives GitHub Copilot) fonctionnent avec LM Studio directement.
Sources
- LM Studio. (2026). « Documentation de LM Studio et notes de publication. » lmstudio.ai. https://lmstudio.ai/docs -- Guides d'installation officiels, documentation API et informations de compatibilité matérielle.
- Hugging Face. (2026). « Hub de modèles GGUF. » https://huggingface.co/models?library=gguf -- Répertoire complet des modèles quantifiés GGUF compatibles avec le navigateur de modèles de LM Studio.
- Contributeurs llama.cpp. (2026). « llama.cpp -- Moteur d'inférence CPU/GPU. » https://github.com/ggerganov/llama.cpp -- Backend d'inférence utilisé par LM Studio, avec données de compatibilité matérielle et de performance.