LM Studio est une application desktop gratuite pour exécuter des LLM locaux sans commandes terminal. Téléchargez l'installeur depuis lmstudio.ai, ouvrez l'application, recherchez un modèle par nom, cliquez sur télécharger et commencez à discuter -- tout le processus prend moins de 5 minutes. En avril 2026, LM Studio fonctionne sur macOS (Apple Silicon et Intel), Windows 10+ et Linux (AppImage), et supporte n'importe quel modèle quantifié GGUF de la bibliothèque de plus de 500 000 modèles de Hugging Face. Il inclut une interface de chat intégrée, un serveur local compatible OpenAI sur localhost:1234, et l'accélération GPU automatique pour Apple Metal, NVIDIA CUDA et AMD ROCm.

Points clés

Téléchargez LM Studio depuis lmstudio.ai -- disponible pour macOS (Apple Silicon + Intel), Windows et Linux (AppImage).
Minimum : 8 GB de RAM. Recommandé : 16 GB de RAM pour les modèles 7B. Les Mac Apple Silicon utilisent l'accélération GPU par défaut.
Le navigateur de modèles intégré recherche Hugging Face directement -- téléchargez des modèles GGUF sans quitter l'application.
LM Studio inclut une interface de chat intégrée et un serveur compatible OpenAI sur le port 1234.
Idéal pour : les débutants qui préfèrent une interface graphique, ceux qui veulent comparer plusieurs modèles côte à côte, et tous ceux qui veulent un package complet sans commandes terminal.

Qu'est-ce que LM Studio ?

LM Studio est une application desktop pour exécuter des LLM locaux. Elle fournit un navigateur de modèles graphique, une interface de chat intégrée et un serveur API local -- tout dans une seule application. Sous le capot, elle utilise llama.cpp pour l'inférence, le même moteur qui alimente Ollama.

La différence clé par rapport à Ollama est que LM Studio est entièrement piloté par l'interface graphique. Vous parcourez et téléchargez des modèles via l'interface de l'application, lancez des discussions en un clic et gérez les paramètres du modèle avec des curseurs plutôt que des fichiers de configuration.

LM Studio est gratuit pour un usage personnel. Elle a été développée par LM Studio, Inc. et lancée en 2023. En 2026, elle supporte l'accélération NVIDIA CUDA, AMD ROCm et Apple Metal.

Quelles sont les exigences système pour LM Studio ?

Spécification	Minimum	Recommandé
Système d'exploitation	macOS 13.6, Windows 10, Ubuntu 22.04	macOS 14+, Windows 11, Ubuntu 24.04
RAM	8 GB	16 GB ou plus
Stockage	500 MB pour l'app + espace modèle	50 GB+ libres pour plusieurs modèles
GPU (optionnel)	NVIDIA GTX série 10 ou plus récent	NVIDIA RTX 30/40, AMD RX 6000+ ou Apple M-série

Comment télécharger et installer LM Studio ?

1
Allez sur lmstudio.ai et cliquez sur le bouton télécharger pour votre système d'exploitation.
2
macOS : Ouvrez le fichier .dmg et glissez LM Studio vers Applications. Au premier lancement, approuvez l'invite de sécurité dans Préférences Système → Confidentialité & Sécurité.
3
Windows : Exécutez l'installeur LM-Studio-Setup.exe. LM Studio s'installe dans %LOCALAPPDATA%\LM-Studio.
4
Linux : Téléchargez le fichier .AppImage. Rendez-le exécutable avec `chmod +x LM-Studio-*.AppImage` et lancez-le. Aucune installation système requise.
5
Au premier lancement, LM Studio affiche un écran d'accueil et vous invite à télécharger un modèle.

Comment trouver et télécharger un modèle dans LM Studio ?

Utilisez l'onglet Recherche (icône loupe dans la barre latérale gauche) pour trouver des modèles :

1
Cliquez sur l'onglet Recherche dans la barre latérale gauche.
2
Tapez un nom de modèle -- par exemple « llama 3.1 » ou « phi-3 mini ».
3
LM Studio affiche les modèles GGUF correspondants de Hugging Face avec les tailles de fichier et les options de quantification.
4
Sélectionnez un niveau de quantification. Pour 8 GB de RAM : choisissez Q4_K_M (~4,5 GB pour un modèle 7B). Pour 16 GB de RAM : Q5_K_M ou Q6_K offrent une meilleure qualité.
5
Cliquez sur la flèche de téléchargement. La progression s'affiche dans l'onglet Téléchargements.

Comment commencer à discuter avec un modèle dans LM Studio ?

1
Cliquez sur l'onglet Chat (icône bulle de dialogue) dans la barre latérale gauche.
2
En haut de la fenêtre de chat, cliquez sur la liste déroulante du sélecteur de modèle et choisissez votre modèle téléchargé.
3
LM Studio charge le modèle en mémoire -- cela prend 5-30 secondes selon la taille du modèle et le matériel.
4
Tapez votre message dans le champ de saisie en bas et appuyez sur Entrée ou cliquez sur Envoyer.
5
La réponse du modèle s'affiche token par token. La vitesse de génération apparaît dans la barre d'état en bas de la fenêtre.

Comment ajuster les paramètres du modèle dans LM Studio ?

Le panneau de droite dans l'onglet Chat expose les paramètres d'inférence clés :

Température (par défaut 0,8) : contrôle l'aléatoire de la réponse. Les valeurs plus basses (0,1-0,4) produisent une sortie plus concentrée et prévisible. Les valeurs plus élevées (0,8-1,2) produisent une sortie plus variée et créative.
Longueur du contexte (par défaut 4096 tokens) : l'historique de conversation maximal que le modèle peut traiter. Un contexte plus long utilise plus de RAM. La plupart des modèles 7B supportent 4096-8192 tokens.
Couches GPU (macOS/Linux/Windows avec GPU) : combien de couches du modèle décharger sur le GPU. Réglez au maximum pour l'inférence la plus rapide si votre GPU a assez de VRAM.
Invite système : une instruction persistante ajoutée au début de chaque conversation. Utilisez-la pour définir le rôle ou le comportement du modèle.

Comment activer le serveur local de LM Studio ?

LM Studio inclut un serveur local qui imite l'API OpenAI. Toute application fonctionnant avec OpenAI peut utiliser votre modèle local via ce serveur :

1
Cliquez sur l'onglet Serveur Local (l'icône « <-> ») dans la barre latérale gauche.
2
Sélectionnez un modèle dans la liste déroulante du modèle en haut.
3
Cliquez sur « Démarrer le serveur ». Le serveur démarre sur http://localhost:1234.
4
Votre application doit définir `base_url = "http://localhost:1234/v1"` et n'importe quelle chaîne comme clé API (le serveur accepte n'importe quelle valeur).

Comment se connecter à LM Studio via Python ?

python

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "What is a local LLM?"}]
)
print(response.choices[0].message.content)

Lequel choisir : LM Studio ou Ollama ?

Facteur	LM Studio	Ollama
Interface	Application desktop graphique	Terminal + API
Source de modèles	Hugging Face (tout modèle GGUF)	Bibliothèque Ollama (sélectionné, ~200 modèles)
Port API	localhost:1234	localhost:11434
Gestion des modèles	Navigateur GUI avec info taille fichier	Commandes CLI (ollama pull, list, rm)
Automatisation	Limitée (orientée GUI)	Forte (scripting, Docker, CI)
Idéal pour	Débutants, utilisateurs GUI, exploration de modèles	Développeurs, automatisation, déploiements serveur

Comment dépanner les problèmes courants de LM Studio ?

LM Studio affiche « Not enough memory to load model »

Le modèle nécessite plus de RAM que disponible. Fermez autres applications pour libérer de la mémoire, ou sélectionnez une quantification plus petite (Q3_K_S au lieu de Q4_K_M). Règle générale : multipliez la taille du fichier par 1,2 pour estimer la RAM requise. Un fichier de 4,5 GB nécessite ~5,4 GB de RAM libres.

Le modèle génère très lentement (moins de 5 tokens/seconde)

Le modèle s'exécute entièrement sur le CPU. Vérifiez Couches GPU dans le panneau droit -- si cela affiche 0, votre GPU n'est pas utilisé. Sur macOS, LM Studio active Metal (GPU) automatiquement pour Apple Silicon. Sur Windows/Linux avec NVIDIA, assurez-vous que votre pilote est à jour et augmentez Couches GPU au maximum.

Je ne peux pas trouver un modèle spécifique dans la recherche LM Studio

LM Studio recherche Hugging Face pour les fichiers GGUF. Si un modèle n'apparaît pas, essayez de rechercher directement par le nom du référentiel Hugging Face (par exemple « bartowski/Llama-3.1-8B-Instruct-GGUF »). Certains modèles plus récents peuvent ne pas être indexés.

Le serveur local retourne des erreurs « model not found »

Un modèle doit être chargé dans l'onglet Serveur Local avant que le serveur puisse répondre. Ouvrez l'onglet Serveur Local, sélectionnez un modèle dans la liste déroulante et cliquez sur Démarrer le serveur. Le nom du modèle dans les requêtes API peut être n'importe quelle chaîne -- LM Studio utilise le modèle actuellement chargé.

LM Studio pour les cas d'usage sensibles à la confidentialité

UE / RGPD : La CNIL recommande le déploiement d'IA locale pour les professionnels français traitant des données personnelles. LM Studio exécutant des modèles locaux est la configuration la plus préservant la confidentialité disponible pour les utilisateurs desktop. Aucun texte de prompt, contexte ou sortie n'est transmis en dehors de l'appareil -- les mécanismes de transfert RGPD Article 46 ne s'appliquent pas. Pour les professionnels de l'UE gérant des données personnelles (documents juridiques, notes médicales, analyse financière), LM Studio sur un MacBook M-series ou une station de travail Windows avec GPU discret fournit un environnement d'inférence locale entièrement conforme. Les directives BSI allemandes recommandent l'inférence locale pour les systèmes d'IA traitant des données personnelles sensibles. L'interface graphique de LM Studio rend cette configuration accessible aux professionnels non techniques qui ne peuvent pas utiliser les outils de terminal comme Ollama.

Japon (METI) : Les directives de gouvernance de l'IA du METI exigent de documenter où se produit l'inférence d'IA. LM Studio maintient un cache de modèles locaux à un chemin fixe sur le disque -- toute l'inférence est traçable au périphérique, au fichier de modèle et à la version. Les équipes d'entreprise japonaises utilisent LM Studio comme outil d'analyse de documents à zéro sortie pour les travaux de conformité et réglementaires sensibles.

Chine : LM Studio supporte les modèles Qwen2.5 en natif via la recherche Hugging Face -- recherchez « qwen2.5 » dans le navigateur de modèles pour trouver toutes les tailles disponibles. Pour les flux de travail en langue chinoise, Qwen2.5 7B ou 14B offrent une efficacité de token de 30-40% meilleure sur le texte chinois que les modèles entraînés occidentaux du même nombre de paramètres. Toute l'inférence s'exécute localement en vertu de la Loi sur la sécurité des données chinoises (数据安全法) sans aucun appel API externe.

Quelles sont les erreurs courantes lors de l'installation de LM Studio ?

Ne pas allouer suffisamment de RAM système pour le modèle que vous avez sélectionné. Vérifiez la taille du fichier modèle et multipliez par 1,2 -- c'est la RAM libre minimale requise. Un modèle 7B Q4_K_M de 4,5 GB nécessite ~5,4 GB de RAM libres.
Utiliser un modèle pré-quantifié qui est encore trop volumineux pour la VRAM GPU. Si un modèle dépasse la VRAM, LM Studio bascule vers l'inférence CPU, 5-10× plus lente. Vérifiez la taille du fichier par rapport à la VRAM GPU avant le téléchargement.
S'attendre à des réponses instantanées de grands modèles sur des systèmes CPU uniquement. Un modèle 7B sur CPU produit 8-20 tokens/sec -- une réponse de 200 tokens prend 10-25 secondes. C'est normal. Utilisez un modèle 3B pour des réponses plus rapides sur les machines CPU uniquement.
Définir Couches GPU à 0 sur une machine NVIDIA : LM Studio doit auto-détecter CUDA mais définit parfois par défaut 0 couches GPU après une installation fraîche. Ouvrez le panneau modèle → Couches GPU → glissez au maximum. Sur une RTX 4070 (12 GB VRAM), les couches max sur un modèle 7B passent de 8 tok/sec (CPU) à 80+ tok/sec (GPU) -- une différence de 10×.
Télécharger des modèles FP16 quand Q4_K_M est disponible : Les modèles FP16 sont deux fois plus volumineux que Q4_K_M sans gain de qualité appréciable pour les tâches de chat. Un modèle 7B en FP16 est ~14 GB ; le même modèle à Q4_K_M est ~4,5 GB. Téléchargez toujours Q4_K_M par défaut sauf si vous avez une raison spécifique d'utiliser une précision supérieure.

Lectures complémentaires

Qu'est-ce que les LLM locaux ? -- Concepts et composants clés
Exécuter votre premier LLM local -- Prochaines étapes après l'installation
Comment installer Ollama -- Alternative basée sur terminal à LM Studio
Meilleurs modèles LLM locaux pour débutants -- Recommandations de modèles par matériel
Guide de matériel LLM local 2026 -- Recommandations GPU et RAM pour obtenir les meilleures performances de LM Studio
LLM locaux vs APIs cloud -- Comparaison de coûts et de vitesse pour décider quand l'inférence locale dans LM Studio est le bon choix
Meilleurs LLMs pour le code 2026 — Comparatif Qwen2.5-Coder vs DeepSeek

FAQ

LM Studio affiche « Not enough memory to load model »

Le modèle génère très lentement (moins de 5 tokens/seconde)

Je ne peux pas trouver un modèle spécifique dans la recherche LM Studio

Le serveur local retourne des erreurs « model not found »

LM Studio est-il gratuit ?

Oui. LM Studio est gratuit pour un usage personnel sans limitations de fonctionnalités. Une licence commerciale est requise pour un usage professionnel -- voir lmstudio.ai/pricing pour les conditions actuelles. En avril 2026, le niveau personnel n'a pas de limites d'utilisation, de restrictions de modèles ou de filigranes.

Quelle est la différence entre LM Studio et Ollama ?

LM Studio est une application desktop graphique -- vous parcourez et téléchargez des modèles via une interface visuelle, lancez des discussions en un clic et ajustez les paramètres avec des curseurs. Ollama est un outil en ligne de commande et service d'arrière-plan -- plus rapide à configurer avec une seule commande, meilleur pour l'automatisation et le scripting. Les deux utilisent le même moteur d'inférence llama.cpp. Choisissez LM Studio pour un usage piloté par interface graphique ; choisissez Ollama pour les flux de travail de développeurs et l'automatisation.

Quels modèles fonctionnent avec LM Studio ?

N'importe quel modèle au format GGUF de Hugging Face. La recherche intégrée couvre l'intégralité du hub de modèles Hugging Face. Les choix populaires incluent Llama 3.1 8B, Qwen2.5 7B, Mistral 7B, Phi-4 Mini et Gemma 3 9B. Recherchez par nom de modèle dans l'onglet Discover. LM Studio affiche les tailles de fichier pour chaque niveau de quantification avant le téléchargement.

LM Studio utilise-t-il mon GPU automatiquement ?

Oui sur Apple Silicon -- l'accélération Metal est activée par défaut. Sur Windows et Linux avec GPU NVIDIA, LM Studio détecte CUDA automatiquement si les pilotes sont installés. Vérifiez le paramètre Couches GPU dans le panneau modèle -- s'il affiche 0 couche sur GPU, votre GPU n'est pas utilisé. Augmentez Couches GPU au maximum pour utiliser pleinement la VRAM disponible.

Où LM Studio stocke-t-il les modèles téléchargés ?

Sur macOS : ~/Library/Application Support/LM Studio/Models/lmstudio-community/. Sur Windows : %USERPROFILE%\.cache\lm-studio\models\. Sur Linux : ~/.cache/lm-studio/models/. Vous pouvez modifier l'emplacement du stockage dans LM Studio Paramètres → Général → Répertoire de stockage des modèles.

Puis-je utiliser LM Studio avec VS Code ou Cursor ?

Oui. Lancez le serveur local de LM Studio sur localhost:1234, puis configurez votre extension IDE pour utiliser http://localhost:1234/v1 comme URL de base API avec n'importe quelle chaîne comme clé API. Les extensions VS Code qui supportent les APIs compatibles OpenAI (Continue, alternatives GitHub Copilot) fonctionnent avec LM Studio directement.

Sources

LM Studio. (2026). « Documentation de LM Studio et notes de publication. » lmstudio.ai. https://lmstudio.ai/docs -- Guides d'installation officiels, documentation API et informations de compatibilité matérielle.
Hugging Face. (2026). « Hub de modèles GGUF. » https://huggingface.co/models?library=gguf -- Répertoire complet des modèles quantifiés GGUF compatibles avec le navigateur de modèles de LM Studio.
Contributeurs llama.cpp. (2026). « llama.cpp -- Moteur d'inférence CPU/GPU. » https://github.com/ggerganov/llama.cpp -- Backend d'inférence utilisé par LM Studio, avec données de compatibilité matérielle et de performance.

Installer LM Studio : guide de configuration de l'application desktop pour macOS, Windows et Linux

Qu'est-ce que LM Studio ?

Quelles sont les exigences système pour LM Studio ?

Comment télécharger et installer LM Studio ?

Comment trouver et télécharger un modèle dans LM Studio ?

Comment commencer à discuter avec un modèle dans LM Studio ?

Comment ajuster les paramètres du modèle dans LM Studio ?

Comment activer le serveur local de LM Studio ?

Comment se connecter à LM Studio via Python ?

Lequel choisir : LM Studio ou Ollama ?

Comment dépanner les problèmes courants de LM Studio ?

LM Studio affiche « Not enough memory to load model »

Le modèle génère très lentement (moins de 5 tokens/seconde)

Je ne peux pas trouver un modèle spécifique dans la recherche LM Studio

Le serveur local retourne des erreurs « model not found »

LM Studio pour les cas d'usage sensibles à la confidentialité

Quelles sont les erreurs courantes lors de l'installation de LM Studio ?

Lectures complémentaires

FAQ

LM Studio affiche « Not enough memory to load model »

Le modèle génère très lentement (moins de 5 tokens/seconde)

Je ne peux pas trouver un modèle spécifique dans la recherche LM Studio

Le serveur local retourne des erreurs « model not found »

LM Studio est-il gratuit ?

Quelle est la différence entre LM Studio et Ollama ?

Quels modèles fonctionnent avec LM Studio ?

LM Studio utilise-t-il mon GPU automatiquement ?

Où LM Studio stocke-t-il les modèles téléchargés ?

Puis-je utiliser LM Studio avec VS Code ou Cursor ?

Sources

A Note on Third-Party Facts