PromptQuorumPromptQuorum
Startseite/Lokale LLMs/LM Studio installieren: Desktop-App-Einrichtung für macOS, Windows und Linux
Getting Started

LM Studio installieren: Desktop-App-Einrichtung für macOS, Windows und Linux

·7 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

LM Studio ist eine kostenlose Desktop-Anwendung zum Ausführen lokaler LLMs ohne Terminalbefehle. Laden Sie das Installationsprogramm von lmstudio.ai herunter, öffnen Sie die App, suchen Sie nach einem Modell nach Name, klicken Sie auf „Download", und beginnen Sie zu chatten -- der gesamte Vorgang dauert weniger als 5 Minuten. Ab April 2026 läuft LM Studio auf macOS (Apple Silicon und Intel), Windows 10+ und Linux (AppImage) und unterstützt alle GGUF-quantisierten Modelle aus der Hugging Face-Modellbibliothek mit 500.000+ Modellen. Es enthält eine integrierte Chat-Benutzeroberfläche, einen OpenAI-kompatiblen lokalen Server auf localhost:1234 und automatische GPU-Beschleunigung für Apple Metal, NVIDIA CUDA und AMD ROCm.

Wichtigste Erkenntnisse

  • LM Studio von lmstudio.ai herunterladen -- verfügbar für macOS (Apple Silicon + Intel), Windows und Linux (AppImage).
  • Minimum: 8 GB RAM. Empfohlen: 16 GB RAM für 7B-Modelle. Apple Silicon Macs verwenden standardmäßig GPU-Beschleunigung.
  • Der integrierte Modellbrowser sucht direkt auf Hugging Face -- laden Sie GGUF-Modelle herunter, ohne die App zu verlassen.
  • LM Studio enthält eine integrierte Chat-Benutzeroberfläche und einen lokalen OpenAI-kompatiblen Server auf Port 1234.
  • Am besten für: Anfänger, die eine GUI bevorzugen, Benutzer, die mehrere Modelle nebeneinander vergleichen möchten, und alle, die ein komplettes Paket ohne Terminalbefehle möchten.

Was ist LM Studio?

LM Studio ist eine Desktop-Anwendung zum Ausführen lokaler LLMs. Es bietet einen grafischen Modellbrowser, eine integrierte Chat-Benutzeroberfläche und einen lokalen API-Server -- alles in einer App. Unter der Haube verwendet es llama.cpp für Inferenz, das gleiche Modul, das Ollama antreibt (/local-llms/how-to-install-ollama?lang=de).

Der Hauptunterschied zu Ollama ist, dass LM Studio völlig GUI-gesteuert ist. Sie durchsuchen und laden Modelle über die App-Oberfläche herunter, starten Chats mit einem Klick und verwalten Modelleinstellungen mit Schiebereglern anstelle von Konfigurationsdateien.

LM Studio ist kostenlos für die private Nutzung. Es wird von LM Studio, Inc. entwickelt und wurde 2023 veröffentlicht. Ab 2026 unterstützt es NVIDIA CUDA-, AMD ROCm- und Apple Metal-Beschleunigung.

Welche Systemanforderungen hat LM Studio?

SpezifikationMinimumEmpfohlen
BetriebssystemmacOS 13.6, Windows 10, Ubuntu 22.04macOS 14+, Windows 11, Ubuntu 24.04
RAM8 GB16 GB oder mehr
Speicher500 MB für App + Modellspeicher50 GB+ frei für mehrere Modelle
GPU (optional)NVIDIA GTX 10er oder neuerNVIDIA RTX 40/50er, AMD RX 7000+, oder Apple M-Serie

Wie laden Sie LM Studio herunter und installieren es

  1. 1
    Gehen Sie zu lmstudio.ai und klicken Sie auf die Download-Schaltfläche für Ihr Betriebssystem.
  2. 2
    macOS: Öffnen Sie die .dmg-Datei und ziehen Sie LM Studio in den Ordner „Anwendungen". Beim ersten Start genehmigen Sie die Sicherheitsaufforderung unter Systemeinstellungen → Datenschutz & Sicherheit.
  3. 3
    Windows: Führen Sie das Installationsprogramm LM-Studio-Setup.exe aus. LM Studio wird in %LOCALAPPDATA%LM-Studio installiert.
  4. 4
    Linux: Laden Sie die .AppImage-Datei herunter. Machen Sie sie mit `chmod +x LM-Studio-*.AppImage` ausführbar und starten Sie sie. Keine Systeminstallation erforderlich.
  5. 5
    Beim ersten Start zeigt LM Studio einen Willkommensbildschirm und fordert Sie auf, ein Modell herunterzuladen.

Wie finden und laden Sie ein Modell in LM Studio herunter

Verwenden Sie die Registerkarte „Search" (Lupe-Symbol in der linken Seitenleiste), um Modelle zu finden:

  1. 1
    Klicken Sie auf die Registerkarte „Search" in der linken Seitenleiste.
  2. 2
    Geben Sie einen Modellnamen ein -- z.B. „llama 3.1" oder „phi-3 mini".
  3. 3
    LM Studio zeigt passende GGUF-Modelle von Hugging Face mit Dateigröße und Quantisierungsoptionen.
  4. 4
    Wählen Sie ein Quantisierungsniveau. Für 8 GB RAM: Q4_K_M (~4,5 GB für ein 7B-Modell) wählen. Für 16 GB RAM: Q5_K_M oder Q6_K bieten bessere Qualität.
  5. 5
    Klicken Sie auf den Download-Pfeil. Der Fortschritt wird auf der Registerkarte „Downloads" angezeigt.

Wie beginnen Sie zu chatten mit einem Modell in LM Studio

  1. 1
    Klicken Sie auf die Registerkarte „Chat" (Sprechblase-Symbol) in der linken Seitenleiste.
  2. 2
    Klicken Sie oben im Chat-Fenster auf das Dropdown-Menü für Modellauswahl und wählen Sie Ihr heruntergeladenes Modell.
  3. 3
    LM Studio lädt das Modell in den Speicher -- dies dauert 5-30 Sekunden je nach Modellgröße und Hardware.
  4. 4
    Geben Sie Ihre Nachricht in das Eingabefeld unten ein und drücken Sie die Eingabetaste oder klicken Sie auf „Senden".
  5. 5
    Die Antwort des Modells wird Token für Token übertragen. Die Generierungsgeschwindigkeit wird in der Statusleiste am unteren Fensterrand angezeigt.

Wie passen Sie Modelleinstellungen in LM Studio an

Das rechte Bedienfeld auf der Registerkarte „Chat" zeigt wichtige Inferenzparameter:

  • Temperatur (Standard 0,8): steuert die Zufälligkeit der Antwort. Niedrigere Werte (0,1-0,4) erzeugen konzentriertere, vorhersehbarere Ausgaben. Höhere Werte (0,8-1,2) erzeugen vielfältigere, kreativere Ausgaben.
  • Kontextlänge (Standard 4096 Token): die maximale Gesprächshistorie, die das Modell verarbeiten kann. Ein längerer Kontext benötigt mehr RAM. Die meisten 7B-Modelle unterstützen 4096-8192 Token.
  • GPU-Ebenen (macOS/Linux/Windows mit GPU): wie viele Modellschichten auf die GPU ausgelagert werden. Setzen Sie auf Maximum für schnellste Inferenz, wenn Ihre GPU genügend VRAM hat.
  • Systemprompt: eine persistente Anweisung, die vor jedem Gespräch vorangestellt wird. Verwenden Sie dies, um die Rolle oder das Verhalten des Modells festzulegen.

Wie aktivieren Sie den lokalen Server in LM Studio

LM Studio enthält einen lokalen Server, der die OpenAI-API imitiert. Jede Anwendung, die mit OpenAI funktioniert, kann Ihr lokales Modell über diesen Server nutzen:

  1. 1
    Klicken Sie auf die Registerkarte „Local Server" (das „<->"-Symbol) in der linken Seitenleiste.
  2. 2
    Wählen Sie ein Modell im Modell-Dropdown oben aus.
  3. 3
    Klicken Sie auf „Start Server". Der Server wird auf http://localhost:1234 gestartet.
  4. 4
    Ihre Anwendung sollte `base_url = "http://localhost:1234/v1"` und einen beliebigen String als API-Schlüssel festlegen (der Server akzeptiert jeden Wert).

Wie verbinden Sie sich mit LM Studio über Python?

python
from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:1234/v1",
    api_key="not-needed"
)

response = client.chat.completions.create(
    model="local-model",
    messages=[{"role": "user", "content": "What is a local LLM?"}]
)
print(response.choices[0].message.content)

Was sollten Sie verwenden: LM Studio oder Ollama?

FaktorLM StudioOllama
OberflächeGUI-Desktop-AppTerminal + API
ModellquelleHugging Face (beliebiges GGUF-Modell)Ollama-Bibliothek (kuratiert, ~200 Modelle)
API-Portlocalhost:1234localhost:11434
ModellverwaltungGUI-Browser mit DateigrößeCLI-Befehle (ollama pull, list, rm)
AutomatisierungBegrenzt (GUI-fokussiert)Stark (Scripting, Docker, CI)
Am besten fürAnfänger, GUI-Benutzer, Modell-ErkundungEntwickler, Automatisierung, Server-Bereitstellungen

Wie beheben Sie häufige LM Studio-Probleme?

LM Studio zeigt „Not enough memory to load model" (Nicht genug Speicher zum Laden des Modells)

Das Modell benötigt mehr RAM als verfügbar. Schließen Sie andere Anwendungen, um Speicher freizugeben, oder wählen Sie eine kleinere Quantisierung (Q3_K_S statt Q4_K_M). Faustregel: Multiplizieren Sie die Modell-Dateigröße mit 1,2, um den benötigten RAM zu schätzen. Eine 4,5-GB-Datei benötigt ~5,4 GB freien RAM.

Das Modell generiert sehr langsam (unter 5 Token/Sekunde)

Das Modell läuft komplett auf der CPU. Überprüfen Sie „GPU-Ebenen" im rechten Bedienfeld -- wenn es 0 anzeigt, wird Ihre GPU nicht genutzt. Auf macOS aktiviert LM Studio Metal (GPU) automatisch für Apple Silicon. Auf Windows/Linux mit NVIDIA stellen Sie sicher, dass Ihr Treiber aktuell ist, und erhöhen Sie GPU-Ebenen auf den Maximalwert.

Ich kann ein bestimmtes Modell in der LM Studio-Suche nicht finden

LM Studio durchsucht Hugging Face nach GGUF-Dateien. Wenn ein Modell nicht angezeigt wird, versuchen Sie, direkt nach dem Hugging Face-Repository-Namen zu suchen (z.B. „bartowski/Llama-3.1-8B-Instruct-GGUF"). Manche neuere Modelle sind möglicherweise noch nicht indexiert.

Der lokale Server gibt „model not found"-Fehler zurück

Ein Modell muss auf der Registerkarte „Local Server" geladen werden, bevor der Server antworten kann. Öffnen Sie die Registerkarte „Local Server", wählen Sie ein Modell aus dem Dropdown aus und klicken Sie auf „Start Server". Der Modellname in API-Anfragen kann beliebig sein -- LM Studio verwendet whichever Modell gerade geladen ist.

LM Studio für datenschutzsensible Anwendungsfälle

EU / DSGVO: LM Studio mit lokalen Modellen ist die datenschutzkonformste KI-Konfiguration, die für Desktop-Benutzer verfügbar ist. Keine Eingabetexte, Kontexte oder Ausgaben werden außerhalb des Geräts übertragen -- DSGVO Artikel 46 Transfermechanismen finden keine Anwendung. Für EU-Fachleute, die mit personenbezogenen Daten arbeiten (Rechtsdokumente, medizinische Unterlagen, Finanzanalysen), bietet LM Studio auf einem MacBook M-Serie oder Windows-Arbeitsplatz mit dedizierter GPU eine vollständig konforme lokale Inferenz-Umgebung. Die BSI-Grundschutz-Kataloge empfehlen lokale Inferenz für KI-Systeme, die sensitive personenbezogene Daten verarbeiten. Für den deutschen Mittelstand ohne IT-Personal ist die GUI von LM Studio der einfachste Weg zu DSGVO-konformem KI-Einsatz, ohne Terminal-Befehle erlernen zu müssen. Artikel 28 DSGVO-Auftragsverarbeiter fallen weg, da keine Daten an externe API-Anbieter gehen.

Japan (METI): Die METI AI Governance Guidelines erfordern die Dokumentation, wo KI-Inferenz stattfindet. LM Studio speichert den lokalen Modell-Cache auf einem festen Pfad auf der Festplatte -- alle Inferenzen sind rückverfolgbar auf Gerät, Modelldatei und Version. Japanische Enterprise-Teams verwenden LM Studio als Zero-Egress-Dokumenten-Analysetool für vertrauliche behördliche und Compliance-Arbeiten.

China: LM Studio unterstützt Qwen2.5-Modelle nativ über Hugging Face-Suche -- suchen Sie „qwen2.5" im Modellbrowser, um alle verfügbaren Größen zu finden. Für chinesische Workflows bietet Qwen2.5 7B oder 14B 30-40% bessere Token-Effizienz auf chinesischem Text als westlich trainierte Modelle bei der gleichen Parametergröße. Alle Inferenzen laufen lokal unter Chinas Datensicherheitsgesetz (数据安全法) mit null externen API-Aufrufen.

Welche häufigen Fehler gibt es bei der Installation von LM Studio?

  • Nicht genügend System-RAM für das in den LM Studio-Einstellungen ausgewählte Modell zuweisen. Überprüfen Sie die Modell-Dateigröße und multiplizieren Sie mit 1,2 -- das ist der erforderliche Mindest-RAM. Ein 4,5-GB Q4_K_M 7B-Modell benötigt ~5,4 GB freien RAM.
  • Ein vorquantisiertes Modell verwenden, das immer noch zu groß für Ihren GPU-VRAM ist. Wenn ein Modell den VRAM übersteigt, fällt LM Studio auf CPU-Inferenz zurück, die 5-10× langsamer ist. Überprüfen Sie die Dateigröße vs. Ihren GPU-VRAM, bevor Sie herunterladen.
  • Erwarten Sie sofortige Antworten von großen Modellen auf CPU-only Systemen. Ein 7B-Modell auf CPU erzeugt 8-20 Token/Sekunde -- eine 200-Token-Antwort dauert 10-25 Sekunden. Das ist normal. Verwenden Sie ein 3B-Modell für schnellere Antworten auf CPU-only Maschinen.
  • GPU-Ebenen auf 0 bei einer NVIDIA-Maschine setzen: LM Studio sollte CUDA automatisch erkennen, setzt aber nach einer Neuinstallation manchmal GPU-Ebenen auf 0 zurück. Öffnen Sie das Modellbedienfeld → GPU-Ebenen → auf Maximum ziehen. Auf einer RTX 4070 (12 GB VRAM) bewegt das die Geschwindigkeit von 8 Token/Sekunde (CPU) auf 80+ Token/Sekunde (GPU) -- ein 10x Unterschied.
  • FP16-Modelle herunterladen, wenn Q4_K_M verfügbar ist: FP16-Modelle sind zweimal so groß wie Q4_K_M mit vernachlässigbarem Qualitätsgewinn für Chat-Aufgaben. Ein 7B-Modell in FP16 ist ~14 GB; das gleiche Modell bei Q4_K_M ist ~4,5 GB. Laden Sie immer Q4_K_M als Standard herunter, es sei denn, Sie haben einen spezifischen Grund für höhere Präzision.

Weiterführende Literatur

FAQ

LM Studio zeigt „Not enough memory to load model"

Das Modell benötigt mehr RAM als verfügbar. Schließen Sie andere Anwendungen, um Speicher freizugeben, oder wählen Sie eine kleinere Quantisierung (Q3_K_S statt Q4_K_M). Faustregel: Multiplizieren Sie die Modell-Dateigröße mit 1,2, um den erforderlichen RAM zu schätzen. Eine 4,5-GB-Datei benötigt ~5,4 GB freien RAM.

Das Modell generiert sehr langsam (unter 5 Token/Sekunde)

Das Modell läuft komplett auf der CPU. Überprüfen Sie GPU-Ebenen im rechten Bedienfeld -- wenn es 0 anzeigt, wird Ihre GPU nicht genutzt. Auf macOS aktiviert LM Studio Metal (GPU) automatisch für Apple Silicon. Auf Windows/Linux mit NVIDIA stellen Sie sicher, dass Ihr Treiber aktuell ist, und erhöhen Sie GPU-Ebenen auf den Maximalwert.

Ich kann ein bestimmtes Modell in der LM Studio-Suche nicht finden

LM Studio durchsucht Hugging Face nach GGUF-Dateien. Wenn ein Modell nicht angezeigt wird, versuchen Sie, direkt nach dem Hugging Face-Repository-Namen zu suchen (z.B. „bartowski/Llama-3.1-8B-Instruct-GGUF"). Manche neuere Modelle sind möglicherweise noch nicht indexiert.

Der lokale Server gibt „model not found"-Fehler zurück

Ein Modell muss auf der Registerkarte „Local Server" geladen werden, bevor der Server antworten kann. Öffnen Sie die Registerkarte „Local Server", wählen Sie ein Modell aus dem Dropdown aus und klicken Sie auf „Start Server". Der Modellname in API-Anfragen kann beliebig sein -- LM Studio verwendet das gerade geladene Modell.

Ist LM Studio kostenlos?

Ja. LM Studio ist kostenlos für die private Nutzung ohne Funktionsbegrenzungen. Eine kommerzielle Lizenz ist für geschäftliche Nutzung erforderlich -- siehe lmstudio.ai/pricing für aktuelle Bedingungen. Ab April 2026 hat die kostenlose Version keine Nutzungsgrenzen, Modellbeschränkungen oder Wasserzeichen.

Was ist der Unterschied zwischen LM Studio und Ollama?

LM Studio ist eine grafische Desktop-App -- Sie durchsuchen und laden Modelle über eine visuelle Oberfläche herunter, starten Chats mit einem Klick und passen Einstellungen mit Schiebereglern an. Ollama ist ein Befehlszeilen-Tool und Hintergrunddienst -- schneller einzurichten mit einem einzigen Befehl, besser für Automatisierung und Scripting. Beide verwenden unter der Haube die gleiche llama.cpp Inferenz-Engine. Wählen Sie LM Studio für GUI-gesteuerte Nutzung; wählen Sie Ollama für Entwickler-Workflows und Automatisierung.

Welche Modelle funktionieren mit LM Studio?

Jedes GGUF-Format-Modell von Hugging Face. Die integrierte Suche deckt den vollständigen Hugging Face-Modell-Hub ab. Beliebte Optionen sind Llama 3.1 8B, Qwen2.5 7B, Mistral 7B, Phi-4 Mini und Gemma 3 9B. Suchen Sie nach Modellname auf der Registerkarte „Discover". LM Studio zeigt Dateigröße für jedes Quantisierungsniveau vor dem Download.

Verwendet LM Studio meine GPU automatisch?

Ja auf Apple Silicon -- Metal-Beschleunigung ist standardmäßig aktiviert. Auf Windows und Linux mit NVIDIA-GPUs erkennt LM Studio CUDA automatisch, wenn die Treiber installiert sind. Überprüfen Sie die Einstellung GPU-Ebenen im Modellbedienfeld -- wenn es 0 Ebenen auf GPU anzeigt, wird Ihre GPU nicht genutzt. Erhöhen Sie GPU-Ebenen auf den angezeigten Maximalwert, um verfügbaren VRAM vollständig auszunutzen.

Wo speichert LM Studio heruntergeladene Modelle?

Auf macOS: ~/Library/Application Support/LM Studio/Models/lmstudio-community/. Auf Windows: %USERPROFILE%.cachelm-studiomodels. Auf Linux: ~/.cache/lm-studio/models/. Sie können den Speicherort in LM Studio Einstellungen → Allgemein → Modell-Speicherverzeichnis ändern.

Kann ich LM Studio mit VS Code oder Cursor verwenden?

Ja. Starten Sie den LM Studio-lokalen Server auf localhost:1234, konfigurieren Sie dann Ihre IDE-Erweiterung zur Verwendung von http://localhost:1234/v1 als API-Basis-URL mit beliebiger Zeichenkette als API-Schlüssel. VS Code-Erweiterungen, die OpenAI-kompatible APIs unterstützen (Continue, GitHub Copilot-Alternativen) funktionieren direkt mit LM Studio.

Muss ich bei der Verwendung von LM Studio die DSGVO beachten?

LM Studio verarbeitet alle Daten lokal auf Ihrem Gerät. Es gibt keinen externen API-Anbieter als Auftragsverarbeiter gemäß Artikel 28 DSGVO, da Daten das Gerät nie verlassen. Ollama und LM Studio binden standardmäßig nur an localhost -- keine externe Zugänglichkeit. Dies erfüllt alle DSGVO-Anforderungen für On-Premises-Deployment mit vollständiger Datenkontrolle.

Ist LM Studio für den deutschen Mittelstand geeignet?

Ja -- kostenlos für private Nutzung, keine IT-Kenntnisse für die Installation erforderlich, DSGVO-konform durch lokale Datenverarbeitung, und BSI-Grundschutz-kompatibel für vertrauliche Dokumente. LM Studio ist der einfachste Weg für mittlere Unternehmen ohne IT-Personal zu AI-gestützten Workflows, während gleichzeitig Datenschutz gewährleistet wird. Die GUI erfordert kein Terminal-Wissen.

Quellen

  • LM Studio. (2026). „LM Studio Dokumentation und Release Notes." lmstudio.ai. https://lmstudio.ai/docs -- Offizielle Installationsleitfäden, API-Dokumentation und Hardware-Kompatibilitätsinformationen.
  • Hugging Face. (2026). „GGUF Model Hub." https://huggingface.co/models?library=gguf -- Vollständiges Verzeichnis von GGUF-quantisierten Modellen, die mit LM Studios Modellbrowser kompatibel sind.
  • llama.cpp-Mitwirkende. (2026). „llama.cpp -- CPU/GPU-Inferenz-Engine." https://github.com/ggerganov/llama.cpp -- Das von LM Studio verwendete Inferenz-Backend mit Hardware-Kompatibilität und Leistungsdaten.

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Vergleichen Sie Ihr lokales LLM gleichzeitig mit 25+ Cloud-Modellen in PromptQuorum.

PromptQuorum-Warteliste beitreten →

← Zurück zu Lokale LLMs

LM Studio Setup: Die beste GUI für lokale LLMs