PromptQuorumPromptQuorum
Startseite/Power Local LLM/Das vollständige lokale LLM Software-Verzeichnis: 70+ Tools für KI auf eigener Hardware (2026)
Overview & Reference

Das vollständige lokale LLM Software-Verzeichnis: 70+ Tools für KI auf eigener Hardware (2026)

·20 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Das lokale LLM-Ökosystem 2026 gliedert sich klar in neun Schichten. Laufzeitumgebungen (Ollama, llama.cpp, vLLM) führen Token durch das Modell; Desktop-Apps (LM Studio, Jan, GPT4All) kapseln eine Laufzeit in einer Chat-Oberfläche; Web-UIs (Open WebUI, LibreChat) tun dasselbe im Browser; Coding-Assistenten (Continue.dev, Cline, Aider) binden ein lokales Modell in Ihren Editor ein; RAG-Systeme (AnythingLLM, PrivateGPT) zeigen es auf Ihre eigenen Dokumente; Agenten-Frameworks (LangChain, CrewAI, LangGraph) verketten Aufrufe zu mehrstufigen Workflows; Sprach- und Multimodal-Stacks (Whisper.cpp, Piper, LLaVA) erweitern es über Text hinaus; Mobile-Clients (MLC Chat, PocketPal AI) bringen es aufs Smartphone; und spezialisierte Produktivitäts-Plugins (Obsidian, Logseq, AutoGPT) betten es in bereits genutzte Werkzeuge ein. Wählen Sie zuerst eine Laufzeitumgebung (Ollama für fast alle), und fügen Sie dann eine oder zwei Schichten darüber hinzu. Das Verzeichnis unten listet jedes erwähnenswerte Projekt je Schicht mit seiner Lizenz auf, damit Sie einen Stack planen können, der bei Bedarf von Anfang bis Ende quelloffen ist.**

Das lokale LLM-Ökosystem ist 2026 so groß geworden, dass die falsche Tool-Wahl am Anfang Stunden, nicht Minuten kostet. Dieses Verzeichnis katalogisiert 87 aktiv gepflegte Projekte in neun Schichten — Laufzeitumgebungen, Desktop-Apps, Web-UIs, Coding-Assistenten, RAG-Systeme, Agenten-Frameworks, Sprache und Multimodal, Mobile-Clients und spezialisierte Produktivitäts-Plugins — jeweils mit Beschreibung, Lizenz und primärer URL. Verwenden Sie es als Übersichtskarte des Ist-Zustands, bevor Sie sich für einen Stack entscheiden; jede Kategorie endet mit einem Link zum vertiefenden PromptQuorum-Vergleichsartikel für diese Schicht.

Wichtigste Erkenntnisse

  • Neun Schichten, 87 Projekte, eine Übersichtskarte. Laufzeitumgebungen, Desktop-Apps, Web-UIs, Coding-Assistenten, RAG-Systeme, Agenten-Frameworks, Sprache/Multimodal, Mobile-Clients und spezialisierte Produktivitäts-Plugins — fast jedes bekannte Projekt aus 2026 lässt sich exakt einer dieser Schichten zuordnen.
  • Wählen Sie zuerst eine Laufzeitumgebung. Ollama ist für ~95 % der Leserinnen und Leser die richtige Standardwahl; llama.cpp ist die grundlegende Engine hinter den meisten anderen Tools; vLLM ist die Produktionsalternative für Multi-User-Setups auf echten GPUs.
  • Die meisten Schichten oberhalb der Laufzeitumgebung sind optional. Eine Desktop-App ODER ein Web-UI reicht für den Chat aus. Fügen Sie eine Coding-Integration nur dann hinzu, wenn Sie IDE-Integration benötigen; ein RAG-System nur dann, wenn Sie mit eigenen Dokumenten chatten möchten; ein Agenten-Framework nur dann, wenn One-Shot-Aufrufe nicht mehr ausreichen.
  • Lizenzen sind relevant für den kommerziellen Einsatz. MIT und Apache 2.0 dominieren das Ökosystem. AGPL findet sich bei einigen UIs (text-generation-webui, KoboldCpp, Jan, SillyTavern) — für den Privatgebrauch unproblematisch, bei kommerziellen Deployments sorgfältig prüfen. Die Spalte „Lizenz" unten benennt jede Lizenz explizit.
  • Multi-Tool-Stacks sind die Norm. Ollama + Open WebUI + AnythingLLM + Continue.dev ist ein Single-Machine-Setup, das Chat, RAG und Coding ohne Kompromisse abdeckt. Die Tabelle „Praktische Einsatz-Stacks" unten nennt die Rezepte, die in 2026 tatsächlich funktionieren.

1. Lokale LLM-Laufzeitumgebungen & Inferenz-Engines

Eine Laufzeitumgebung ist die Engine, die Modellgewichte in den Speicher lädt und Eingaben in Token umwandelt. Sie ist die erste Entscheidung in einem lokalen LLM-Stack und schränkt alles darüber ein — jede Desktop-App, jedes Web-UI und jede Coding-Integration ruft letztlich eine Laufzeitumgebung auf. Ollama dominiert 2026 den nutzerseitigen Marktanteil, weil es eine OpenAI-kompatible API und eine Ein-Befehl-Installation mitbringt; llama.cpp ist die C++-Engine unter den meisten anderen Tools; vLLM ist die richtige Wahl, wenn Sie gleichzeitige Anfragen mehrerer Nutzer auf einer echten GPU bedienen müssen.

ToolLinkBeschreibungLizenz
Ollamaollama.comEinfachster Einstieg — Ein-Befehl-Installation, OpenAI-kompatible API, umfangreiche ModellbibliothekMIT
llama.cppgithub.com/ggml-org/llama.cppGrundlegende C++-Engine hinter den meisten anderen Tools, läuft überall einschließlich Apple SiliconMIT
vLLMgithub.com/vllm-project/vllmHochdurchsatz-Serving für Multi-User-GPU-DeploymentsApache 2.0
LocalAIlocalai.ioDrop-in-Ersatz für die OpenAI API, unterstützt mehrere BackendsMIT
TensorRT-LLMgithub.com/NVIDIA/TensorRT-LLMNVIDIA-optimierte Inferenz für Enterprise-GPU-SetupsApache 2.0
MLC LLMmlc.ai/mlc-llmLaufzeitumgebung für Mobile- und Edge-GeräteApache 2.0
SGLanggithub.com/sgl-project/sglangStrukturiertes Inferenz-Serving für Agenten-PipelinesApache 2.0
ExLlamaV2github.com/turboderp-org/exllamav2Schnelle quantisierte Inferenz, optimiert für RTX-GPUsMIT
KoboldCppgithub.com/LostRuins/koboldcppSchlanker llama.cpp-Wrapper mit integrierter BenutzeroberflächeAGPL 3.0
Llamafilegithub.com/Mozilla-Ocho/llamafilePortable Ein-Datei-LLM-Ausführung von MozillaApache 2.0
MLX-LMgithub.com/ml-explore/mlx-examplesApple-Silicon-native Laufzeitumgebung von Apple ResearchMIT

Vertiefender Vergleich: llama.cpp vs Ollama vs vLLM

2. Desktop-GUI-Anwendungen

Desktop-Apps kapseln eine Laufzeitumgebung in einer Chat-Oberfläche und einem Modell-Browser. Hier steigen die meisten nicht-technischen Anwenderinnen und Anwender ein, weil kein Terminal-Schritt nötig ist — herunterladen, klicken, chatten. LM Studio, Jan und GPT4All halten 2026 den Großteil der Nutzerbasis; AnythingLLM fungiert gleichzeitig als Desktop-App und RAG-Schicht; Open Interpreter ist der Sonderfall, der einem lokalen Modell erlaubt, Ihren Computer zu steuern.

ToolLinkBeschreibungLizenz
LM Studiolmstudio.aiAusgereifteste GUI, integrierter HuggingFace-Modell-Browser, Server-ModusKostenlos (proprietär)
Janjan.aiDatenschutzorientierter Offline-ChatGPT-Klon, vollständig quelloffenAGPL 3.0
GPT4Allnomic.ai/gpt4allEinsteigerfreundlich mit starker CPU-only-UnterstützungMIT
AnythingLLManythingllm.comRAG und Dokumenten-Chat mit integriertem VektorspeicherMIT
Mstymsty.appÜbersichtliche Consumer-UX, Multi-Provider-UnterstützungKostenlos (proprietär)
Cherry Studiocherry-ai.comMulti-Provider-Desktop-KI mit umfangreicher AnpassbarkeitApache 2.0
Faradayfaraday.devDesktop-Client für Charakter-Chat und RollenspielKostenlos (proprietär)
Enchantedenchantedlabs.aiNativer macOS/iOS-Minimal-Client für OllamaMIT
h2oGPTgithub.com/h2oai/h2ogptFunktionsreiche Enterprise-Desktop- und ServeranwendungApache 2.0
Open Interpretergithub.com/OpenInterpreter/open-interpreterErlaubt einem lokalen LLM, Ihren Computer zu steuern und Code auszuführenAGPL 3.0

Vertiefender Vergleich: LM Studio vs Jan vs GPT4All

3. Web-UIs & Browser-Frontends

Web-UIs sind selbst gehostete ChatGPT-Klone — gleiche Konversationsoberfläche, aber Sie richten sie auf eine Laufzeitumgebung auf Ihrem eigenen Rechner oder LAN. Sie sind die natürliche Wahl, wenn Sie Multi-Geräte-Zugriff (Laptop, Smartphone, Tablet auf einem Server) oder Team-Nutzung wünschen. Open WebUI dominiert 2026 das Self-Hosting-Segment; LibreChat ist die Team-Feature-Alternative; SillyTavern ist das dedizierte Rollenspiel-UI.

ToolLinkBeschreibungLizenz
Open WebUIopenwebui.comBeliebtestes selbst gehostetes ChatGPT-ähnliches UI mit integriertem RAGBSD 3-Clause
LibreChatlibrechat.aiMulti-Modell-ChatGPT-Alternative mit Team-FunktionenMIT
text-generation-webuigithub.com/oobabooga/text-generation-webuiPower-User-UI mit umfangreichem Plugin-ÖkosystemAGPL 3.0
SillyTaverngithub.com/SillyTavern/SillyTavernRollenspiel und Charakter-Chat mit LorebooksAGPL 3.0
LobeChatlobehub.comModerne, übersichtliche UI mit Plugin-MarktplatzMIT
Big-AGIgithub.com/enricoros/big-AGIErweitertes Multi-Provider-Frontend mit PersonasMIT
NextChatgithub.com/ChatGPTNextWeb/NextChatSchlanker Web-Chat, einfaches DeploymentMIT
Page Assistgithub.com/n4ze3m/page-assistBrowser-Sidebar-KI für Chrome und FirefoxMIT
Chatboxchatboxai.appPlattformübergreifender Desktop- und Web-ClientGPLv3

Vertiefender Vergleich: SillyTavern vs Agnai vs RisuAI

4. Coding-Assistenten & IDE-Integrationen

Coding-Assistenten verbinden ein lokales LLM über OpenAI-kompatible APIs mit Ihrem Editor oder Terminal. Die Wahl hängt hauptsächlich vom bevorzugten Arbeitsablauf ab: Autovervollständigung im Editor (Continue.dev), autonome Agenten-Edits (Cline, OpenHands) oder git-natives Diff-Editing im Terminal (Aider). Alle drei Muster funktionieren mit jeder Laufzeitumgebung, die das OpenAI Chat Completions-Protokoll unterstützt — Ollama ist 2026 das verbreitetste Backend.

ToolLinkBeschreibungLizenz
Continue.devcontinue.devVS Code- und JetBrains-Autovervollständigung und Chat mit lokalen ModellenApache 2.0
Aideraider.chatTerminal-Pair-Programmer mit Multi-Datei-BearbeitungsunterstützungApache 2.0
Clinecline.botAutonomer Coding-Agent für VS CodeApache 2.0
Tabbytabby.tabbyml.comSelbst gehostete GitHub Copilot-AlternativeApache 2.0
CodeGPTcodegpt.coIDE-Integrationen für mehrere EditorenMIT
OpenHandsgithub.com/All-Hands-AI/OpenHandsKI-Software-Entwickler-Agent (ehemals OpenDevin)MIT
Cursor (lokaler Modus)cursor.comKI-first Code-Editor mit Unterstützung lokaler ModelleKostenlos (proprietär)
Twinnygithub.com/twinnydotdev/twinnyKostenlose Copilot-Alternative für VS CodeMIT

Vertiefender Vergleich: Continue.dev vs Cline vs Aider

5. RAG- & Dokumenten-Chat-Systeme

RAG (Retrieval-Augmented Generation)-Systeme verbinden ein lokales LLM mit einem Embedding-Modell und einem Vektorspeicher, damit das Modell aus Ihren eigenen Dokumenten antworten kann.** Die Unterscheidung liegt zwischen schlüsselfertigen Apps (AnythingLLM, PrivateGPT, Quivr, Khoj), die „einfach funktionieren", und Framework-Bibliotheken (LlamaIndex, Haystack, txtai), auf denen Sie aufbauen. RAGFlow hat 2026 Marktanteile gewonnen, speziell für Dokumente, die zitiergenaue Extraktion erfordern.

ToolLinkBeschreibungLizenz
AnythingLLManythingllm.comEinfachstes All-in-One-Personal-RAG mit ArbeitsbereichenMIT
PrivateGPTgithub.com/zylon-ai/private-gptVollständig offline betreibbares, enterprise-orientiertes RAGApache 2.0
Quivrgithub.com/QuivrHQ/quivrSelbst gehosteter persönlicher WissensassistentApache 2.0
Khojkhoj.devPersönliches KI-Second-Brain, synchronisiert mit Obsidian und NotionAGPL 3.0
Difydify.aiKI-Workflow-Builder mit RAG- und Agenten-UnterstützungModified Apache 2.0
Flowiseflowiseai.comVisueller LangChain-Workflow-BuilderApache 2.0
Langflowlangflow.orgVisuelle KI-Orchestrierung mit RAG-KomponentenMIT
LlamaIndexllamaindex.aiRAG-Framework / Python-Bibliothek — Grundlage für eigene EntwicklungenMIT
Haystackhaystack.deepset.aiSuch- und RAG-Framework von deepsetApache 2.0
RAGFlowragflow.ioTiefes Dokumentenverständnis für RAG mit Zitat-ExtraktionApache 2.0
txtaigithub.com/neuml/txtaiEingebettete Vektor- und LLM-Datenbank in einer BibliothekApache 2.0

Vertiefender Vergleich: AnythingLLM vs PrivateGPT vs Open WebUI

6. Agenten-Frameworks & Orchestrierung

Agenten-Frameworks verwandeln One-Shot-LLM-Aufrufe in mehrstufige Workflows — planen, handeln, beobachten, wiederholen. LangChain bleibt der allgemeine Standard; CrewAI und AutoGen sind auf rollenbasierte Multi-Agenten-Setups spezialisiert; LangGraph ist die richtige Wahl, wenn Zustandsverwaltung über langläufige Abläufe hinweg wichtig ist. Alle acht Frameworks unten laufen problemlos mit einem lokalen Ollama-Backend.

ToolLinkBeschreibungLizenz
LangChainlangchain.comUniverselles LLM-AnwendungsframeworkMIT
LlamaIndexllamaindex.aiRAG-fokussiertes Agenten- und Daten-FrameworkMIT
CrewAIcrewai.comRollenbasierte Multi-Agenten-WorkflowsMIT
AutoGengithub.com/microsoft/autogenMicrosoft Multi-Agenten-OrchestrierungsframeworkCC-BY-4.0 / MIT
Semantic Kernellearn.microsoft.com/semantic-kernelMicrosoft Enterprise-Orchestrierungs-SDK für C#/Python/JavaMIT
LangGraphlangchain-ai.github.io/langgraphZustandsbasierte Graph-Agenten-WorkflowsMIT
Letta (ehemals MemGPT)letta.comAgenten mit LangzeitgedächtnisApache 2.0
Pydantic AIai.pydantic.devTypsicheres Agenten-Framework auf Basis von PydanticMIT

Vertiefender Artikel: Lokale KI-Agenten mit MCP

7. Sprache, Spracherkennung & Multimodal

Sprach- und Multimodal-Stacks erweitern ein lokales LLM über Text hinaus — Spracheingabe (STT), Sprachausgabe (TTS) und Bildverständnis. Whisper.cpp und faster-whisper beherrschen die lokale STT-Schicht; Piper und Coqui teilen sich die TTS-Schicht, wobei XTTS v2 beim Voice-Cloning dominiert; LLaVA und Ollama Vision-Modelle decken die Bildseite ab. Ein vollständig offline betriebener Sprachassistent lässt sich aus dieser Schicht plus einem kleinen Chat-Modell aufbauen.

ToolLinkBeschreibungLizenz
Whisper.cppgithub.com/ggerganov/whisper.cppLokale Spracherkennung, läuft auf CPU oder GPUMIT
faster-whispergithub.com/SYSTRAN/faster-whisperSchnelle Whisper-Transkription via CTranslate2MIT
Piper TTSgithub.com/rhasspy/piperSchlanke lokale Text-to-Speech-LösungMIT
Coqui TTScoqui.aiOpen-Source-Sprachsynthese mit mehreren ModelloptionenMPL 2.0
XTTS v2docs.coqui.ai/en/latest/models/xtts.htmlVoice-Cloning mit mehrsprachiger UnterstützungCPML
Barkgithub.com/suno-ai/barkGenerative Sprachsynthese mit Nicht-Sprach-TönenMIT
StyleTTS 2github.com/yl4579/StyleTTS2Hochwertige, natürlich klingende TTSMIT
LLaVAllava-vl.github.ioLokales Vision-und-Sprache-ModellApache 2.0
Ollama Vision-Modelleollama.comLokales Vision via Ollama (Llama 3.2 Vision, Llava u. a.)Verschiedene

Vertiefender Artikel: Lokalen Sprachassistenten auf dem Smartphone aufbauen

8. Mobile & Edge-Clients

Mobile-Clients führen ein quantisiertes Modell direkt auf dem Smartphone aus — über Apple Neural Engine, Qualcomm NPU oder reine CPU-Inferenz. Das MLC LLM-Projekt ist die grundlegende Schicht; Consumer-Apps (PocketPal AI, Private LLM, LLM Farm, Layla) kapseln sie in einer Chat-Oberfläche. Aktuelle Flagship-Smartphones führen 2026 2-4B-Modelle mit praxistauglichen Geschwindigkeiten (8–15 Token/Sek.) aus; 7B liegt an der Machbarkeitsgrenze für Spitzengeräte.

ToolLinkBeschreibungLizenz
MLC Chatmlc.ai/mlc-llmPlattformübergreifende Mobile-LLM-LaufzeitumgebungApache 2.0
PocketPal AIgithub.com/a-ghorbani/pocketpal-aiKostenloser iOS- und Android-Client für lokale LLMsMIT
Private LLMprivatellm.appAusgereifte iOS- und macOS-App für lokale LLMsKostenpflichtig (proprietär)
LLM Farmgithub.com/guinmoon/LLMFarmiOS-Client für lokale LLMs mit Modell-BrowserMIT
Laylalayla-network.aiAndroid-first App für lokale LLMsKostenlos (proprietär)
Maidgithub.com/Mobile-Artificial-Intelligence/maidOpen-Source-Flutter-App für mobile LLMsMIT
Enchantedenchantedlabs.aiNativer iOS/macOS-Client für OllamaMIT
Chapperprevolut.ukNativer Mobile-Client für Ollama und LM StudioKostenlos
RikkaHubgithub.com/rikkahub/rikkahubOpen-Source Android-App für lokale KIMIT
AnythingLLM Mobileanythingllm.comFernzugriff auf Ihren lokalen AnythingLLM-ArbeitsbereichMIT

Vertiefender Artikel: Die besten lokalen LLM-Apps für iPhone in 2026

9. Spezialisierte & Produktivitätswerkzeuge

Spezialisierte Tools betten lokale LLMs in bereits genutzte Anwendungen ein — Notiz-Plattformen (Obsidian, Logseq, Joplin), autonome Aufgaben-Agenten (AutoGPT, BabyAGI, MetaGPT) und Rollenspiel-Frontends (Agnai, RisuAI). Dies sind keine generischen Chat-Oberflächen; es handelt sich um workflow-spezifische Integrationen, die voraussetzen, dass Sie bereits über eine Host-Anwendung und eine Laufzeitumgebung verfügen.

ToolLinkBeschreibungLizenz
Smart Connectionsgithub.com/brianpetro/obsidian-smart-connectionsObsidian-Plugin für semantische Suche und ChatGPL 3.0
Copilot for Obsidiangithub.com/logancyang/obsidian-copilotObsidian-Plugin für lokalen LLM-ChatAGPL 3.0
Text Generatorgithub.com/nhaouari/obsidian-textgenerator-pluginObsidian-Plugin zur InhaltsgenerierungMIT
logseq-copilotgithub.com/logancyang/logseq-copilotLogseq-Plugin für lokalen und Cloud-LLM-Chat, gleicher Autor wie Obsidian CopilotAGPL 3.0
BMO Chatbotgithub.com/longy2k/obsidian-bmo-chatbotObsidian-Chatbot mit lokalem LLMMIT
Joplin AIjoplinapp.orgJoplin-Notizen mit lokalen KI-IntegrationenMIT
AutoGPT (lokal)github.com/Significant-Gravitas/AutoGPTAutonomer Aufgaben-Agent mit Ollama-UnterstützungMIT
BabyAGIgithub.com/yoheinakajima/babyagiSchlanker autonomer AgentMIT
MetaGPTgithub.com/geekan/MetaGPTMulti-Agenten-Simulation eines Software-UnternehmensMIT
Agnaiagnai.chatRollenspiel-Frontend mit Charakter-KartenMIT
RisuAIgithub.com/kwaroran/RisuAIMobilfreundliches Rollenspiel-FrontendGPL 3.0

Vertiefender Artikel: Lokale LLMs mit Obsidian in 2026

Praktische Einsatz-Stacks

Für Leserinnen und Leser, die nicht alle neun Kategorien durcharbeiten möchten: Wählen Sie den nächstpassenden Stack und übernehmen Sie ihn. Jede Zeile verbindet ein konkretes Ziel mit einer bewährten Kombination und der tatsächlichen Hardware-Mindestanforderung.

ZielStackHardware-Mindestanforderung
Einfacher ChatLM Studio standalone16 GB RAM, keine GPU erforderlich
Bestes Gleichgewicht für Power-UserOllama + Open WebUI16 GB RAM, GPU optional
Dokumenten-ChatOllama + AnythingLLM16 GB RAM, GPU optional
CodingOllama + Continue.dev16 GB RAM + GPU empfohlen
Rollenspiel / Kreatives SchreibenKoboldCpp + SillyTavern16 GB RAM, GPU empfohlen
Datenschutz-kritischer EinsatzOllama + Open WebUI + PrivateGPT32 GB RAM + 12 GB VRAM
Mobile / UnterwegsMLC Chat oder PocketPal AIiPhone 13+ / Pixel 7+
Apple SiliconOllama (MLX-Backend) oder LM StudioM2/M3/M4/M5 mit 16+ GB Unified Memory
Multi-User-TeamvLLM + Open WebUI32+ GB RAM + mehrere GPUs

Aktualität des Verzeichnisses

Dieses Verzeichnis wird alle sechs Monate überprüft (nächste Aktualisierung: November 2026). Aufnahmekriterien: Das Projekt wird aktiv gepflegt (Commits in den letzten 90 Tagen), verfügt über eine nachweisbare Open-Source-Lizenz oder eine klare Aussage zur kommerziellen Nutzbarkeit, und hat entweder einen relevanten Nutzeranteil im Jahr 2026 oder füllt eine Schicht aus, die sonst leer bliebe. Projekte, die länger als zwei Release-Zyklen inaktiv bleiben, werden entfernt; neue Einträge, die die Kriterien erfüllen, werden bei der nächsten Überprüfung aufgenommen. Einen Vorschlag für die Aufnahme können Sie über ein Issue oder einen Pull Request im PromptQuorum-Repository einreichen — bitte Projekt-URL, Lizenz und eine Kurzbeschreibung im Format der Tabellen oben beifügen. Hinweis für DACH-Unternehmen: Für Organisationen in Deutschland, Österreich und der Schweiz empfiehlt sich der Einsatz von Tools mit MIT- oder Apache-2.0-Lizenz, da diese die klarste Rechtsgrundlage für den kommerziellen Einsatz bieten. Bei der Verarbeitung personenbezogener Daten ist zu prüfen, ob lokale Inferenz als Auftragsverarbeitung im Sinne von Art. 28 DSGVO einzustufen ist — in der Regel liegt sie außerhalb des Anwendungsbereichs, solange keine Daten das lokale System verlassen. Der BSI-Grundschutz-Katalog (insbesondere die Bausteine SYS und APP) bietet einen praxisnahen Rahmen für die Absicherung von Self-Hosted-LLM-Infrastruktur in deutschen Unternehmen.

Quellen

FAQ

Was ist der Unterschied zwischen einer lokalen LLM-Laufzeitumgebung und einer Desktop-App?

Eine Laufzeitumgebung (Ollama, llama.cpp, vLLM) ist die Engine, die Modellgewichte lädt und eine API bereitstellt — typischerweise OpenAI-kompatibel. Eine Desktop-App (LM Studio, Jan, GPT4All) ist eine Chat-Oberfläche, die im Hintergrund eine Laufzeitumgebung aufruft. Manche Apps bündeln ihre eigene Laufzeit (LM Studio enthält llama.cpp), andere setzen eine separate Installation voraus (Open WebUI ruft Ollama auf). Die Laufzeitumgebung entscheidet, was technisch möglich ist; die App entscheidet, was bequem nutzbar ist.

Kann ich mehrere Tools aus dieser Liste gleichzeitig verwenden?

Ja — die meisten Stacks kombinieren 2–4 Tools. Ein verbreitetes Setup: Ollama als Laufzeitumgebung, Open WebUI für den Chat, AnythingLLM für den Dokumenten-Chat und Continue.dev für das Coding — alle vier laufen gegen dieselbe Ollama-Instanz auf einem einzigen Rechner. Die Tabelle „Praktische Einsatz-Stacks" oben nennt die Rezepte, die konfliktfrei funktionieren.

Welche Tools funktionieren vollständig offline ohne Telemetrie?

Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM und die meisten AGPL/MIT-lizenzierten Apps in diesem Verzeichnis sind nach dem Modell-Download vollständig offline nutzbar. LM Studio und einige proprietäre Tools verfügen über optionale Analysefunktionen, die in den Einstellungen deaktiviert werden können — überprüfen Sie dies durch einen Paketmitschnitt nach der Installation. Browser-basierte UIs (Open WebUI, LibreChat) sind lokal, wenn sie mit einem lokalen Backend konfiguriert sind.

Sind einige dieser Tools kommerziell lizenziert (nicht frei für kommerzielle Nutzung)?

Eine Handvoll: LM Studio, Msty, Faraday, Layla und Cursor sind proprietär — in der Regel kostenlos nutzbar, aber nicht weiterverteilbar; kommerzielle Konditionen variieren je Anbieter. Private LLM ist kostenpflichtig. AGPL-lizenzierte Tools (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) sind für jeden Zweck einschließlich kommerzieller Nutzung frei, die AGPL-Bedingungen verlangen jedoch Quelloffenlegung, wenn Sie sie modifiziert öffentlich hosten. Apache-2.0- und MIT-Projekte (die Mehrheit) sind in jedem Kontext einschließlich kommerzieller Nutzung ohne wesentliche Auflagen verwendbar.

Welche Tools unterstützen Apple Silicon (M-Serie) nativ?

Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM und die meisten Electron/Tauri-Apps laufen nativ auf Apple Silicon und nutzen das Metal-Backend. MLX-LM ist Apple-spezifisch und auf M-Series-Geräten für große Modelle am schnellsten. vLLM, TensorRT-LLM und ExLlamaV2 sind NVIDIA-fokussiert und laufen auf Apple Silicon entweder nicht oder nur eingeschränkt — für Apple-Nutzer ist Ollama mit Metal-Backend die Standardempfehlung.

Unterstützen alle diese Tools das GGUF-Modellformat?

GGUF ist das native Format für llama.cpp und alle Tools, die darauf aufbauen (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM und TensorRT-LLM verwenden eigene optimierte Formate (typischerweise AWQ oder FP16) für höheren Durchsatz. ExLlamaV2 nutzt EXL2-Quantisierung. MLX-LM verwendet MLX-konvertierte Gewichte. Die meisten aufgeführten Tools akzeptieren GGUF; einige (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) erfordern einen einmaligen Konvertierungsschritt aus den originalen Hugging Face-Gewichten.

Welche Tools eignen sich für Nutzerinnen und Nutzer ohne Programmiererfahrung?

GPT4All bietet die einfachste Installation (ein Klick, läuft ab 8 GB RAM). LM Studio ist das funktionsreichste Tool ohne Terminal-Nutzung. Jan ist die datenschutzfreundlichste No-Code-Option. Für Dokumenten-Chat ohne Kommandozeile ist AnythingLLM am einfachsten. Alle vier sind in der Kategorie Desktop-GUI-Anwendungen oben aufgeführt.

Kann ich diese Tools auf einem Server betreiben und remote darauf zugreifen?

Die meisten Server-fähigen Tools (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) stellen eine HTTP-API bereit und binden an eine in den Einstellungen konfigurierbare Netzwerkschnittstelle. Standardmuster: Ollama auf einem Heimserver oder VPS betreiben, eine UI auf Laptop oder Smartphone, die auf die Server-IP zeigt. Behandeln Sie die API wie jeden Webdienst — binden Sie sie an localhost hinter einem Reverse-Proxy oder an ein privates Netzwerk mit geeigneter Authentifizierung. Open WebUI enthält Multi-User-Unterstützung von Haus aus.

Welche Tools unterstützen Multi-User- / Team-Setups?

Open WebUI, LibreChat, h2oGPT, AnythingLLM (mit aktivierten Admin-Funktionen) und Dify sind für den Multi-User-Einsatz ausgelegt, mit rollenbasiertem Zugriff und nutzerspezifischem Gesprächsverlauf. vLLM ist die richtige Serving-Schicht darunter, wenn gleichzeitige Inferenz relevant ist — es bündelt Anfragen mehrerer Nutzer für einen Durchsatz, der mit Ollama bei mehr als ~3 gleichzeitigen Anfragen nicht erreichbar ist.

Wie häufig wird dieses Verzeichnis aktualisiert?

Alle sechs Monate — die nächste planmäßige Aktualisierung ist im November 2026. Zwischenzeitliche Änderungen (ein Projekt wird inaktiv, ein neues Tool gewinnt relevanten Marktanteil, eine Lizenz ändert sich) werden als Patch in den bestehenden Eintrag eingepflegt. Vollständig neue Kategorien oder Schichten warten auf die Überarbeitung, um die Struktur stabil zu halten.

Muss ich bei der Verwendung dieser Tools die DSGVO beachten?

Das hängt davon ab, welche Daten Sie verarbeiten. Lokale Inferenz — d. h. Modell und Daten verbleiben auf Ihrem eigenen System — ist datenschutzrechtlich grundsätzlich vorteilhaft, weil keine personenbezogenen Daten an externe Server übertragen werden. Verarbeiten Sie dennoch personenbezogene Daten (z. B. Kundendokumente, Mitarbeiterdaten), gelten die DSGVO-Grundsätze (Art. 5–11) sowie ggf. Art. 28 (Auftragsverarbeitung), falls ein Dienstleister die Infrastruktur betreibt. Der BSI-Grundschutz-Katalog (Bausteine SYS.1.1 und APP.3.1) bietet einen praxisnahen Sicherheitsrahmen für Self-Hosted-LLM-Systeme in deutschen Organisationen. Für eine rechtsverbindliche Einschätzung sollten Sie einen auf DSGVO spezialisierten Rechtsanwalt oder Datenschutzbeauftragten hinzuziehen.

Sind diese Tools für den deutschen Mittelstand geeignet?

Ja — für mittelständische Unternehmen in Deutschland, Österreich und der Schweiz bieten lokale LLM-Stacks konkrete Vorteile: Datensouveränität (keine Cloud-Abhängigkeit, keine Datenübermittlung an US-Anbieter), planbare Kosten (keine token-basierten Nutzungsgebühren) und Anpassbarkeit (Feinabstimmung auf Branchensprache möglich). Empfohlene Einstiegskonfiguration für den Mittelstand: Ollama als Laufzeitumgebung, Open WebUI für den Team-Chat, AnythingLLM für interne Wissensdatenbanken. Für IT-Sicherheitsanforderungen nach BSI-Grundschutz empfiehlt sich der Einsatz von Tools mit MIT- oder Apache-2.0-Lizenz und eine Netzwerksegmentierung des LLM-Servers vom Produktionsnetz.

← Zurück zu Power Local LLM

Lokales LLM Software-Verzeichnis 2026: 70+ Tools