Welches sind die besten lokalen LLM-Tools, um KI auf eigener Hardware zu betreiben (2026)?

Beginnen Sie mit einer Laufzeitumgebung — Ollama ist für fast alle der schnellste Einstieg, llama.cpp für maximale Kontrolle auf unterster Ebene, vLLM wenn Sie mehrere Nutzer gleichzeitig bedienen müssen. Fügen Sie eine Desktop-App (LM Studio, Jan, GPT4All) oder ein Web-UI (Open WebUI, LibreChat) als Chat-Oberfläche hinzu. Ergänzen Sie eine Coding-Integration (Continue.dev, Cline, Aider) wenn Sie Autovervollständigung und Chat in Ihrer IDE wünschen. Ergänzen Sie ein RAG-System (AnythingLLM, PrivateGPT, Open WebUI mit integriertem RAG) wenn Sie mit eigenen Dokumenten chatten möchten. Darüber hinaus deckt der Katalog Agenten-Frameworks, Sprache und Multimodal, Mobile-Clients sowie Obsidian/Logseq-Integrationen ab. Das vollständige Verzeichnis unten listet 87 Projekte mit Lizenzen und primären URLs auf. Wählen Sie zuerst eine Laufzeitumgebung — Ollama (am einfachsten), llama.cpp (grundlegend) oder vLLM (Multi-User-Serving) decken 95 % der Anwendungsfälle ab.. Fügen Sie eine Chat-Oberfläche hinzu — LM Studio (beste GUI), Jan (datenschutzorientiert) oder Open WebUI (browserbasiert, beliebtes Self-Hosting).. Für Coding: Continue.dev für Autovervollständigung und Chat, Cline für autonome Agenten-Edits, Aider für git-natives Terminal-Arbeiten.. Für RAG: AnythingLLM (am einfachsten), PrivateGPT (offline-fokussiert), Open WebUI (integriertes RAG in der Chat-Oberfläche).. Für Mobile: MLC Chat oder PocketPal AI auf Android, Private LLM oder Enchanted auf iOS — alle führen praxistaugliche 2-4B-Modelle auf aktuellen Smartphones aus.

Lokales LLM Software-Verzeichnis 2026: 70+ Tools

Das lokale LLM-Ökosystem ist 2026 so groß geworden, dass die falsche Tool-Wahl am Anfang Stunden, nicht Minuten kostet. Dieses Verzeichnis katalogisiert 87 aktiv gepflegte Projekte in neun Schichten — Laufzeitumgebungen, Desktop-Apps, Web-UIs, Coding-Assistenten, RAG-Systeme, Agenten-Frameworks, Sprache und Multimodal, Mobile-Clients und spezialisierte Produktivitäts-Plugins — jeweils mit Beschreibung, Lizenz und primärer URL. Verwenden Sie es als Übersichtskarte des Ist-Zustands, bevor Sie sich für einen Stack entscheiden; jede Kategorie endet mit einem Link zum vertiefenden PromptQuorum-Vergleichsartikel für diese Schicht.

Wichtigste Erkenntnisse

Neun Schichten, 87 Projekte, eine Übersichtskarte. Laufzeitumgebungen, Desktop-Apps, Web-UIs, Coding-Assistenten, RAG-Systeme, Agenten-Frameworks, Sprache/Multimodal, Mobile-Clients und spezialisierte Produktivitäts-Plugins — fast jedes bekannte Projekt aus 2026 lässt sich exakt einer dieser Schichten zuordnen.
Wählen Sie zuerst eine Laufzeitumgebung. Ollama ist für ~95 % der Leserinnen und Leser die richtige Standardwahl; llama.cpp ist die grundlegende Engine hinter den meisten anderen Tools; vLLM ist die Produktionsalternative für Multi-User-Setups auf echten GPUs.
Die meisten Schichten oberhalb der Laufzeitumgebung sind optional. Eine Desktop-App ODER ein Web-UI reicht für den Chat aus. Fügen Sie eine Coding-Integration nur dann hinzu, wenn Sie IDE-Integration benötigen; ein RAG-System nur dann, wenn Sie mit eigenen Dokumenten chatten möchten; ein Agenten-Framework nur dann, wenn One-Shot-Aufrufe nicht mehr ausreichen.
Lizenzen sind relevant für den kommerziellen Einsatz. MIT und Apache 2.0 dominieren das Ökosystem. AGPL findet sich bei einigen UIs (text-generation-webui, KoboldCpp, Jan, SillyTavern) — für den Privatgebrauch unproblematisch, bei kommerziellen Deployments sorgfältig prüfen. Die Spalte „Lizenz" unten benennt jede Lizenz explizit.
Multi-Tool-Stacks sind die Norm. Ollama + Open WebUI + AnythingLLM + Continue.dev ist ein Single-Machine-Setup, das Chat, RAG und Coding ohne Kompromisse abdeckt. Die Tabelle „Praktische Einsatz-Stacks" unten nennt die Rezepte, die in 2026 tatsächlich funktionieren.

1. Lokale LLM-Laufzeitumgebungen & Inferenz-Engines

Eine Laufzeitumgebung ist die Engine, die Modellgewichte in den Speicher lädt und Eingaben in Token umwandelt. Sie ist die erste Entscheidung in einem lokalen LLM-Stack und schränkt alles darüber ein — jede Desktop-App, jedes Web-UI und jede Coding-Integration ruft letztlich eine Laufzeitumgebung auf. Ollama dominiert 2026 den nutzerseitigen Marktanteil, weil es eine OpenAI-kompatible API und eine Ein-Befehl-Installation mitbringt; llama.cpp ist die C++-Engine unter den meisten anderen Tools; vLLM ist die richtige Wahl, wenn Sie gleichzeitige Anfragen mehrerer Nutzer auf einer echten GPU bedienen müssen.

Tool	Link	Beschreibung	Lizenz
Ollama	ollama.com	Einfachster Einstieg — Ein-Befehl-Installation, OpenAI-kompatible API, umfangreiche Modellbibliothek	MIT
llama.cpp	github.com/ggml-org/llama.cpp	Grundlegende C++-Engine hinter den meisten anderen Tools, läuft überall einschließlich Apple Silicon	MIT
vLLM	github.com/vllm-project/vllm	Hochdurchsatz-Serving für Multi-User-GPU-Deployments	Apache 2.0
LocalAI	localai.io	Drop-in-Ersatz für die OpenAI API, unterstützt mehrere Backends	MIT
TensorRT-LLM	github.com/NVIDIA/TensorRT-LLM	NVIDIA-optimierte Inferenz für Enterprise-GPU-Setups	Apache 2.0
MLC LLM	mlc.ai/mlc-llm	Laufzeitumgebung für Mobile- und Edge-Geräte	Apache 2.0
SGLang	github.com/sgl-project/sglang	Strukturiertes Inferenz-Serving für Agenten-Pipelines	Apache 2.0
ExLlamaV2	github.com/turboderp-org/exllamav2	Schnelle quantisierte Inferenz, optimiert für RTX-GPUs	MIT
KoboldCpp	github.com/LostRuins/koboldcpp	Schlanker llama.cpp-Wrapper mit integrierter Benutzeroberfläche	AGPL 3.0
Llamafile	github.com/Mozilla-Ocho/llamafile	Portable Ein-Datei-LLM-Ausführung von Mozilla	Apache 2.0
MLX-LM	github.com/ml-explore/mlx-examples	Apple-Silicon-native Laufzeitumgebung von Apple Research	MIT

Vertiefender Vergleich: llama.cpp vs Ollama vs vLLM

2. Desktop-GUI-Anwendungen

Desktop-Apps kapseln eine Laufzeitumgebung in einer Chat-Oberfläche und einem Modell-Browser. Hier steigen die meisten nicht-technischen Anwenderinnen und Anwender ein, weil kein Terminal-Schritt nötig ist — herunterladen, klicken, chatten. LM Studio, Jan und GPT4All halten 2026 den Großteil der Nutzerbasis; AnythingLLM fungiert gleichzeitig als Desktop-App und RAG-Schicht; Open Interpreter ist der Sonderfall, der einem lokalen Modell erlaubt, Ihren Computer zu steuern.

Tool	Link	Beschreibung	Lizenz
LM Studio	lmstudio.ai	Ausgereifteste GUI, integrierter HuggingFace-Modell-Browser, Server-Modus	Kostenlos (proprietär)
Jan	jan.ai	Datenschutzorientierter Offline-ChatGPT-Klon, vollständig quelloffen	AGPL 3.0
GPT4All	nomic.ai/gpt4all	Einsteigerfreundlich mit starker CPU-only-Unterstützung	MIT
AnythingLLM	anythingllm.com	RAG und Dokumenten-Chat mit integriertem Vektorspeicher	MIT
Msty	msty.app	Übersichtliche Consumer-UX, Multi-Provider-Unterstützung	Kostenlos (proprietär)
Cherry Studio	cherry-ai.com	Multi-Provider-Desktop-KI mit umfangreicher Anpassbarkeit	Apache 2.0
Faraday	faraday.dev	Desktop-Client für Charakter-Chat und Rollenspiel	Kostenlos (proprietär)
Enchanted	enchantedlabs.ai	Nativer macOS/iOS-Minimal-Client für Ollama	MIT
h2oGPT	github.com/h2oai/h2ogpt	Funktionsreiche Enterprise-Desktop- und Serveranwendung	Apache 2.0
Open Interpreter	github.com/OpenInterpreter/open-interpreter	Erlaubt einem lokalen LLM, Ihren Computer zu steuern und Code auszuführen	AGPL 3.0

Vertiefender Vergleich: LM Studio vs Jan vs GPT4All

3. Web-UIs & Browser-Frontends

Web-UIs sind selbst gehostete ChatGPT-Klone — gleiche Konversationsoberfläche, aber Sie richten sie auf eine Laufzeitumgebung auf Ihrem eigenen Rechner oder LAN. Sie sind die natürliche Wahl, wenn Sie Multi-Geräte-Zugriff (Laptop, Smartphone, Tablet auf einem Server) oder Team-Nutzung wünschen. Open WebUI dominiert 2026 das Self-Hosting-Segment; LibreChat ist die Team-Feature-Alternative; SillyTavern ist das dedizierte Rollenspiel-UI.

Tool	Link	Beschreibung	Lizenz
Open WebUI	openwebui.com	Beliebtestes selbst gehostetes ChatGPT-ähnliches UI mit integriertem RAG	BSD 3-Clause
LibreChat	librechat.ai	Multi-Modell-ChatGPT-Alternative mit Team-Funktionen	MIT
text-generation-webui	github.com/oobabooga/text-generation-webui	Power-User-UI mit umfangreichem Plugin-Ökosystem	AGPL 3.0
SillyTavern	github.com/SillyTavern/SillyTavern	Rollenspiel und Charakter-Chat mit Lorebooks	AGPL 3.0
LobeChat	lobehub.com	Moderne, übersichtliche UI mit Plugin-Marktplatz	MIT
Big-AGI	github.com/enricoros/big-AGI	Erweitertes Multi-Provider-Frontend mit Personas	MIT
NextChat	github.com/ChatGPTNextWeb/NextChat	Schlanker Web-Chat, einfaches Deployment	MIT
Page Assist	github.com/n4ze3m/page-assist	Browser-Sidebar-KI für Chrome und Firefox	MIT
Chatbox	chatboxai.app	Plattformübergreifender Desktop- und Web-Client	GPLv3

Vertiefender Vergleich: SillyTavern vs Agnai vs RisuAI

4. Coding-Assistenten & IDE-Integrationen

Coding-Assistenten verbinden ein lokales LLM über OpenAI-kompatible APIs mit Ihrem Editor oder Terminal. Die Wahl hängt hauptsächlich vom bevorzugten Arbeitsablauf ab: Autovervollständigung im Editor (Continue.dev), autonome Agenten-Edits (Cline, OpenHands) oder git-natives Diff-Editing im Terminal (Aider). Alle drei Muster funktionieren mit jeder Laufzeitumgebung, die das OpenAI Chat Completions-Protokoll unterstützt — Ollama ist 2026 das verbreitetste Backend.

Tool	Link	Beschreibung	Lizenz
Continue.dev	continue.dev	VS Code- und JetBrains-Autovervollständigung und Chat mit lokalen Modellen	Apache 2.0
Aider	aider.chat	Terminal-Pair-Programmer mit Multi-Datei-Bearbeitungsunterstützung	Apache 2.0
Cline	cline.bot	Autonomer Coding-Agent für VS Code	Apache 2.0
Tabby	tabby.tabbyml.com	Selbst gehostete GitHub Copilot-Alternative	Apache 2.0
CodeGPT	codegpt.co	IDE-Integrationen für mehrere Editoren	MIT
OpenHands	github.com/All-Hands-AI/OpenHands	KI-Software-Entwickler-Agent (ehemals OpenDevin)	MIT
Cursor (lokaler Modus)	cursor.com	KI-first Code-Editor mit Unterstützung lokaler Modelle	Kostenlos (proprietär)
Twinny	github.com/twinnydotdev/twinny	Kostenlose Copilot-Alternative für VS Code	MIT

Vertiefender Vergleich: Continue.dev vs Cline vs Aider

5. RAG- & Dokumenten-Chat-Systeme

RAG (Retrieval-Augmented Generation)-Systeme verbinden ein lokales LLM mit einem Embedding-Modell und einem Vektorspeicher, damit das Modell aus Ihren eigenen Dokumenten antworten kann.** Die Unterscheidung liegt zwischen schlüsselfertigen Apps (AnythingLLM, PrivateGPT, Quivr, Khoj), die „einfach funktionieren", und Framework-Bibliotheken (LlamaIndex, Haystack, txtai), auf denen Sie aufbauen. RAGFlow hat 2026 Marktanteile gewonnen, speziell für Dokumente, die zitiergenaue Extraktion erfordern.

Tool	Link	Beschreibung	Lizenz
AnythingLLM	anythingllm.com	Einfachstes All-in-One-Personal-RAG mit Arbeitsbereichen	MIT
PrivateGPT	github.com/zylon-ai/private-gpt	Vollständig offline betreibbares, enterprise-orientiertes RAG	Apache 2.0
Quivr	github.com/QuivrHQ/quivr	Selbst gehosteter persönlicher Wissensassistent	Apache 2.0
Khoj	khoj.dev	Persönliches KI-Second-Brain, synchronisiert mit Obsidian und Notion	AGPL 3.0
Dify	dify.ai	KI-Workflow-Builder mit RAG- und Agenten-Unterstützung	Modified Apache 2.0
Flowise	flowiseai.com	Visueller LangChain-Workflow-Builder	Apache 2.0
Langflow	langflow.org	Visuelle KI-Orchestrierung mit RAG-Komponenten	MIT
LlamaIndex	llamaindex.ai	RAG-Framework / Python-Bibliothek — Grundlage für eigene Entwicklungen	MIT
Haystack	haystack.deepset.ai	Such- und RAG-Framework von deepset	Apache 2.0
RAGFlow	ragflow.io	Tiefes Dokumentenverständnis für RAG mit Zitat-Extraktion	Apache 2.0
txtai	github.com/neuml/txtai	Eingebettete Vektor- und LLM-Datenbank in einer Bibliothek	Apache 2.0

Vertiefender Vergleich: AnythingLLM vs PrivateGPT vs Open WebUI

6. Agenten-Frameworks & Orchestrierung

Agenten-Frameworks verwandeln One-Shot-LLM-Aufrufe in mehrstufige Workflows — planen, handeln, beobachten, wiederholen. LangChain bleibt der allgemeine Standard; CrewAI und AutoGen sind auf rollenbasierte Multi-Agenten-Setups spezialisiert; LangGraph ist die richtige Wahl, wenn Zustandsverwaltung über langläufige Abläufe hinweg wichtig ist. Alle acht Frameworks unten laufen problemlos mit einem lokalen Ollama-Backend.

Tool	Link	Beschreibung	Lizenz
LangChain	langchain.com	Universelles LLM-Anwendungsframework	MIT
LlamaIndex	llamaindex.ai	RAG-fokussiertes Agenten- und Daten-Framework	MIT
CrewAI	crewai.com	Rollenbasierte Multi-Agenten-Workflows	MIT
AutoGen	github.com/microsoft/autogen	Microsoft Multi-Agenten-Orchestrierungsframework	CC-BY-4.0 / MIT
Semantic Kernel	learn.microsoft.com/semantic-kernel	Microsoft Enterprise-Orchestrierungs-SDK für C#/Python/Java	MIT
LangGraph	langchain-ai.github.io/langgraph	Zustandsbasierte Graph-Agenten-Workflows	MIT
Letta (ehemals MemGPT)	letta.com	Agenten mit Langzeitgedächtnis	Apache 2.0
Pydantic AI	ai.pydantic.dev	Typsicheres Agenten-Framework auf Basis von Pydantic	MIT

Vertiefender Artikel: Lokale KI-Agenten mit MCP

7. Sprache, Spracherkennung & Multimodal

Sprach- und Multimodal-Stacks erweitern ein lokales LLM über Text hinaus — Spracheingabe (STT), Sprachausgabe (TTS) und Bildverständnis. Whisper.cpp und faster-whisper beherrschen die lokale STT-Schicht; Piper und Coqui teilen sich die TTS-Schicht, wobei XTTS v2 beim Voice-Cloning dominiert; LLaVA und Ollama Vision-Modelle decken die Bildseite ab. Ein vollständig offline betriebener Sprachassistent lässt sich aus dieser Schicht plus einem kleinen Chat-Modell aufbauen.

Tool	Link	Beschreibung	Lizenz
Whisper.cpp	github.com/ggerganov/whisper.cpp	Lokale Spracherkennung, läuft auf CPU oder GPU	MIT
faster-whisper	github.com/SYSTRAN/faster-whisper	Schnelle Whisper-Transkription via CTranslate2	MIT
Piper TTS	github.com/rhasspy/piper	Schlanke lokale Text-to-Speech-Lösung	MIT
Coqui TTS	coqui.ai	Open-Source-Sprachsynthese mit mehreren Modelloptionen	MPL 2.0
XTTS v2	docs.coqui.ai/en/latest/models/xtts.html	Voice-Cloning mit mehrsprachiger Unterstützung	CPML
Bark	github.com/suno-ai/bark	Generative Sprachsynthese mit Nicht-Sprach-Tönen	MIT
StyleTTS 2	github.com/yl4579/StyleTTS2	Hochwertige, natürlich klingende TTS	MIT
LLaVA	llava-vl.github.io	Lokales Vision-und-Sprache-Modell	Apache 2.0
Ollama Vision-Modelle	ollama.com	Lokales Vision via Ollama (Llama 3.2 Vision, Llava u. a.)	Verschiedene

Vertiefender Artikel: Lokalen Sprachassistenten auf dem Smartphone aufbauen

8. Mobile & Edge-Clients

Mobile-Clients führen ein quantisiertes Modell direkt auf dem Smartphone aus — über Apple Neural Engine, Qualcomm NPU oder reine CPU-Inferenz. Das MLC LLM-Projekt ist die grundlegende Schicht; Consumer-Apps (PocketPal AI, Private LLM, LLM Farm, Layla) kapseln sie in einer Chat-Oberfläche. Aktuelle Flagship-Smartphones führen 2026 2-4B-Modelle mit praxistauglichen Geschwindigkeiten (8–15 Token/Sek.) aus; 7B liegt an der Machbarkeitsgrenze für Spitzengeräte.

Tool	Link	Beschreibung	Lizenz
MLC Chat	mlc.ai/mlc-llm	Plattformübergreifende Mobile-LLM-Laufzeitumgebung	Apache 2.0
PocketPal AI	github.com/a-ghorbani/pocketpal-ai	Kostenloser iOS- und Android-Client für lokale LLMs	MIT
Private LLM	privatellm.app	Ausgereifte iOS- und macOS-App für lokale LLMs	Kostenpflichtig (proprietär)
LLM Farm	github.com/guinmoon/LLMFarm	iOS-Client für lokale LLMs mit Modell-Browser	MIT
Layla	layla-network.ai	Android-first App für lokale LLMs	Kostenlos (proprietär)
Maid	github.com/Mobile-Artificial-Intelligence/maid	Open-Source-Flutter-App für mobile LLMs	MIT
Enchanted	enchantedlabs.ai	Nativer iOS/macOS-Client für Ollama	MIT
Chapper	prevolut.uk	Nativer Mobile-Client für Ollama und LM Studio	Kostenlos
RikkaHub	github.com/rikkahub/rikkahub	Open-Source Android-App für lokale KI	MIT
AnythingLLM Mobile	anythingllm.com	Fernzugriff auf Ihren lokalen AnythingLLM-Arbeitsbereich	MIT

Vertiefender Artikel: Die besten lokalen LLM-Apps für iPhone in 2026

9. Spezialisierte & Produktivitätswerkzeuge

Spezialisierte Tools betten lokale LLMs in bereits genutzte Anwendungen ein — Notiz-Plattformen (Obsidian, Logseq, Joplin), autonome Aufgaben-Agenten (AutoGPT, BabyAGI, MetaGPT) und Rollenspiel-Frontends (Agnai, RisuAI). Dies sind keine generischen Chat-Oberflächen; es handelt sich um workflow-spezifische Integrationen, die voraussetzen, dass Sie bereits über eine Host-Anwendung und eine Laufzeitumgebung verfügen.

Tool	Link	Beschreibung	Lizenz
Smart Connections	github.com/brianpetro/obsidian-smart-connections	Obsidian-Plugin für semantische Suche und Chat	GPL 3.0
Copilot for Obsidian	github.com/logancyang/obsidian-copilot	Obsidian-Plugin für lokalen LLM-Chat	AGPL 3.0
Text Generator	github.com/nhaouari/obsidian-textgenerator-plugin	Obsidian-Plugin zur Inhaltsgenerierung	MIT
logseq-copilot	github.com/logancyang/logseq-copilot	Logseq-Plugin für lokalen und Cloud-LLM-Chat, gleicher Autor wie Obsidian Copilot	AGPL 3.0
BMO Chatbot	github.com/longy2k/obsidian-bmo-chatbot	Obsidian-Chatbot mit lokalem LLM	MIT
Joplin AI	joplinapp.org	Joplin-Notizen mit lokalen KI-Integrationen	MIT
AutoGPT (lokal)	github.com/Significant-Gravitas/AutoGPT	Autonomer Aufgaben-Agent mit Ollama-Unterstützung	MIT
BabyAGI	github.com/yoheinakajima/babyagi	Schlanker autonomer Agent	MIT
MetaGPT	github.com/geekan/MetaGPT	Multi-Agenten-Simulation eines Software-Unternehmens	MIT
Agnai	agnai.chat	Rollenspiel-Frontend mit Charakter-Karten	MIT
RisuAI	github.com/kwaroran/RisuAI	Mobilfreundliches Rollenspiel-Frontend	GPL 3.0

Vertiefender Artikel: Lokale LLMs mit Obsidian in 2026

Praktische Einsatz-Stacks

Für Leserinnen und Leser, die nicht alle neun Kategorien durcharbeiten möchten: Wählen Sie den nächstpassenden Stack und übernehmen Sie ihn. Jede Zeile verbindet ein konkretes Ziel mit einer bewährten Kombination und der tatsächlichen Hardware-Mindestanforderung.

Ziel	Stack	Hardware-Mindestanforderung
Einfacher Chat	LM Studio standalone	16 GB RAM, keine GPU erforderlich
Bestes Gleichgewicht für Power-User	Ollama + Open WebUI	16 GB RAM, GPU optional
Dokumenten-Chat	Ollama + AnythingLLM	16 GB RAM, GPU optional
Coding	Ollama + Continue.dev	16 GB RAM + GPU empfohlen
Rollenspiel / Kreatives Schreiben	KoboldCpp + SillyTavern	16 GB RAM, GPU empfohlen
Datenschutz-kritischer Einsatz	Ollama + Open WebUI + PrivateGPT	32 GB RAM + 12 GB VRAM
Mobile / Unterwegs	MLC Chat oder PocketPal AI	iPhone 13+ / Pixel 7+
Apple Silicon	Ollama (MLX-Backend) oder LM Studio	M2/M3/M4/M5 mit 16+ GB Unified Memory
Multi-User-Team	vLLM + Open WebUI	32+ GB RAM + mehrere GPUs

Aktualität des Verzeichnisses

Dieses Verzeichnis wird alle sechs Monate überprüft (nächste Aktualisierung: November 2026). Aufnahmekriterien: Das Projekt wird aktiv gepflegt (Commits in den letzten 90 Tagen), verfügt über eine nachweisbare Open-Source-Lizenz oder eine klare Aussage zur kommerziellen Nutzbarkeit, und hat entweder einen relevanten Nutzeranteil im Jahr 2026 oder füllt eine Schicht aus, die sonst leer bliebe. Projekte, die länger als zwei Release-Zyklen inaktiv bleiben, werden entfernt; neue Einträge, die die Kriterien erfüllen, werden bei der nächsten Überprüfung aufgenommen. Einen Vorschlag für die Aufnahme können Sie über ein Issue oder einen Pull Request im PromptQuorum-Repository einreichen — bitte Projekt-URL, Lizenz und eine Kurzbeschreibung im Format der Tabellen oben beifügen. Hinweis für DACH-Unternehmen: Für Organisationen in Deutschland, Österreich und der Schweiz empfiehlt sich der Einsatz von Tools mit MIT- oder Apache-2.0-Lizenz, da diese die klarste Rechtsgrundlage für den kommerziellen Einsatz bieten. Bei der Verarbeitung personenbezogener Daten ist zu prüfen, ob lokale Inferenz als Auftragsverarbeitung im Sinne von Art. 28 DSGVO einzustufen ist — in der Regel liegt sie außerhalb des Anwendungsbereichs, solange keine Daten das lokale System verlassen. Der BSI-Grundschutz-Katalog (insbesondere die Bausteine SYS und APP) bietet einen praxisnahen Rahmen für die Absicherung von Self-Hosted-LLM-Infrastruktur in deutschen Unternehmen.

Quellen

ggml-org/llama.cpp GitHub — Primärquelle für Laufzeitarchitektur und unterstützte Modelle.
Ollama Library — Offizieller Modellkatalog und Laufzeitdokumentation.
LM Studio Documentation — Funktionsreferenz für die marktführende Desktop-GUI.
Open WebUI Documentation — Funktionsreferenz für das marktführende Self-Hosted-Web-UI.
Hugging Face Hub — Primäre Bezugsquelle für Modellgewichte, die von jeder der oben aufgeführten Laufzeitumgebungen genutzt werden.
awesome-local-llm GitHub-Liste — Community-gepflegtes Inventar, das als Plausibilitätsprüfung für die Projektaufnahme dient.

FAQ

Was ist der Unterschied zwischen einer lokalen LLM-Laufzeitumgebung und einer Desktop-App?

Eine Laufzeitumgebung (Ollama, llama.cpp, vLLM) ist die Engine, die Modellgewichte lädt und eine API bereitstellt — typischerweise OpenAI-kompatibel. Eine Desktop-App (LM Studio, Jan, GPT4All) ist eine Chat-Oberfläche, die im Hintergrund eine Laufzeitumgebung aufruft. Manche Apps bündeln ihre eigene Laufzeit (LM Studio enthält llama.cpp), andere setzen eine separate Installation voraus (Open WebUI ruft Ollama auf). Die Laufzeitumgebung entscheidet, was technisch möglich ist; die App entscheidet, was bequem nutzbar ist.

Kann ich mehrere Tools aus dieser Liste gleichzeitig verwenden?

Ja — die meisten Stacks kombinieren 2–4 Tools. Ein verbreitetes Setup: Ollama als Laufzeitumgebung, Open WebUI für den Chat, AnythingLLM für den Dokumenten-Chat und Continue.dev für das Coding — alle vier laufen gegen dieselbe Ollama-Instanz auf einem einzigen Rechner. Die Tabelle „Praktische Einsatz-Stacks" oben nennt die Rezepte, die konfliktfrei funktionieren.

Welche Tools funktionieren vollständig offline ohne Telemetrie?

Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM und die meisten AGPL/MIT-lizenzierten Apps in diesem Verzeichnis sind nach dem Modell-Download vollständig offline nutzbar. LM Studio und einige proprietäre Tools verfügen über optionale Analysefunktionen, die in den Einstellungen deaktiviert werden können — überprüfen Sie dies durch einen Paketmitschnitt nach der Installation. Browser-basierte UIs (Open WebUI, LibreChat) sind lokal, wenn sie mit einem lokalen Backend konfiguriert sind.

Sind einige dieser Tools kommerziell lizenziert (nicht frei für kommerzielle Nutzung)?

Eine Handvoll: LM Studio, Msty, Faraday, Layla und Cursor sind proprietär — in der Regel kostenlos nutzbar, aber nicht weiterverteilbar; kommerzielle Konditionen variieren je Anbieter. Private LLM ist kostenpflichtig. AGPL-lizenzierte Tools (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) sind für jeden Zweck einschließlich kommerzieller Nutzung frei, die AGPL-Bedingungen verlangen jedoch Quelloffenlegung, wenn Sie sie modifiziert öffentlich hosten. Apache-2.0- und MIT-Projekte (die Mehrheit) sind in jedem Kontext einschließlich kommerzieller Nutzung ohne wesentliche Auflagen verwendbar.

Welche Tools unterstützen Apple Silicon (M-Serie) nativ?

Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM und die meisten Electron/Tauri-Apps laufen nativ auf Apple Silicon und nutzen das Metal-Backend. MLX-LM ist Apple-spezifisch und auf M-Series-Geräten für große Modelle am schnellsten. vLLM, TensorRT-LLM und ExLlamaV2 sind NVIDIA-fokussiert und laufen auf Apple Silicon entweder nicht oder nur eingeschränkt — für Apple-Nutzer ist Ollama mit Metal-Backend die Standardempfehlung.

Unterstützen alle diese Tools das GGUF-Modellformat?

GGUF ist das native Format für llama.cpp und alle Tools, die darauf aufbauen (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM und TensorRT-LLM verwenden eigene optimierte Formate (typischerweise AWQ oder FP16) für höheren Durchsatz. ExLlamaV2 nutzt EXL2-Quantisierung. MLX-LM verwendet MLX-konvertierte Gewichte. Die meisten aufgeführten Tools akzeptieren GGUF; einige (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) erfordern einen einmaligen Konvertierungsschritt aus den originalen Hugging Face-Gewichten.

Welche Tools eignen sich für Nutzerinnen und Nutzer ohne Programmiererfahrung?

GPT4All bietet die einfachste Installation (ein Klick, läuft ab 8 GB RAM). LM Studio ist das funktionsreichste Tool ohne Terminal-Nutzung. Jan ist die datenschutzfreundlichste No-Code-Option. Für Dokumenten-Chat ohne Kommandozeile ist AnythingLLM am einfachsten. Alle vier sind in der Kategorie Desktop-GUI-Anwendungen oben aufgeführt.

Kann ich diese Tools auf einem Server betreiben und remote darauf zugreifen?

Die meisten Server-fähigen Tools (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) stellen eine HTTP-API bereit und binden an eine in den Einstellungen konfigurierbare Netzwerkschnittstelle. Standardmuster: Ollama auf einem Heimserver oder VPS betreiben, eine UI auf Laptop oder Smartphone, die auf die Server-IP zeigt. Behandeln Sie die API wie jeden Webdienst — binden Sie sie an localhost hinter einem Reverse-Proxy oder an ein privates Netzwerk mit geeigneter Authentifizierung. Open WebUI enthält Multi-User-Unterstützung von Haus aus.

Welche Tools unterstützen Multi-User- / Team-Setups?

Open WebUI, LibreChat, h2oGPT, AnythingLLM (mit aktivierten Admin-Funktionen) und Dify sind für den Multi-User-Einsatz ausgelegt, mit rollenbasiertem Zugriff und nutzerspezifischem Gesprächsverlauf. vLLM ist die richtige Serving-Schicht darunter, wenn gleichzeitige Inferenz relevant ist — es bündelt Anfragen mehrerer Nutzer für einen Durchsatz, der mit Ollama bei mehr als ~3 gleichzeitigen Anfragen nicht erreichbar ist.

Wie häufig wird dieses Verzeichnis aktualisiert?

Alle sechs Monate — die nächste planmäßige Aktualisierung ist im November 2026. Zwischenzeitliche Änderungen (ein Projekt wird inaktiv, ein neues Tool gewinnt relevanten Marktanteil, eine Lizenz ändert sich) werden als Patch in den bestehenden Eintrag eingepflegt. Vollständig neue Kategorien oder Schichten warten auf die Überarbeitung, um die Struktur stabil zu halten.

Muss ich bei der Verwendung dieser Tools die DSGVO beachten?

Das hängt davon ab, welche Daten Sie verarbeiten. Lokale Inferenz — d. h. Modell und Daten verbleiben auf Ihrem eigenen System — ist datenschutzrechtlich grundsätzlich vorteilhaft, weil keine personenbezogenen Daten an externe Server übertragen werden. Verarbeiten Sie dennoch personenbezogene Daten (z. B. Kundendokumente, Mitarbeiterdaten), gelten die DSGVO-Grundsätze (Art. 5–11) sowie ggf. Art. 28 (Auftragsverarbeitung), falls ein Dienstleister die Infrastruktur betreibt. Der BSI-Grundschutz-Katalog (Bausteine SYS.1.1 und APP.3.1) bietet einen praxisnahen Sicherheitsrahmen für Self-Hosted-LLM-Systeme in deutschen Organisationen. Für eine rechtsverbindliche Einschätzung sollten Sie einen auf DSGVO spezialisierten Rechtsanwalt oder Datenschutzbeauftragten hinzuziehen.

Sind diese Tools für den deutschen Mittelstand geeignet?

Ja — für mittelständische Unternehmen in Deutschland, Österreich und der Schweiz bieten lokale LLM-Stacks konkrete Vorteile: Datensouveränität (keine Cloud-Abhängigkeit, keine Datenübermittlung an US-Anbieter), planbare Kosten (keine token-basierten Nutzungsgebühren) und Anpassbarkeit (Feinabstimmung auf Branchensprache möglich). Empfohlene Einstiegskonfiguration für den Mittelstand: Ollama als Laufzeitumgebung, Open WebUI für den Team-Chat, AnythingLLM für interne Wissensdatenbanken. Für IT-Sicherheitsanforderungen nach BSI-Grundschutz empfiehlt sich der Einsatz von Tools mit MIT- oder Apache-2.0-Lizenz und eine Netzwerksegmentierung des LLM-Servers vom Produktionsnetz.

Das vollständige lokale LLM Software-Verzeichnis: 70+ Tools für KI auf eigener Hardware (2026)