Wichtigste Erkenntnisse
- Neun Schichten, 87 Projekte, eine Übersichtskarte. Laufzeitumgebungen, Desktop-Apps, Web-UIs, Coding-Assistenten, RAG-Systeme, Agenten-Frameworks, Sprache/Multimodal, Mobile-Clients und spezialisierte Produktivitäts-Plugins — fast jedes bekannte Projekt aus 2026 lässt sich exakt einer dieser Schichten zuordnen.
- Wählen Sie zuerst eine Laufzeitumgebung. Ollama ist für ~95 % der Leserinnen und Leser die richtige Standardwahl; llama.cpp ist die grundlegende Engine hinter den meisten anderen Tools; vLLM ist die Produktionsalternative für Multi-User-Setups auf echten GPUs.
- Die meisten Schichten oberhalb der Laufzeitumgebung sind optional. Eine Desktop-App ODER ein Web-UI reicht für den Chat aus. Fügen Sie eine Coding-Integration nur dann hinzu, wenn Sie IDE-Integration benötigen; ein RAG-System nur dann, wenn Sie mit eigenen Dokumenten chatten möchten; ein Agenten-Framework nur dann, wenn One-Shot-Aufrufe nicht mehr ausreichen.
- Lizenzen sind relevant für den kommerziellen Einsatz. MIT und Apache 2.0 dominieren das Ökosystem. AGPL findet sich bei einigen UIs (text-generation-webui, KoboldCpp, Jan, SillyTavern) — für den Privatgebrauch unproblematisch, bei kommerziellen Deployments sorgfältig prüfen. Die Spalte „Lizenz" unten benennt jede Lizenz explizit.
- Multi-Tool-Stacks sind die Norm. Ollama + Open WebUI + AnythingLLM + Continue.dev ist ein Single-Machine-Setup, das Chat, RAG und Coding ohne Kompromisse abdeckt. Die Tabelle „Praktische Einsatz-Stacks" unten nennt die Rezepte, die in 2026 tatsächlich funktionieren.
1. Lokale LLM-Laufzeitumgebungen & Inferenz-Engines
Eine Laufzeitumgebung ist die Engine, die Modellgewichte in den Speicher lädt und Eingaben in Token umwandelt. Sie ist die erste Entscheidung in einem lokalen LLM-Stack und schränkt alles darüber ein — jede Desktop-App, jedes Web-UI und jede Coding-Integration ruft letztlich eine Laufzeitumgebung auf. Ollama dominiert 2026 den nutzerseitigen Marktanteil, weil es eine OpenAI-kompatible API und eine Ein-Befehl-Installation mitbringt; llama.cpp ist die C++-Engine unter den meisten anderen Tools; vLLM ist die richtige Wahl, wenn Sie gleichzeitige Anfragen mehrerer Nutzer auf einer echten GPU bedienen müssen.
| Tool | Link | Beschreibung | Lizenz |
|---|---|---|---|
| Ollama | ollama.com | Einfachster Einstieg — Ein-Befehl-Installation, OpenAI-kompatible API, umfangreiche Modellbibliothek | MIT |
| llama.cpp | github.com/ggml-org/llama.cpp | Grundlegende C++-Engine hinter den meisten anderen Tools, läuft überall einschließlich Apple Silicon | MIT |
| vLLM | github.com/vllm-project/vllm | Hochdurchsatz-Serving für Multi-User-GPU-Deployments | Apache 2.0 |
| LocalAI | localai.io | Drop-in-Ersatz für die OpenAI API, unterstützt mehrere Backends | MIT |
| TensorRT-LLM | github.com/NVIDIA/TensorRT-LLM | NVIDIA-optimierte Inferenz für Enterprise-GPU-Setups | Apache 2.0 |
| MLC LLM | mlc.ai/mlc-llm | Laufzeitumgebung für Mobile- und Edge-Geräte | Apache 2.0 |
| SGLang | github.com/sgl-project/sglang | Strukturiertes Inferenz-Serving für Agenten-Pipelines | Apache 2.0 |
| ExLlamaV2 | github.com/turboderp-org/exllamav2 | Schnelle quantisierte Inferenz, optimiert für RTX-GPUs | MIT |
| KoboldCpp | github.com/LostRuins/koboldcpp | Schlanker llama.cpp-Wrapper mit integrierter Benutzeroberfläche | AGPL 3.0 |
| Llamafile | github.com/Mozilla-Ocho/llamafile | Portable Ein-Datei-LLM-Ausführung von Mozilla | Apache 2.0 |
| MLX-LM | github.com/ml-explore/mlx-examples | Apple-Silicon-native Laufzeitumgebung von Apple Research | MIT |
Vertiefender Vergleich: llama.cpp vs Ollama vs vLLM
2. Desktop-GUI-Anwendungen
Desktop-Apps kapseln eine Laufzeitumgebung in einer Chat-Oberfläche und einem Modell-Browser. Hier steigen die meisten nicht-technischen Anwenderinnen und Anwender ein, weil kein Terminal-Schritt nötig ist — herunterladen, klicken, chatten. LM Studio, Jan und GPT4All halten 2026 den Großteil der Nutzerbasis; AnythingLLM fungiert gleichzeitig als Desktop-App und RAG-Schicht; Open Interpreter ist der Sonderfall, der einem lokalen Modell erlaubt, Ihren Computer zu steuern.
| Tool | Link | Beschreibung | Lizenz |
|---|---|---|---|
| LM Studio | lmstudio.ai | Ausgereifteste GUI, integrierter HuggingFace-Modell-Browser, Server-Modus | Kostenlos (proprietär) |
| Jan | jan.ai | Datenschutzorientierter Offline-ChatGPT-Klon, vollständig quelloffen | AGPL 3.0 |
| GPT4All | nomic.ai/gpt4all | Einsteigerfreundlich mit starker CPU-only-Unterstützung | MIT |
| AnythingLLM | anythingllm.com | RAG und Dokumenten-Chat mit integriertem Vektorspeicher | MIT |
| Msty | msty.app | Übersichtliche Consumer-UX, Multi-Provider-Unterstützung | Kostenlos (proprietär) |
| Cherry Studio | cherry-ai.com | Multi-Provider-Desktop-KI mit umfangreicher Anpassbarkeit | Apache 2.0 |
| Faraday | faraday.dev | Desktop-Client für Charakter-Chat und Rollenspiel | Kostenlos (proprietär) |
| Enchanted | enchantedlabs.ai | Nativer macOS/iOS-Minimal-Client für Ollama | MIT |
| h2oGPT | github.com/h2oai/h2ogpt | Funktionsreiche Enterprise-Desktop- und Serveranwendung | Apache 2.0 |
| Open Interpreter | github.com/OpenInterpreter/open-interpreter | Erlaubt einem lokalen LLM, Ihren Computer zu steuern und Code auszuführen | AGPL 3.0 |
Vertiefender Vergleich: LM Studio vs Jan vs GPT4All
3. Web-UIs & Browser-Frontends
Web-UIs sind selbst gehostete ChatGPT-Klone — gleiche Konversationsoberfläche, aber Sie richten sie auf eine Laufzeitumgebung auf Ihrem eigenen Rechner oder LAN. Sie sind die natürliche Wahl, wenn Sie Multi-Geräte-Zugriff (Laptop, Smartphone, Tablet auf einem Server) oder Team-Nutzung wünschen. Open WebUI dominiert 2026 das Self-Hosting-Segment; LibreChat ist die Team-Feature-Alternative; SillyTavern ist das dedizierte Rollenspiel-UI.
| Tool | Link | Beschreibung | Lizenz |
|---|---|---|---|
| Open WebUI | openwebui.com | Beliebtestes selbst gehostetes ChatGPT-ähnliches UI mit integriertem RAG | BSD 3-Clause |
| LibreChat | librechat.ai | Multi-Modell-ChatGPT-Alternative mit Team-Funktionen | MIT |
| text-generation-webui | github.com/oobabooga/text-generation-webui | Power-User-UI mit umfangreichem Plugin-Ökosystem | AGPL 3.0 |
| SillyTavern | github.com/SillyTavern/SillyTavern | Rollenspiel und Charakter-Chat mit Lorebooks | AGPL 3.0 |
| LobeChat | lobehub.com | Moderne, übersichtliche UI mit Plugin-Marktplatz | MIT |
| Big-AGI | github.com/enricoros/big-AGI | Erweitertes Multi-Provider-Frontend mit Personas | MIT |
| NextChat | github.com/ChatGPTNextWeb/NextChat | Schlanker Web-Chat, einfaches Deployment | MIT |
| Page Assist | github.com/n4ze3m/page-assist | Browser-Sidebar-KI für Chrome und Firefox | MIT |
| Chatbox | chatboxai.app | Plattformübergreifender Desktop- und Web-Client | GPLv3 |
Vertiefender Vergleich: SillyTavern vs Agnai vs RisuAI
4. Coding-Assistenten & IDE-Integrationen
Coding-Assistenten verbinden ein lokales LLM über OpenAI-kompatible APIs mit Ihrem Editor oder Terminal. Die Wahl hängt hauptsächlich vom bevorzugten Arbeitsablauf ab: Autovervollständigung im Editor (Continue.dev), autonome Agenten-Edits (Cline, OpenHands) oder git-natives Diff-Editing im Terminal (Aider). Alle drei Muster funktionieren mit jeder Laufzeitumgebung, die das OpenAI Chat Completions-Protokoll unterstützt — Ollama ist 2026 das verbreitetste Backend.
| Tool | Link | Beschreibung | Lizenz |
|---|---|---|---|
| Continue.dev | continue.dev | VS Code- und JetBrains-Autovervollständigung und Chat mit lokalen Modellen | Apache 2.0 |
| Aider | aider.chat | Terminal-Pair-Programmer mit Multi-Datei-Bearbeitungsunterstützung | Apache 2.0 |
| Cline | cline.bot | Autonomer Coding-Agent für VS Code | Apache 2.0 |
| Tabby | tabby.tabbyml.com | Selbst gehostete GitHub Copilot-Alternative | Apache 2.0 |
| CodeGPT | codegpt.co | IDE-Integrationen für mehrere Editoren | MIT |
| OpenHands | github.com/All-Hands-AI/OpenHands | KI-Software-Entwickler-Agent (ehemals OpenDevin) | MIT |
| Cursor (lokaler Modus) | cursor.com | KI-first Code-Editor mit Unterstützung lokaler Modelle | Kostenlos (proprietär) |
| Twinny | github.com/twinnydotdev/twinny | Kostenlose Copilot-Alternative für VS Code | MIT |
Vertiefender Vergleich: Continue.dev vs Cline vs Aider
5. RAG- & Dokumenten-Chat-Systeme
RAG (Retrieval-Augmented Generation)-Systeme verbinden ein lokales LLM mit einem Embedding-Modell und einem Vektorspeicher, damit das Modell aus Ihren eigenen Dokumenten antworten kann.** Die Unterscheidung liegt zwischen schlüsselfertigen Apps (AnythingLLM, PrivateGPT, Quivr, Khoj), die „einfach funktionieren", und Framework-Bibliotheken (LlamaIndex, Haystack, txtai), auf denen Sie aufbauen. RAGFlow hat 2026 Marktanteile gewonnen, speziell für Dokumente, die zitiergenaue Extraktion erfordern.
| Tool | Link | Beschreibung | Lizenz |
|---|---|---|---|
| AnythingLLM | anythingllm.com | Einfachstes All-in-One-Personal-RAG mit Arbeitsbereichen | MIT |
| PrivateGPT | github.com/zylon-ai/private-gpt | Vollständig offline betreibbares, enterprise-orientiertes RAG | Apache 2.0 |
| Quivr | github.com/QuivrHQ/quivr | Selbst gehosteter persönlicher Wissensassistent | Apache 2.0 |
| Khoj | khoj.dev | Persönliches KI-Second-Brain, synchronisiert mit Obsidian und Notion | AGPL 3.0 |
| Dify | dify.ai | KI-Workflow-Builder mit RAG- und Agenten-Unterstützung | Modified Apache 2.0 |
| Flowise | flowiseai.com | Visueller LangChain-Workflow-Builder | Apache 2.0 |
| Langflow | langflow.org | Visuelle KI-Orchestrierung mit RAG-Komponenten | MIT |
| LlamaIndex | llamaindex.ai | RAG-Framework / Python-Bibliothek — Grundlage für eigene Entwicklungen | MIT |
| Haystack | haystack.deepset.ai | Such- und RAG-Framework von deepset | Apache 2.0 |
| RAGFlow | ragflow.io | Tiefes Dokumentenverständnis für RAG mit Zitat-Extraktion | Apache 2.0 |
| txtai | github.com/neuml/txtai | Eingebettete Vektor- und LLM-Datenbank in einer Bibliothek | Apache 2.0 |
Vertiefender Vergleich: AnythingLLM vs PrivateGPT vs Open WebUI
6. Agenten-Frameworks & Orchestrierung
Agenten-Frameworks verwandeln One-Shot-LLM-Aufrufe in mehrstufige Workflows — planen, handeln, beobachten, wiederholen. LangChain bleibt der allgemeine Standard; CrewAI und AutoGen sind auf rollenbasierte Multi-Agenten-Setups spezialisiert; LangGraph ist die richtige Wahl, wenn Zustandsverwaltung über langläufige Abläufe hinweg wichtig ist. Alle acht Frameworks unten laufen problemlos mit einem lokalen Ollama-Backend.
| Tool | Link | Beschreibung | Lizenz |
|---|---|---|---|
| LangChain | langchain.com | Universelles LLM-Anwendungsframework | MIT |
| LlamaIndex | llamaindex.ai | RAG-fokussiertes Agenten- und Daten-Framework | MIT |
| CrewAI | crewai.com | Rollenbasierte Multi-Agenten-Workflows | MIT |
| AutoGen | github.com/microsoft/autogen | Microsoft Multi-Agenten-Orchestrierungsframework | CC-BY-4.0 / MIT |
| Semantic Kernel | learn.microsoft.com/semantic-kernel | Microsoft Enterprise-Orchestrierungs-SDK für C#/Python/Java | MIT |
| LangGraph | langchain-ai.github.io/langgraph | Zustandsbasierte Graph-Agenten-Workflows | MIT |
| Letta (ehemals MemGPT) | letta.com | Agenten mit Langzeitgedächtnis | Apache 2.0 |
| Pydantic AI | ai.pydantic.dev | Typsicheres Agenten-Framework auf Basis von Pydantic | MIT |
Vertiefender Artikel: Lokale KI-Agenten mit MCP
7. Sprache, Spracherkennung & Multimodal
Sprach- und Multimodal-Stacks erweitern ein lokales LLM über Text hinaus — Spracheingabe (STT), Sprachausgabe (TTS) und Bildverständnis. Whisper.cpp und faster-whisper beherrschen die lokale STT-Schicht; Piper und Coqui teilen sich die TTS-Schicht, wobei XTTS v2 beim Voice-Cloning dominiert; LLaVA und Ollama Vision-Modelle decken die Bildseite ab. Ein vollständig offline betriebener Sprachassistent lässt sich aus dieser Schicht plus einem kleinen Chat-Modell aufbauen.
| Tool | Link | Beschreibung | Lizenz |
|---|---|---|---|
| Whisper.cpp | github.com/ggerganov/whisper.cpp | Lokale Spracherkennung, läuft auf CPU oder GPU | MIT |
| faster-whisper | github.com/SYSTRAN/faster-whisper | Schnelle Whisper-Transkription via CTranslate2 | MIT |
| Piper TTS | github.com/rhasspy/piper | Schlanke lokale Text-to-Speech-Lösung | MIT |
| Coqui TTS | coqui.ai | Open-Source-Sprachsynthese mit mehreren Modelloptionen | MPL 2.0 |
| XTTS v2 | docs.coqui.ai/en/latest/models/xtts.html | Voice-Cloning mit mehrsprachiger Unterstützung | CPML |
| Bark | github.com/suno-ai/bark | Generative Sprachsynthese mit Nicht-Sprach-Tönen | MIT |
| StyleTTS 2 | github.com/yl4579/StyleTTS2 | Hochwertige, natürlich klingende TTS | MIT |
| LLaVA | llava-vl.github.io | Lokales Vision-und-Sprache-Modell | Apache 2.0 |
| Ollama Vision-Modelle | ollama.com | Lokales Vision via Ollama (Llama 3.2 Vision, Llava u. a.) | Verschiedene |
Vertiefender Artikel: Lokalen Sprachassistenten auf dem Smartphone aufbauen
8. Mobile & Edge-Clients
Mobile-Clients führen ein quantisiertes Modell direkt auf dem Smartphone aus — über Apple Neural Engine, Qualcomm NPU oder reine CPU-Inferenz. Das MLC LLM-Projekt ist die grundlegende Schicht; Consumer-Apps (PocketPal AI, Private LLM, LLM Farm, Layla) kapseln sie in einer Chat-Oberfläche. Aktuelle Flagship-Smartphones führen 2026 2-4B-Modelle mit praxistauglichen Geschwindigkeiten (8–15 Token/Sek.) aus; 7B liegt an der Machbarkeitsgrenze für Spitzengeräte.
| Tool | Link | Beschreibung | Lizenz |
|---|---|---|---|
| MLC Chat | mlc.ai/mlc-llm | Plattformübergreifende Mobile-LLM-Laufzeitumgebung | Apache 2.0 |
| PocketPal AI | github.com/a-ghorbani/pocketpal-ai | Kostenloser iOS- und Android-Client für lokale LLMs | MIT |
| Private LLM | privatellm.app | Ausgereifte iOS- und macOS-App für lokale LLMs | Kostenpflichtig (proprietär) |
| LLM Farm | github.com/guinmoon/LLMFarm | iOS-Client für lokale LLMs mit Modell-Browser | MIT |
| Layla | layla-network.ai | Android-first App für lokale LLMs | Kostenlos (proprietär) |
| Maid | github.com/Mobile-Artificial-Intelligence/maid | Open-Source-Flutter-App für mobile LLMs | MIT |
| Enchanted | enchantedlabs.ai | Nativer iOS/macOS-Client für Ollama | MIT |
| Chapper | prevolut.uk | Nativer Mobile-Client für Ollama und LM Studio | Kostenlos |
| RikkaHub | github.com/rikkahub/rikkahub | Open-Source Android-App für lokale KI | MIT |
| AnythingLLM Mobile | anythingllm.com | Fernzugriff auf Ihren lokalen AnythingLLM-Arbeitsbereich | MIT |
Vertiefender Artikel: Die besten lokalen LLM-Apps für iPhone in 2026
9. Spezialisierte & Produktivitätswerkzeuge
Spezialisierte Tools betten lokale LLMs in bereits genutzte Anwendungen ein — Notiz-Plattformen (Obsidian, Logseq, Joplin), autonome Aufgaben-Agenten (AutoGPT, BabyAGI, MetaGPT) und Rollenspiel-Frontends (Agnai, RisuAI). Dies sind keine generischen Chat-Oberflächen; es handelt sich um workflow-spezifische Integrationen, die voraussetzen, dass Sie bereits über eine Host-Anwendung und eine Laufzeitumgebung verfügen.
| Tool | Link | Beschreibung | Lizenz |
|---|---|---|---|
| Smart Connections | github.com/brianpetro/obsidian-smart-connections | Obsidian-Plugin für semantische Suche und Chat | GPL 3.0 |
| Copilot for Obsidian | github.com/logancyang/obsidian-copilot | Obsidian-Plugin für lokalen LLM-Chat | AGPL 3.0 |
| Text Generator | github.com/nhaouari/obsidian-textgenerator-plugin | Obsidian-Plugin zur Inhaltsgenerierung | MIT |
| logseq-copilot | github.com/logancyang/logseq-copilot | Logseq-Plugin für lokalen und Cloud-LLM-Chat, gleicher Autor wie Obsidian Copilot | AGPL 3.0 |
| BMO Chatbot | github.com/longy2k/obsidian-bmo-chatbot | Obsidian-Chatbot mit lokalem LLM | MIT |
| Joplin AI | joplinapp.org | Joplin-Notizen mit lokalen KI-Integrationen | MIT |
| AutoGPT (lokal) | github.com/Significant-Gravitas/AutoGPT | Autonomer Aufgaben-Agent mit Ollama-Unterstützung | MIT |
| BabyAGI | github.com/yoheinakajima/babyagi | Schlanker autonomer Agent | MIT |
| MetaGPT | github.com/geekan/MetaGPT | Multi-Agenten-Simulation eines Software-Unternehmens | MIT |
| Agnai | agnai.chat | Rollenspiel-Frontend mit Charakter-Karten | MIT |
| RisuAI | github.com/kwaroran/RisuAI | Mobilfreundliches Rollenspiel-Frontend | GPL 3.0 |
Vertiefender Artikel: Lokale LLMs mit Obsidian in 2026
Praktische Einsatz-Stacks
Für Leserinnen und Leser, die nicht alle neun Kategorien durcharbeiten möchten: Wählen Sie den nächstpassenden Stack und übernehmen Sie ihn. Jede Zeile verbindet ein konkretes Ziel mit einer bewährten Kombination und der tatsächlichen Hardware-Mindestanforderung.
| Ziel | Stack | Hardware-Mindestanforderung |
|---|---|---|
| Einfacher Chat | LM Studio standalone | 16 GB RAM, keine GPU erforderlich |
| Bestes Gleichgewicht für Power-User | Ollama + Open WebUI | 16 GB RAM, GPU optional |
| Dokumenten-Chat | Ollama + AnythingLLM | 16 GB RAM, GPU optional |
| Coding | Ollama + Continue.dev | 16 GB RAM + GPU empfohlen |
| Rollenspiel / Kreatives Schreiben | KoboldCpp + SillyTavern | 16 GB RAM, GPU empfohlen |
| Datenschutz-kritischer Einsatz | Ollama + Open WebUI + PrivateGPT | 32 GB RAM + 12 GB VRAM |
| Mobile / Unterwegs | MLC Chat oder PocketPal AI | iPhone 13+ / Pixel 7+ |
| Apple Silicon | Ollama (MLX-Backend) oder LM Studio | M2/M3/M4/M5 mit 16+ GB Unified Memory |
| Multi-User-Team | vLLM + Open WebUI | 32+ GB RAM + mehrere GPUs |
Aktualität des Verzeichnisses
Dieses Verzeichnis wird alle sechs Monate überprüft (nächste Aktualisierung: November 2026). Aufnahmekriterien: Das Projekt wird aktiv gepflegt (Commits in den letzten 90 Tagen), verfügt über eine nachweisbare Open-Source-Lizenz oder eine klare Aussage zur kommerziellen Nutzbarkeit, und hat entweder einen relevanten Nutzeranteil im Jahr 2026 oder füllt eine Schicht aus, die sonst leer bliebe. Projekte, die länger als zwei Release-Zyklen inaktiv bleiben, werden entfernt; neue Einträge, die die Kriterien erfüllen, werden bei der nächsten Überprüfung aufgenommen. Einen Vorschlag für die Aufnahme können Sie über ein Issue oder einen Pull Request im PromptQuorum-Repository einreichen — bitte Projekt-URL, Lizenz und eine Kurzbeschreibung im Format der Tabellen oben beifügen. Hinweis für DACH-Unternehmen: Für Organisationen in Deutschland, Österreich und der Schweiz empfiehlt sich der Einsatz von Tools mit MIT- oder Apache-2.0-Lizenz, da diese die klarste Rechtsgrundlage für den kommerziellen Einsatz bieten. Bei der Verarbeitung personenbezogener Daten ist zu prüfen, ob lokale Inferenz als Auftragsverarbeitung im Sinne von Art. 28 DSGVO einzustufen ist — in der Regel liegt sie außerhalb des Anwendungsbereichs, solange keine Daten das lokale System verlassen. Der BSI-Grundschutz-Katalog (insbesondere die Bausteine SYS und APP) bietet einen praxisnahen Rahmen für die Absicherung von Self-Hosted-LLM-Infrastruktur in deutschen Unternehmen.
Quellen
- ggml-org/llama.cpp GitHub — Primärquelle für Laufzeitarchitektur und unterstützte Modelle.
- Ollama Library — Offizieller Modellkatalog und Laufzeitdokumentation.
- LM Studio Documentation — Funktionsreferenz für die marktführende Desktop-GUI.
- Open WebUI Documentation — Funktionsreferenz für das marktführende Self-Hosted-Web-UI.
- Hugging Face Hub — Primäre Bezugsquelle für Modellgewichte, die von jeder der oben aufgeführten Laufzeitumgebungen genutzt werden.
- awesome-local-llm GitHub-Liste — Community-gepflegtes Inventar, das als Plausibilitätsprüfung für die Projektaufnahme dient.
FAQ
Was ist der Unterschied zwischen einer lokalen LLM-Laufzeitumgebung und einer Desktop-App?
Eine Laufzeitumgebung (Ollama, llama.cpp, vLLM) ist die Engine, die Modellgewichte lädt und eine API bereitstellt — typischerweise OpenAI-kompatibel. Eine Desktop-App (LM Studio, Jan, GPT4All) ist eine Chat-Oberfläche, die im Hintergrund eine Laufzeitumgebung aufruft. Manche Apps bündeln ihre eigene Laufzeit (LM Studio enthält llama.cpp), andere setzen eine separate Installation voraus (Open WebUI ruft Ollama auf). Die Laufzeitumgebung entscheidet, was technisch möglich ist; die App entscheidet, was bequem nutzbar ist.
Kann ich mehrere Tools aus dieser Liste gleichzeitig verwenden?
Ja — die meisten Stacks kombinieren 2–4 Tools. Ein verbreitetes Setup: Ollama als Laufzeitumgebung, Open WebUI für den Chat, AnythingLLM für den Dokumenten-Chat und Continue.dev für das Coding — alle vier laufen gegen dieselbe Ollama-Instanz auf einem einzigen Rechner. Die Tabelle „Praktische Einsatz-Stacks" oben nennt die Rezepte, die konfliktfrei funktionieren.
Welche Tools funktionieren vollständig offline ohne Telemetrie?
Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM und die meisten AGPL/MIT-lizenzierten Apps in diesem Verzeichnis sind nach dem Modell-Download vollständig offline nutzbar. LM Studio und einige proprietäre Tools verfügen über optionale Analysefunktionen, die in den Einstellungen deaktiviert werden können — überprüfen Sie dies durch einen Paketmitschnitt nach der Installation. Browser-basierte UIs (Open WebUI, LibreChat) sind lokal, wenn sie mit einem lokalen Backend konfiguriert sind.
Sind einige dieser Tools kommerziell lizenziert (nicht frei für kommerzielle Nutzung)?
Eine Handvoll: LM Studio, Msty, Faraday, Layla und Cursor sind proprietär — in der Regel kostenlos nutzbar, aber nicht weiterverteilbar; kommerzielle Konditionen variieren je Anbieter. Private LLM ist kostenpflichtig. AGPL-lizenzierte Tools (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) sind für jeden Zweck einschließlich kommerzieller Nutzung frei, die AGPL-Bedingungen verlangen jedoch Quelloffenlegung, wenn Sie sie modifiziert öffentlich hosten. Apache-2.0- und MIT-Projekte (die Mehrheit) sind in jedem Kontext einschließlich kommerzieller Nutzung ohne wesentliche Auflagen verwendbar.
Welche Tools unterstützen Apple Silicon (M-Serie) nativ?
Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM und die meisten Electron/Tauri-Apps laufen nativ auf Apple Silicon und nutzen das Metal-Backend. MLX-LM ist Apple-spezifisch und auf M-Series-Geräten für große Modelle am schnellsten. vLLM, TensorRT-LLM und ExLlamaV2 sind NVIDIA-fokussiert und laufen auf Apple Silicon entweder nicht oder nur eingeschränkt — für Apple-Nutzer ist Ollama mit Metal-Backend die Standardempfehlung.
Unterstützen alle diese Tools das GGUF-Modellformat?
GGUF ist das native Format für llama.cpp und alle Tools, die darauf aufbauen (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM und TensorRT-LLM verwenden eigene optimierte Formate (typischerweise AWQ oder FP16) für höheren Durchsatz. ExLlamaV2 nutzt EXL2-Quantisierung. MLX-LM verwendet MLX-konvertierte Gewichte. Die meisten aufgeführten Tools akzeptieren GGUF; einige (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) erfordern einen einmaligen Konvertierungsschritt aus den originalen Hugging Face-Gewichten.
Welche Tools eignen sich für Nutzerinnen und Nutzer ohne Programmiererfahrung?
GPT4All bietet die einfachste Installation (ein Klick, läuft ab 8 GB RAM). LM Studio ist das funktionsreichste Tool ohne Terminal-Nutzung. Jan ist die datenschutzfreundlichste No-Code-Option. Für Dokumenten-Chat ohne Kommandozeile ist AnythingLLM am einfachsten. Alle vier sind in der Kategorie Desktop-GUI-Anwendungen oben aufgeführt.
Kann ich diese Tools auf einem Server betreiben und remote darauf zugreifen?
Die meisten Server-fähigen Tools (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) stellen eine HTTP-API bereit und binden an eine in den Einstellungen konfigurierbare Netzwerkschnittstelle. Standardmuster: Ollama auf einem Heimserver oder VPS betreiben, eine UI auf Laptop oder Smartphone, die auf die Server-IP zeigt. Behandeln Sie die API wie jeden Webdienst — binden Sie sie an localhost hinter einem Reverse-Proxy oder an ein privates Netzwerk mit geeigneter Authentifizierung. Open WebUI enthält Multi-User-Unterstützung von Haus aus.
Welche Tools unterstützen Multi-User- / Team-Setups?
Open WebUI, LibreChat, h2oGPT, AnythingLLM (mit aktivierten Admin-Funktionen) und Dify sind für den Multi-User-Einsatz ausgelegt, mit rollenbasiertem Zugriff und nutzerspezifischem Gesprächsverlauf. vLLM ist die richtige Serving-Schicht darunter, wenn gleichzeitige Inferenz relevant ist — es bündelt Anfragen mehrerer Nutzer für einen Durchsatz, der mit Ollama bei mehr als ~3 gleichzeitigen Anfragen nicht erreichbar ist.
Wie häufig wird dieses Verzeichnis aktualisiert?
Alle sechs Monate — die nächste planmäßige Aktualisierung ist im November 2026. Zwischenzeitliche Änderungen (ein Projekt wird inaktiv, ein neues Tool gewinnt relevanten Marktanteil, eine Lizenz ändert sich) werden als Patch in den bestehenden Eintrag eingepflegt. Vollständig neue Kategorien oder Schichten warten auf die Überarbeitung, um die Struktur stabil zu halten.
Muss ich bei der Verwendung dieser Tools die DSGVO beachten?
Das hängt davon ab, welche Daten Sie verarbeiten. Lokale Inferenz — d. h. Modell und Daten verbleiben auf Ihrem eigenen System — ist datenschutzrechtlich grundsätzlich vorteilhaft, weil keine personenbezogenen Daten an externe Server übertragen werden. Verarbeiten Sie dennoch personenbezogene Daten (z. B. Kundendokumente, Mitarbeiterdaten), gelten die DSGVO-Grundsätze (Art. 5–11) sowie ggf. Art. 28 (Auftragsverarbeitung), falls ein Dienstleister die Infrastruktur betreibt. Der BSI-Grundschutz-Katalog (Bausteine SYS.1.1 und APP.3.1) bietet einen praxisnahen Sicherheitsrahmen für Self-Hosted-LLM-Systeme in deutschen Organisationen. Für eine rechtsverbindliche Einschätzung sollten Sie einen auf DSGVO spezialisierten Rechtsanwalt oder Datenschutzbeauftragten hinzuziehen.
Sind diese Tools für den deutschen Mittelstand geeignet?
Ja — für mittelständische Unternehmen in Deutschland, Österreich und der Schweiz bieten lokale LLM-Stacks konkrete Vorteile: Datensouveränität (keine Cloud-Abhängigkeit, keine Datenübermittlung an US-Anbieter), planbare Kosten (keine token-basierten Nutzungsgebühren) und Anpassbarkeit (Feinabstimmung auf Branchensprache möglich). Empfohlene Einstiegskonfiguration für den Mittelstand: Ollama als Laufzeitumgebung, Open WebUI für den Team-Chat, AnythingLLM für interne Wissensdatenbanken. Für IT-Sicherheitsanforderungen nach BSI-Grundschutz empfiehlt sich der Einsatz von Tools mit MIT- oder Apache-2.0-Lizenz und eine Netzwerksegmentierung des LLM-Servers vom Produktionsnetz.