PromptQuorumPromptQuorum
Accueil/Power Local LLM/Le répertoire complet des logiciels LLM locaux : 70+ outils pour faire tourner l'IA sur votre propre matériel (2026)
Overview & Reference

Le répertoire complet des logiciels LLM locaux : 70+ outils pour faire tourner l'IA sur votre propre matériel (2026)

·20 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

L'écosystème LLM local 2026 se divise clairement en neuf couches. Les runtimes (Ollama, llama.cpp, vLLM) font circuler les tokens à travers le modèle ; les applications bureau (LM Studio, Jan, GPT4All) encapsulent un runtime dans une interface de chat ; les interfaces web (Open WebUI, LibreChat) font de même dans le navigateur ; les assistants de codage (Continue.dev, Cline, Aider) connectent un modèle local à votre éditeur ; les systèmes RAG (AnythingLLM, PrivateGPT) l'orientent vers vos documents ; les frameworks d'agents (LangChain, CrewAI, LangGraph) enchaînent les appels en workflows multi-étapes ; les stacks voix et multimodal (Whisper.cpp, Piper, LLaVA) étendent le tout au-delà du texte ; les clients mobiles (MLC Chat, PocketPal AI) le mettent sur téléphone ; et les plugins spécialisés (Obsidian, Logseq, AutoGPT) l'intègrent dans vos outils existants. Choisissez d'abord un runtime (Ollama pour presque tout le monde), puis ajoutez une ou deux couches au-dessus.**

L'écosystème LLM local en 2026 est assez vaste pour que le mauvais choix initial coûte des heures. Ce répertoire recense 87 projets activement maintenus en neuf couches — runtimes, applications bureau, interfaces web, assistants de codage, systèmes RAG, frameworks d'agents, voix et multimodal, clients mobiles, plugins de productivité — avec description, licence et URL pour chacun. Utilisez-le comme carte d'orientation avant de vous engager dans une stack.

Points clés

  • Neuf couches, 87 projets, une carte. Runtimes, applications bureau, interfaces web, assistants de codage, systèmes RAG, frameworks d'agents, voix/multimodal, clients mobiles et plugins de productivité — presque tous les projets populaires de 2026 s'inscrivent dans exactement une couche.
  • Choisissez d'abord un runtime. Ollama est la valeur par défaut pour ~95 % des utilisateurs ; llama.cpp est le moteur fondateur derrière la plupart des autres outils ; vLLM est le choix de production pour les déploiements multi-utilisateurs sur GPU.
  • La plupart des couches au-dessus du runtime sont optionnelles. Une application bureau OU une interface web suffit pour le chat. Ajoutez un assistant de codage uniquement si vous souhaitez une intégration IDE ; un système RAG uniquement pour interroger vos documents.
  • La licence compte pour un usage commercial. MIT et Apache 2.0 dominent l'écosystème. AGPL apparaît sur quelques interfaces (text-generation-webui, KoboldCpp, Jan, SillyTavern) — acceptable pour un usage personnel, à examiner avec soin pour un déploiement commercial.
  • Les stacks multi-outils sont la norme. Ollama + Open WebUI + AnythingLLM + Continue.dev couvre le chat, le RAG et le codage sur une seule machine. Le tableau « Stacks courants en production » ci-dessous liste les recettes qui fonctionnent réellement en 2026.

1. Runtimes & moteurs d'inférence LLM locaux

Un runtime est le moteur qui charge les poids du modèle en mémoire et transforme les invites en tokens. C'est le premier choix d'une stack LLM locale et celui qui conditionne tout ce qui se trouve au-dessus. Ollama domine la part de marché en 2026 grâce à son API compatible OpenAI et son installation en une commande ; llama.cpp est le moteur C++ sous-jacent à la plupart des autres outils ; vLLM est le choix pour les déploiements à accès concurrent sur GPU.

ToolLinkDescriptionLicence
Ollamaollama.comLe plus simple — installation en une commande, API compatible OpenAI, vaste bibliothèque de modèlesMIT
llama.cppgithub.com/ggml-org/llama.cppMoteur C++ fondateur derrière la plupart des autres outils, fonctionne partout dont Apple SiliconMIT
vLLMgithub.com/vllm-project/vllmServing haute performance pour déploiements GPU multi-utilisateursApache 2.0
LocalAIlocalai.ioRemplacement drop-in de l'API OpenAI, compatible avec plusieurs backendsMIT
TensorRT-LLMgithub.com/NVIDIA/TensorRT-LLMInférence optimisée NVIDIA pour configurations GPU enterpriseApache 2.0
MLC LLMmlc.ai/mlc-llmRuntime de déploiement pour appareils mobiles et edgeApache 2.0
SGLanggithub.com/sgl-project/sglangServing d'inférence structurée pour pipelines d'agentsApache 2.0
ExLlamaV2github.com/turboderp-org/exllamav2Inférence quantifiée rapide, optimisée pour les GPU RTXMIT
KoboldCppgithub.com/LostRuins/koboldcppWrapper llama.cpp léger avec interface intégréeAGPL 3.0
Llamafilegithub.com/Mozilla-Ocho/llamafileExécution LLM portable en fichier unique par MozillaApache 2.0
MLX-LMgithub.com/ml-explore/mlx-examplesRuntime natif Apple Silicon par Apple ResearchMIT

Comparatif approfondi : llama.cpp vs Ollama vs vLLM

2. Applications de bureau (GUI)

Les applications bureau encapsulent un runtime dans une interface de chat et un navigateur de modèles. C'est le point d'entrée pour la plupart des utilisateurs non techniques — télécharger, cliquer, discuter. LM Studio, Jan et GPT4All détiennent l'essentiel de la base utilisateurs en 2026 ; AnythingLLM fait office d'application bureau et de couche RAG ; Open Interpreter est le cas particulier qui permet à un modèle local de piloter votre ordinateur.

ToolLinkDescriptionLicence
LM Studiolmstudio.aiInterface la plus aboutie, navigateur HuggingFace intégré, mode serveurGratuit (propriétaire)
Janjan.aiClone ChatGPT hors ligne axé vie privée, entièrement open sourceAGPL 3.0
GPT4Allnomic.ai/gpt4allAccessible aux débutants, excellent support CPU uniquementMIT
AnythingLLManythingllm.comRAG et chat sur documents avec store vectoriel intégréMIT
Mstymsty.appUX grand public épurée, support multi-fournisseursGratuit (propriétaire)
Cherry Studiocherry-ai.comIA bureau multi-fournisseurs avec personnalisation étendueApache 2.0
Faradayfaraday.devClient bureau pour le chat de personnages et le jeu de rôleGratuit (propriétaire)
Enchantedenchantedlabs.aiClient Ollama minimal natif macOS/iOSMIT
h2oGPTgithub.com/h2oai/h2ogptApplication bureau et serveur riche en fonctionnalités enterpriseApache 2.0
Open Interpretergithub.com/OpenInterpreter/open-interpreterPermet à un LLM local de contrôler votre ordinateur et d'exécuter du codeAGPL 3.0

Comparatif approfondi : LM Studio vs Jan vs GPT4All

3. Interfaces web & frontends navigateur

Les interfaces web sont des clones ChatGPT auto-hébergés — même surface conversationnelle, mais pointant vers un runtime sur votre propre machine ou réseau local. Elles conviennent particulièrement pour un accès multi-appareils ou un usage en équipe. Open WebUI domine le segment auto-hébergé en 2026, LibreChat est l'alternative orientée équipe, SillyTavern est l'interface dédiée au jeu de rôle.

ToolLinkDescriptionLicence
Open WebUIopenwebui.comInterface auto-hébergée la plus populaire, style ChatGPT, RAG intégréBSD 3-Clause
LibreChatlibrechat.aiAlternative ChatGPT multi-modèles avec fonctionnalités équipeMIT
text-generation-webuigithub.com/oobabooga/text-generation-webuiInterface power-user avec écosystème de plugins étenduAGPL 3.0
SillyTaverngithub.com/SillyTavern/SillyTavernJeu de rôle et chat de personnages avec lorebooksAGPL 3.0
LobeChatlobehub.comInterface moderne et soignée avec place de marché de pluginsMIT
Big-AGIgithub.com/enricoros/big-AGIFrontend multi-fournisseurs avancé avec personasMIT
NextChatgithub.com/ChatGPTNextWeb/NextChatChat web léger, déploiement simplifiéMIT
Page Assistgithub.com/n4ze3m/page-assistIA en barre latérale navigateur pour Chrome et FirefoxMIT
Chatboxchatboxai.appClient bureau et web multiplateformeGPLv3

Comparatif approfondi : SillyTavern vs Agnai vs RisuAI

4. Assistants de codage & intégrations IDE

Les assistants de codage connectent un LLM local à votre éditeur ou terminal via des API compatibles OpenAI. Le choix dépend surtout du workflow : autocomplétion dans l'éditeur (Continue.dev), éditions autonomes par agent (Cline, OpenHands) ou éditions diff natives git en terminal (Aider). Les trois patterns fonctionnent avec tout runtime supportant le protocole OpenAI Chat Completions — Ollama est le backend le plus courant en 2026.

ToolLinkDescriptionLicence
Continue.devcontinue.devAutocomplétion et chat VS Code et JetBrains avec modèles locauxApache 2.0
Aideraider.chatPair-programmeur en terminal avec support d'édition multi-fichiersApache 2.0
Clinecline.botAgent de codage autonome pour VS CodeApache 2.0
Tabbytabby.tabbyml.comAlternative auto-hébergée à GitHub CopilotApache 2.0
CodeGPTcodegpt.coIntégrations IDE pour plusieurs éditeursMIT
OpenHandsgithub.com/All-Hands-AI/OpenHandsAgent développeur logiciel IA (anciennement OpenDevin)MIT
Cursor (mode local)cursor.comÉditeur de code centré IA avec support de modèles locauxGratuit (propriétaire)
Twinnygithub.com/twinnydotdev/twinnyAlternative Copilot gratuite pour VS CodeMIT

Comparatif approfondi : Continue.dev vs Cline vs Aider

5. Systèmes RAG & chat sur documents

**Les systèmes RAG (Retrieval-Augmented Generation) combinent un LLM local avec un modèle d'embedding et un store vectoriel pour que le modèle puisse répondre à partir de vos propres documents.** La distinction est entre les applications clés en main (AnythingLLM, PrivateGPT, Quivr, Khoj) et les bibliothèques de framework (LlamaIndex, Haystack, txtai) sur lesquelles vous construisez. RAGFlow a gagné des parts de marché en 2026 pour les documents nécessitant une extraction de citations précise.

ToolLinkDescriptionLicence
AnythingLLManythingllm.comRAG personnel tout-en-un le plus simple, avec espaces de travailMIT
PrivateGPTgithub.com/zylon-ai/private-gptRAG entièrement hors ligne, orienté entrepriseApache 2.0
Quivrgithub.com/QuivrHQ/quivrAssistant de connaissance personnelle auto-hébergéApache 2.0
Khojkhoj.devSecond cerveau IA personnel, synchronisé avec Obsidian et NotionAGPL 3.0
Difydify.aiConstructeur de workflows IA avec support RAG et agentsModified Apache 2.0
Flowiseflowiseai.comConstructeur visuel de workflows LangChainApache 2.0
Langflowlangflow.orgOrchestration IA visuelle avec composants RAGMIT
LlamaIndexllamaindex.aiFramework RAG / bibliothèque Python — base pour les développements sur mesureMIT
Haystackhaystack.deepset.aiFramework de recherche et RAG par deepsetApache 2.0
RAGFlowragflow.ioCompréhension approfondie des documents pour le RAG avec extraction de citationsApache 2.0
txtaigithub.com/neuml/txtaiBase de données vectorielle et LLM intégrée en une seule bibliothèqueApache 2.0

Comparatif approfondi : AnythingLLM vs PrivateGPT vs Open WebUI

6. Frameworks d'agents & orchestration

Les frameworks d'agents transforment les appels LLM en une seule passe en workflows multi-étapes — planifier, agir, observer, répéter. LangChain reste la valeur par défaut généraliste ; CrewAI et AutoGen se spécialisent dans les setups multi-agents basés sur les rôles ; LangGraph est le bon choix lorsque la gestion d'état sur des flux longs est essentielle. Les huit frameworks ci-dessous fonctionnent avec un backend Ollama local.

ToolLinkDescriptionLicence
LangChainlangchain.comFramework d'application LLM généralisteMIT
LlamaIndexllamaindex.aiFramework d'agents et de données orienté RAGMIT
CrewAIcrewai.comWorkflows multi-agents basés sur les rôlesMIT
AutoGengithub.com/microsoft/autogenFramework d'orchestration multi-agents MicrosoftCC-BY-4.0 / MIT
Semantic Kernellearn.microsoft.com/semantic-kernelSDK d'orchestration enterprise Microsoft en C#/Python/JavaMIT
LangGraphlangchain-ai.github.io/langgraphWorkflows d'agents en graphe avec gestion d'étatMIT
Letta (ex-MemGPT)letta.comAgents avec mémoire à long termeApache 2.0
Pydantic AIai.pydantic.devFramework d'agents typé construit sur PydanticMIT

Article approfondi : Agents IA locaux avec MCP

7. Voix, parole & multimodal

Les stacks voix et multimodal étendent un LLM local au-delà du texte — reconnaissance vocale (STT), synthèse vocale (TTS) et vision. Whisper.cpp et faster-whisper dominent la couche STT locale ; Piper et Coqui se partagent la couche TTS avec XTTS v2 en tête pour le clonage vocal ; LLaVA et les modèles vision Ollama couvrent la partie vision. Un assistant vocal entièrement hors ligne est faisable avec cette couche et un petit modèle de chat.

ToolLinkDescriptionLicence
Whisper.cppgithub.com/ggerganov/whisper.cppReconnaissance vocale locale, fonctionne sur CPU ou GPUMIT
faster-whispergithub.com/SYSTRAN/faster-whisperTranscription Whisper rapide via CTranslate2MIT
Piper TTSgithub.com/rhasspy/piperSynthèse vocale locale légèreMIT
Coqui TTScoqui.aiSynthèse vocale open source avec plusieurs options de modèlesMPL 2.0
XTTS v2docs.coqui.ai/en/latest/models/xtts.htmlClonage vocal avec support multilingueCPML
Barkgithub.com/suno-ai/barkSynthèse vocale générative avec sons non-verbauxMIT
StyleTTS 2github.com/yl4579/StyleTTS2TTS naturelle de haute qualitéMIT
LLaVAllava-vl.github.ioModèle local vision + langageApache 2.0
Modèles vision Ollamaollama.comVision locale via Ollama (Llama 3.2 Vision, Llava, etc.)Divers

Article approfondi : Construire un assistant vocal local sur mobile

8. Clients mobiles & edge

Les clients mobiles exécutent un modèle quantifié directement sur le téléphone via Apple Neural Engine, Qualcomm NPU ou inférence CPU pure. Le projet MLC LLM est la couche fondatrice ; les applications grand public (PocketPal AI, Private LLM, LLM Farm, Layla) l'encapsulent dans une interface de chat. Les téléphones haut de gamme 2026 exécutent des modèles 2-4B à des vitesses utilisables (8–15 tokens/sec) ; les modèles 7B sont en limite de faisabilité.

ToolLinkDescriptionLicence
MLC Chatmlc.ai/mlc-llmRuntime LLM mobile multiplateformeApache 2.0
PocketPal AIgithub.com/a-ghorbani/pocketpal-aiClient LLM local gratuit pour iOS et AndroidMIT
Private LLMprivatellm.appApplication iOS et macOS soignée pour LLM locauxPayant (propriétaire)
LLM Farmgithub.com/guinmoon/LLMFarmClient iOS pour LLM locaux avec navigateur de modèlesMIT
Laylalayla-network.aiApplication LLM local d'abord AndroidGratuit (propriétaire)
Maidgithub.com/Mobile-Artificial-Intelligence/maidApplication Flutter mobile open source pour LLMMIT
Enchantedenchantedlabs.aiClient Ollama natif iOS/macOSMIT
Chapperprevolut.ukClient mobile natif pour Ollama et LM StudioGratuit
RikkaHubgithub.com/rikkahub/rikkahubIA locale Android open sourceMIT
AnythingLLM Mobileanythingllm.comAccès distant à votre espace de travail AnythingLLM localMIT

Article approfondi : Meilleures applications LLM locales pour iPhone en 2026

9. Outils spécialisés & productivité

Les outils spécialisés intègrent les LLM locaux dans des applications déjà utilisées — plateformes de prise de notes (Obsidian, Logseq, Joplin), agents de tâches autonomes (AutoGPT, BabyAGI, MetaGPT) et frontends de jeu de rôle (Agnai, RisuAI). Ce ne sont pas des interfaces de chat génériques ; ce sont des intégrations spécifiques à un workflow qui supposent que vous disposez déjà d'une application hôte et d'un runtime.

ToolLinkDescriptionLicence
Smart Connectionsgithub.com/brianpetro/obsidian-smart-connectionsPlugin Obsidian de recherche sémantique et chatGPL 3.0
Copilot for Obsidiangithub.com/logancyang/obsidian-copilotPlugin Obsidian de chat LLM localAGPL 3.0
Text Generatorgithub.com/nhaouari/obsidian-textgenerator-pluginPlugin Obsidian de génération de contenuMIT
logseq-copilotgithub.com/logancyang/logseq-copilotPlugin Logseq pour chat LLM local et cloud, même auteur qu'Obsidian CopilotAGPL 3.0
BMO Chatbotgithub.com/longy2k/obsidian-bmo-chatbotChatbot Obsidian avec LLM localMIT
Joplin AIjoplinapp.orgNotes Joplin avec intégrations IA localesMIT
AutoGPT (local)github.com/Significant-Gravitas/AutoGPTAgent de tâches autonome avec support OllamaMIT
BabyAGIgithub.com/yoheinakajima/babyagiAgent autonome légerMIT
MetaGPTgithub.com/geekan/MetaGPTSimulation multi-agents d'une entreprise logicielleMIT
Agnaiagnai.chatFrontend de jeu de rôle avec cartes de personnagesMIT
RisuAIgithub.com/kwaroran/RisuAIFrontend de jeu de rôle adapté au mobileGPL 3.0

Article approfondi : LLM local avec Obsidian en 2026

Stacks courants en production

Pour les lecteurs qui ne souhaitent pas parcourir les neuf catégories : choisissez la stack la plus proche et copiez-la. Chaque ligne associe un objectif concret à une combinaison éprouvée et au matériel minimum réellement nécessaire.

ObjectifStackMatériel minimum
Chat occasionnelLM Studio standalone16 Go RAM, pas de GPU
Meilleur équilibre pour utilisateurs avancésOllama + Open WebUI16 Go RAM, GPU optionnel
Chat sur documentsOllama + AnythingLLM16 Go RAM, GPU optionnel
CodageOllama + Continue.dev16 Go RAM + GPU recommandé
Jeu de rôle / créatifKoboldCpp + SillyTavern16 Go RAM, GPU recommandé
Confidentialité professionnelleOllama + Open WebUI + PrivateGPT32 Go RAM + 12 Go VRAM
Mobile / nomadeMLC Chat ou PocketPal AIiPhone 13+ / Pixel 7+
Apple SiliconOllama (backend MLX) ou LM StudioM2/M3/M4/M5 avec 16+ Go unifié
Équipe multi-utilisateursvLLM + Open WebUI32+ Go RAM + multi-GPU

Mise à jour du répertoire

Ce répertoire est révisé tous les six mois (prochaine mise à jour : novembre 2026). Critères d'inclusion : le projet est activement maintenu (commits dans les 90 derniers jours), dispose d'une licence open source vérifiable ou d'une déclaration claire sur l'usage commercial, et détient soit une part d'utilisateurs significative en 2026, soit occupe une couche qui serait autrement vide. Les projets inactifs depuis plus de deux cycles de version sont supprimés ; les nouveaux entrants satisfaisant les critères sont ajoutés à la prochaine révision. Pour suggérer un projet, ouvrez une issue ou une PR dans le dépôt PromptQuorum — indiquez l'URL du projet, la licence et une description d'une phrase dans le format des tableaux ci-dessus. La CNIL recommande le recours à l'IA locale pour le traitement de données professionnelles sensibles (données médicales, juridiques, financières) afin de limiter les transferts hors de l'espace économique européen.

Sources

FAQ

Quelle est la différence entre un runtime LLM local et une application de bureau ?

Un runtime (Ollama, llama.cpp, vLLM) est le moteur qui charge les poids du modèle et expose une API — généralement compatible OpenAI. Une application de bureau (LM Studio, Jan, GPT4All) est une interface de chat qui appelle un runtime en arrière-plan. Certaines applications intègrent leur propre runtime (LM Studio embarque llama.cpp), d'autres nécessitent une installation séparée (Open WebUI appelle Ollama). Le runtime détermine ce qui est possible ; l'application détermine ce qui est pratique.

Puis-je utiliser plusieurs outils de cette liste simultanément ?

Oui — la plupart des stacks combinent 2 à 4 outils. Une configuration courante : Ollama comme runtime, Open WebUI pour le chat, AnythingLLM pour le chat sur documents et Continue.dev pour le codage — les quatre s'appuient sur la même instance Ollama sur une seule machine. Le tableau « Stacks courants en production » liste les recettes qui fonctionnent sans conflit.

Quels outils fonctionnent entièrement hors ligne sans télémétrie ?

Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM et la plupart des applications sous licence AGPL/MIT fonctionnent entièrement hors ligne une fois le modèle téléchargé. LM Studio et plusieurs outils propriétaires disposent d'analyses optionnelles désactivables dans les paramètres — vérifiez avec une capture réseau après l'installation. Les interfaces web (Open WebUI, LibreChat) sont locales lorsqu'elles sont configurées avec un backend local.

Certains de ces outils sont-ils sous licence commerciale (non libres pour un usage commercial) ?

Quelques-uns : LM Studio, Msty, Faraday, Layla et Cursor sont propriétaires — généralement gratuits à l'usage mais non redistribuables, et les conditions commerciales varient. Private LLM est payant. Les outils sous licence AGPL (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) sont libres pour tout usage y compris commercial, mais les conditions AGPL exigent la divulgation du code source si vous les modifiez et les hébergez publiquement. Les projets Apache 2.0 et MIT (la majorité) sont utilisables dans tout contexte sans contraintes significatives.

Quels outils supportent Apple Silicon (puces M) nativement ?

Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM et la plupart des applications Electron/Tauri fonctionnent nativement sur Apple Silicon avec le backend Metal. MLX-LM est spécifique à Apple et le plus rapide sur M-series pour les grands modèles. vLLM, TensorRT-LLM et ExLlamaV2 sont centrés NVIDIA et ne fonctionnent pas ou mal sur Apple Silicon — pour les utilisateurs Apple, Ollama avec le backend Metal est la recommandation par défaut.

Tous ces outils supportent-ils le format GGUF ?

GGUF est le format natif de llama.cpp et tout outil qui s'appuie dessus (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM et TensorRT-LLM utilisent leurs propres formats optimisés (généralement AWQ ou FP16). ExLlamaV2 utilise la quantification EXL2. MLX-LM utilise des poids convertis MLX. La plupart des outils listés acceptent GGUF ; quelques-uns (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) nécessitent une étape de conversion à partir des poids Hugging Face d'origine.

Quels outils conviennent aux utilisateurs sans expérience en programmation ?

GPT4All offre l'installation la plus simple (un clic, fonctionne avec 8 Go RAM). LM Studio est le plus riche en fonctionnalités sans nécessiter de terminal. Jan est l'option sans code la plus axée vie privée. Pour le chat sur documents sans ligne de commande, AnythingLLM est le plus simple. Les quatre sont listés dans la catégorie Applications de bureau ci-dessus.

Puis-je faire tourner ces outils sur un serveur et y accéder à distance ?

La plupart des outils serveur (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) exposent une API HTTP et se lient à une interface réseau configurable dans les paramètres. Schéma habituel : Ollama sur un serveur domestique ou VPS, une interface sur votre ordinateur portable ou téléphone pointant vers l'IP du serveur. Traitez l'API comme tout service web — liez à localhost derrière un proxy inverse, ou à un réseau privé avec authentification. Open WebUI inclut le support multi-utilisateurs nativement.

Quels outils supportent les setups multi-utilisateurs / équipe ?

Open WebUI, LibreChat, h2oGPT, AnythingLLM (avec les fonctionnalités admin activées) et Dify sont conçus pour un usage multi-utilisateurs, avec contrôle d'accès basé sur les rôles et historique de conversations par utilisateur. vLLM est la bonne couche de serving en dessous lorsque l'inférence simultanée est importante — il regroupe les requêtes de plusieurs utilisateurs pour un débit inatteignable avec Ollama au-delà de ~3 requêtes simultanées.

À quelle fréquence ce répertoire est-il mis à jour ?

Tous les six mois — la prochaine révision planifiée est en novembre 2026. Les modifications intermédiaires (un projet devient inactif, un nouvel outil gagne des parts de marché, une licence change) sont intégrées comme correctifs. Les nouvelles catégories attendent une révision pour maintenir la stabilité de la structure. La section « Sources » liste les index communautaires utilisés pour surveiller l'écosystème entre les révisions.

← Retour à Power Local LLM

Répertoire de logiciels LLM locaux 2026 : 70+ outils