Points clés
- Neuf couches, 87 projets, une carte. Runtimes, applications bureau, interfaces web, assistants de codage, systèmes RAG, frameworks d'agents, voix/multimodal, clients mobiles et plugins de productivité — presque tous les projets populaires de 2026 s'inscrivent dans exactement une couche.
- Choisissez d'abord un runtime. Ollama est la valeur par défaut pour ~95 % des utilisateurs ; llama.cpp est le moteur fondateur derrière la plupart des autres outils ; vLLM est le choix de production pour les déploiements multi-utilisateurs sur GPU.
- La plupart des couches au-dessus du runtime sont optionnelles. Une application bureau OU une interface web suffit pour le chat. Ajoutez un assistant de codage uniquement si vous souhaitez une intégration IDE ; un système RAG uniquement pour interroger vos documents.
- La licence compte pour un usage commercial. MIT et Apache 2.0 dominent l'écosystème. AGPL apparaît sur quelques interfaces (text-generation-webui, KoboldCpp, Jan, SillyTavern) — acceptable pour un usage personnel, à examiner avec soin pour un déploiement commercial.
- Les stacks multi-outils sont la norme. Ollama + Open WebUI + AnythingLLM + Continue.dev couvre le chat, le RAG et le codage sur une seule machine. Le tableau « Stacks courants en production » ci-dessous liste les recettes qui fonctionnent réellement en 2026.
1. Runtimes & moteurs d'inférence LLM locaux
Un runtime est le moteur qui charge les poids du modèle en mémoire et transforme les invites en tokens. C'est le premier choix d'une stack LLM locale et celui qui conditionne tout ce qui se trouve au-dessus. Ollama domine la part de marché en 2026 grâce à son API compatible OpenAI et son installation en une commande ; llama.cpp est le moteur C++ sous-jacent à la plupart des autres outils ; vLLM est le choix pour les déploiements à accès concurrent sur GPU.
| Tool | Link | Description | Licence |
|---|---|---|---|
| Ollama | ollama.com | Le plus simple — installation en une commande, API compatible OpenAI, vaste bibliothèque de modèles | MIT |
| llama.cpp | github.com/ggml-org/llama.cpp | Moteur C++ fondateur derrière la plupart des autres outils, fonctionne partout dont Apple Silicon | MIT |
| vLLM | github.com/vllm-project/vllm | Serving haute performance pour déploiements GPU multi-utilisateurs | Apache 2.0 |
| LocalAI | localai.io | Remplacement drop-in de l'API OpenAI, compatible avec plusieurs backends | MIT |
| TensorRT-LLM | github.com/NVIDIA/TensorRT-LLM | Inférence optimisée NVIDIA pour configurations GPU enterprise | Apache 2.0 |
| MLC LLM | mlc.ai/mlc-llm | Runtime de déploiement pour appareils mobiles et edge | Apache 2.0 |
| SGLang | github.com/sgl-project/sglang | Serving d'inférence structurée pour pipelines d'agents | Apache 2.0 |
| ExLlamaV2 | github.com/turboderp-org/exllamav2 | Inférence quantifiée rapide, optimisée pour les GPU RTX | MIT |
| KoboldCpp | github.com/LostRuins/koboldcpp | Wrapper llama.cpp léger avec interface intégrée | AGPL 3.0 |
| Llamafile | github.com/Mozilla-Ocho/llamafile | Exécution LLM portable en fichier unique par Mozilla | Apache 2.0 |
| MLX-LM | github.com/ml-explore/mlx-examples | Runtime natif Apple Silicon par Apple Research | MIT |
Comparatif approfondi : llama.cpp vs Ollama vs vLLM
2. Applications de bureau (GUI)
Les applications bureau encapsulent un runtime dans une interface de chat et un navigateur de modèles. C'est le point d'entrée pour la plupart des utilisateurs non techniques — télécharger, cliquer, discuter. LM Studio, Jan et GPT4All détiennent l'essentiel de la base utilisateurs en 2026 ; AnythingLLM fait office d'application bureau et de couche RAG ; Open Interpreter est le cas particulier qui permet à un modèle local de piloter votre ordinateur.
| Tool | Link | Description | Licence |
|---|---|---|---|
| LM Studio | lmstudio.ai | Interface la plus aboutie, navigateur HuggingFace intégré, mode serveur | Gratuit (propriétaire) |
| Jan | jan.ai | Clone ChatGPT hors ligne axé vie privée, entièrement open source | AGPL 3.0 |
| GPT4All | nomic.ai/gpt4all | Accessible aux débutants, excellent support CPU uniquement | MIT |
| AnythingLLM | anythingllm.com | RAG et chat sur documents avec store vectoriel intégré | MIT |
| Msty | msty.app | UX grand public épurée, support multi-fournisseurs | Gratuit (propriétaire) |
| Cherry Studio | cherry-ai.com | IA bureau multi-fournisseurs avec personnalisation étendue | Apache 2.0 |
| Faraday | faraday.dev | Client bureau pour le chat de personnages et le jeu de rôle | Gratuit (propriétaire) |
| Enchanted | enchantedlabs.ai | Client Ollama minimal natif macOS/iOS | MIT |
| h2oGPT | github.com/h2oai/h2ogpt | Application bureau et serveur riche en fonctionnalités enterprise | Apache 2.0 |
| Open Interpreter | github.com/OpenInterpreter/open-interpreter | Permet à un LLM local de contrôler votre ordinateur et d'exécuter du code | AGPL 3.0 |
Comparatif approfondi : LM Studio vs Jan vs GPT4All
3. Interfaces web & frontends navigateur
Les interfaces web sont des clones ChatGPT auto-hébergés — même surface conversationnelle, mais pointant vers un runtime sur votre propre machine ou réseau local. Elles conviennent particulièrement pour un accès multi-appareils ou un usage en équipe. Open WebUI domine le segment auto-hébergé en 2026, LibreChat est l'alternative orientée équipe, SillyTavern est l'interface dédiée au jeu de rôle.
| Tool | Link | Description | Licence |
|---|---|---|---|
| Open WebUI | openwebui.com | Interface auto-hébergée la plus populaire, style ChatGPT, RAG intégré | BSD 3-Clause |
| LibreChat | librechat.ai | Alternative ChatGPT multi-modèles avec fonctionnalités équipe | MIT |
| text-generation-webui | github.com/oobabooga/text-generation-webui | Interface power-user avec écosystème de plugins étendu | AGPL 3.0 |
| SillyTavern | github.com/SillyTavern/SillyTavern | Jeu de rôle et chat de personnages avec lorebooks | AGPL 3.0 |
| LobeChat | lobehub.com | Interface moderne et soignée avec place de marché de plugins | MIT |
| Big-AGI | github.com/enricoros/big-AGI | Frontend multi-fournisseurs avancé avec personas | MIT |
| NextChat | github.com/ChatGPTNextWeb/NextChat | Chat web léger, déploiement simplifié | MIT |
| Page Assist | github.com/n4ze3m/page-assist | IA en barre latérale navigateur pour Chrome et Firefox | MIT |
| Chatbox | chatboxai.app | Client bureau et web multiplateforme | GPLv3 |
Comparatif approfondi : SillyTavern vs Agnai vs RisuAI
4. Assistants de codage & intégrations IDE
Les assistants de codage connectent un LLM local à votre éditeur ou terminal via des API compatibles OpenAI. Le choix dépend surtout du workflow : autocomplétion dans l'éditeur (Continue.dev), éditions autonomes par agent (Cline, OpenHands) ou éditions diff natives git en terminal (Aider). Les trois patterns fonctionnent avec tout runtime supportant le protocole OpenAI Chat Completions — Ollama est le backend le plus courant en 2026.
| Tool | Link | Description | Licence |
|---|---|---|---|
| Continue.dev | continue.dev | Autocomplétion et chat VS Code et JetBrains avec modèles locaux | Apache 2.0 |
| Aider | aider.chat | Pair-programmeur en terminal avec support d'édition multi-fichiers | Apache 2.0 |
| Cline | cline.bot | Agent de codage autonome pour VS Code | Apache 2.0 |
| Tabby | tabby.tabbyml.com | Alternative auto-hébergée à GitHub Copilot | Apache 2.0 |
| CodeGPT | codegpt.co | Intégrations IDE pour plusieurs éditeurs | MIT |
| OpenHands | github.com/All-Hands-AI/OpenHands | Agent développeur logiciel IA (anciennement OpenDevin) | MIT |
| Cursor (mode local) | cursor.com | Éditeur de code centré IA avec support de modèles locaux | Gratuit (propriétaire) |
| Twinny | github.com/twinnydotdev/twinny | Alternative Copilot gratuite pour VS Code | MIT |
Comparatif approfondi : Continue.dev vs Cline vs Aider
5. Systèmes RAG & chat sur documents
**Les systèmes RAG (Retrieval-Augmented Generation) combinent un LLM local avec un modèle d'embedding et un store vectoriel pour que le modèle puisse répondre à partir de vos propres documents.** La distinction est entre les applications clés en main (AnythingLLM, PrivateGPT, Quivr, Khoj) et les bibliothèques de framework (LlamaIndex, Haystack, txtai) sur lesquelles vous construisez. RAGFlow a gagné des parts de marché en 2026 pour les documents nécessitant une extraction de citations précise.
| Tool | Link | Description | Licence |
|---|---|---|---|
| AnythingLLM | anythingllm.com | RAG personnel tout-en-un le plus simple, avec espaces de travail | MIT |
| PrivateGPT | github.com/zylon-ai/private-gpt | RAG entièrement hors ligne, orienté entreprise | Apache 2.0 |
| Quivr | github.com/QuivrHQ/quivr | Assistant de connaissance personnelle auto-hébergé | Apache 2.0 |
| Khoj | khoj.dev | Second cerveau IA personnel, synchronisé avec Obsidian et Notion | AGPL 3.0 |
| Dify | dify.ai | Constructeur de workflows IA avec support RAG et agents | Modified Apache 2.0 |
| Flowise | flowiseai.com | Constructeur visuel de workflows LangChain | Apache 2.0 |
| Langflow | langflow.org | Orchestration IA visuelle avec composants RAG | MIT |
| LlamaIndex | llamaindex.ai | Framework RAG / bibliothèque Python — base pour les développements sur mesure | MIT |
| Haystack | haystack.deepset.ai | Framework de recherche et RAG par deepset | Apache 2.0 |
| RAGFlow | ragflow.io | Compréhension approfondie des documents pour le RAG avec extraction de citations | Apache 2.0 |
| txtai | github.com/neuml/txtai | Base de données vectorielle et LLM intégrée en une seule bibliothèque | Apache 2.0 |
Comparatif approfondi : AnythingLLM vs PrivateGPT vs Open WebUI
6. Frameworks d'agents & orchestration
Les frameworks d'agents transforment les appels LLM en une seule passe en workflows multi-étapes — planifier, agir, observer, répéter. LangChain reste la valeur par défaut généraliste ; CrewAI et AutoGen se spécialisent dans les setups multi-agents basés sur les rôles ; LangGraph est le bon choix lorsque la gestion d'état sur des flux longs est essentielle. Les huit frameworks ci-dessous fonctionnent avec un backend Ollama local.
| Tool | Link | Description | Licence |
|---|---|---|---|
| LangChain | langchain.com | Framework d'application LLM généraliste | MIT |
| LlamaIndex | llamaindex.ai | Framework d'agents et de données orienté RAG | MIT |
| CrewAI | crewai.com | Workflows multi-agents basés sur les rôles | MIT |
| AutoGen | github.com/microsoft/autogen | Framework d'orchestration multi-agents Microsoft | CC-BY-4.0 / MIT |
| Semantic Kernel | learn.microsoft.com/semantic-kernel | SDK d'orchestration enterprise Microsoft en C#/Python/Java | MIT |
| LangGraph | langchain-ai.github.io/langgraph | Workflows d'agents en graphe avec gestion d'état | MIT |
| Letta (ex-MemGPT) | letta.com | Agents avec mémoire à long terme | Apache 2.0 |
| Pydantic AI | ai.pydantic.dev | Framework d'agents typé construit sur Pydantic | MIT |
Article approfondi : Agents IA locaux avec MCP
7. Voix, parole & multimodal
Les stacks voix et multimodal étendent un LLM local au-delà du texte — reconnaissance vocale (STT), synthèse vocale (TTS) et vision. Whisper.cpp et faster-whisper dominent la couche STT locale ; Piper et Coqui se partagent la couche TTS avec XTTS v2 en tête pour le clonage vocal ; LLaVA et les modèles vision Ollama couvrent la partie vision. Un assistant vocal entièrement hors ligne est faisable avec cette couche et un petit modèle de chat.
| Tool | Link | Description | Licence |
|---|---|---|---|
| Whisper.cpp | github.com/ggerganov/whisper.cpp | Reconnaissance vocale locale, fonctionne sur CPU ou GPU | MIT |
| faster-whisper | github.com/SYSTRAN/faster-whisper | Transcription Whisper rapide via CTranslate2 | MIT |
| Piper TTS | github.com/rhasspy/piper | Synthèse vocale locale légère | MIT |
| Coqui TTS | coqui.ai | Synthèse vocale open source avec plusieurs options de modèles | MPL 2.0 |
| XTTS v2 | docs.coqui.ai/en/latest/models/xtts.html | Clonage vocal avec support multilingue | CPML |
| Bark | github.com/suno-ai/bark | Synthèse vocale générative avec sons non-verbaux | MIT |
| StyleTTS 2 | github.com/yl4579/StyleTTS2 | TTS naturelle de haute qualité | MIT |
| LLaVA | llava-vl.github.io | Modèle local vision + langage | Apache 2.0 |
| Modèles vision Ollama | ollama.com | Vision locale via Ollama (Llama 3.2 Vision, Llava, etc.) | Divers |
Article approfondi : Construire un assistant vocal local sur mobile
8. Clients mobiles & edge
Les clients mobiles exécutent un modèle quantifié directement sur le téléphone via Apple Neural Engine, Qualcomm NPU ou inférence CPU pure. Le projet MLC LLM est la couche fondatrice ; les applications grand public (PocketPal AI, Private LLM, LLM Farm, Layla) l'encapsulent dans une interface de chat. Les téléphones haut de gamme 2026 exécutent des modèles 2-4B à des vitesses utilisables (8–15 tokens/sec) ; les modèles 7B sont en limite de faisabilité.
| Tool | Link | Description | Licence |
|---|---|---|---|
| MLC Chat | mlc.ai/mlc-llm | Runtime LLM mobile multiplateforme | Apache 2.0 |
| PocketPal AI | github.com/a-ghorbani/pocketpal-ai | Client LLM local gratuit pour iOS et Android | MIT |
| Private LLM | privatellm.app | Application iOS et macOS soignée pour LLM locaux | Payant (propriétaire) |
| LLM Farm | github.com/guinmoon/LLMFarm | Client iOS pour LLM locaux avec navigateur de modèles | MIT |
| Layla | layla-network.ai | Application LLM local d'abord Android | Gratuit (propriétaire) |
| Maid | github.com/Mobile-Artificial-Intelligence/maid | Application Flutter mobile open source pour LLM | MIT |
| Enchanted | enchantedlabs.ai | Client Ollama natif iOS/macOS | MIT |
| Chapper | prevolut.uk | Client mobile natif pour Ollama et LM Studio | Gratuit |
| RikkaHub | github.com/rikkahub/rikkahub | IA locale Android open source | MIT |
| AnythingLLM Mobile | anythingllm.com | Accès distant à votre espace de travail AnythingLLM local | MIT |
Article approfondi : Meilleures applications LLM locales pour iPhone en 2026
9. Outils spécialisés & productivité
Les outils spécialisés intègrent les LLM locaux dans des applications déjà utilisées — plateformes de prise de notes (Obsidian, Logseq, Joplin), agents de tâches autonomes (AutoGPT, BabyAGI, MetaGPT) et frontends de jeu de rôle (Agnai, RisuAI). Ce ne sont pas des interfaces de chat génériques ; ce sont des intégrations spécifiques à un workflow qui supposent que vous disposez déjà d'une application hôte et d'un runtime.
| Tool | Link | Description | Licence |
|---|---|---|---|
| Smart Connections | github.com/brianpetro/obsidian-smart-connections | Plugin Obsidian de recherche sémantique et chat | GPL 3.0 |
| Copilot for Obsidian | github.com/logancyang/obsidian-copilot | Plugin Obsidian de chat LLM local | AGPL 3.0 |
| Text Generator | github.com/nhaouari/obsidian-textgenerator-plugin | Plugin Obsidian de génération de contenu | MIT |
| logseq-copilot | github.com/logancyang/logseq-copilot | Plugin Logseq pour chat LLM local et cloud, même auteur qu'Obsidian Copilot | AGPL 3.0 |
| BMO Chatbot | github.com/longy2k/obsidian-bmo-chatbot | Chatbot Obsidian avec LLM local | MIT |
| Joplin AI | joplinapp.org | Notes Joplin avec intégrations IA locales | MIT |
| AutoGPT (local) | github.com/Significant-Gravitas/AutoGPT | Agent de tâches autonome avec support Ollama | MIT |
| BabyAGI | github.com/yoheinakajima/babyagi | Agent autonome léger | MIT |
| MetaGPT | github.com/geekan/MetaGPT | Simulation multi-agents d'une entreprise logicielle | MIT |
| Agnai | agnai.chat | Frontend de jeu de rôle avec cartes de personnages | MIT |
| RisuAI | github.com/kwaroran/RisuAI | Frontend de jeu de rôle adapté au mobile | GPL 3.0 |
Article approfondi : LLM local avec Obsidian en 2026
Stacks courants en production
Pour les lecteurs qui ne souhaitent pas parcourir les neuf catégories : choisissez la stack la plus proche et copiez-la. Chaque ligne associe un objectif concret à une combinaison éprouvée et au matériel minimum réellement nécessaire.
| Objectif | Stack | Matériel minimum |
|---|---|---|
| Chat occasionnel | LM Studio standalone | 16 Go RAM, pas de GPU |
| Meilleur équilibre pour utilisateurs avancés | Ollama + Open WebUI | 16 Go RAM, GPU optionnel |
| Chat sur documents | Ollama + AnythingLLM | 16 Go RAM, GPU optionnel |
| Codage | Ollama + Continue.dev | 16 Go RAM + GPU recommandé |
| Jeu de rôle / créatif | KoboldCpp + SillyTavern | 16 Go RAM, GPU recommandé |
| Confidentialité professionnelle | Ollama + Open WebUI + PrivateGPT | 32 Go RAM + 12 Go VRAM |
| Mobile / nomade | MLC Chat ou PocketPal AI | iPhone 13+ / Pixel 7+ |
| Apple Silicon | Ollama (backend MLX) ou LM Studio | M2/M3/M4/M5 avec 16+ Go unifié |
| Équipe multi-utilisateurs | vLLM + Open WebUI | 32+ Go RAM + multi-GPU |
Mise à jour du répertoire
Ce répertoire est révisé tous les six mois (prochaine mise à jour : novembre 2026). Critères d'inclusion : le projet est activement maintenu (commits dans les 90 derniers jours), dispose d'une licence open source vérifiable ou d'une déclaration claire sur l'usage commercial, et détient soit une part d'utilisateurs significative en 2026, soit occupe une couche qui serait autrement vide. Les projets inactifs depuis plus de deux cycles de version sont supprimés ; les nouveaux entrants satisfaisant les critères sont ajoutés à la prochaine révision. Pour suggérer un projet, ouvrez une issue ou une PR dans le dépôt PromptQuorum — indiquez l'URL du projet, la licence et une description d'une phrase dans le format des tableaux ci-dessus. La CNIL recommande le recours à l'IA locale pour le traitement de données professionnelles sensibles (données médicales, juridiques, financières) afin de limiter les transferts hors de l'espace économique européen.
Sources
- ggml-org/llama.cpp GitHub — Source principale pour l'architecture du runtime et les modèles supportés.
- Ollama Library — Catalogue officiel de modèles et documentation du runtime.
- LM Studio Documentation — Référence des fonctionnalités de l'application bureau dominante.
- Open WebUI Documentation — Référence des fonctionnalités de l'interface web auto-hébergée dominante.
- Hugging Face Hub — Source principale de téléchargement des poids de modèles utilisés par chaque runtime listé.
- awesome-local-llm GitHub — Inventaire communautaire utilisé comme vérification de l'inclusion des projets.
FAQ
Quelle est la différence entre un runtime LLM local et une application de bureau ?
Un runtime (Ollama, llama.cpp, vLLM) est le moteur qui charge les poids du modèle et expose une API — généralement compatible OpenAI. Une application de bureau (LM Studio, Jan, GPT4All) est une interface de chat qui appelle un runtime en arrière-plan. Certaines applications intègrent leur propre runtime (LM Studio embarque llama.cpp), d'autres nécessitent une installation séparée (Open WebUI appelle Ollama). Le runtime détermine ce qui est possible ; l'application détermine ce qui est pratique.
Puis-je utiliser plusieurs outils de cette liste simultanément ?
Oui — la plupart des stacks combinent 2 à 4 outils. Une configuration courante : Ollama comme runtime, Open WebUI pour le chat, AnythingLLM pour le chat sur documents et Continue.dev pour le codage — les quatre s'appuient sur la même instance Ollama sur une seule machine. Le tableau « Stacks courants en production » liste les recettes qui fonctionnent sans conflit.
Quels outils fonctionnent entièrement hors ligne sans télémétrie ?
Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM et la plupart des applications sous licence AGPL/MIT fonctionnent entièrement hors ligne une fois le modèle téléchargé. LM Studio et plusieurs outils propriétaires disposent d'analyses optionnelles désactivables dans les paramètres — vérifiez avec une capture réseau après l'installation. Les interfaces web (Open WebUI, LibreChat) sont locales lorsqu'elles sont configurées avec un backend local.
Certains de ces outils sont-ils sous licence commerciale (non libres pour un usage commercial) ?
Quelques-uns : LM Studio, Msty, Faraday, Layla et Cursor sont propriétaires — généralement gratuits à l'usage mais non redistribuables, et les conditions commerciales varient. Private LLM est payant. Les outils sous licence AGPL (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) sont libres pour tout usage y compris commercial, mais les conditions AGPL exigent la divulgation du code source si vous les modifiez et les hébergez publiquement. Les projets Apache 2.0 et MIT (la majorité) sont utilisables dans tout contexte sans contraintes significatives.
Quels outils supportent Apple Silicon (puces M) nativement ?
Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM et la plupart des applications Electron/Tauri fonctionnent nativement sur Apple Silicon avec le backend Metal. MLX-LM est spécifique à Apple et le plus rapide sur M-series pour les grands modèles. vLLM, TensorRT-LLM et ExLlamaV2 sont centrés NVIDIA et ne fonctionnent pas ou mal sur Apple Silicon — pour les utilisateurs Apple, Ollama avec le backend Metal est la recommandation par défaut.
Tous ces outils supportent-ils le format GGUF ?
GGUF est le format natif de llama.cpp et tout outil qui s'appuie dessus (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM et TensorRT-LLM utilisent leurs propres formats optimisés (généralement AWQ ou FP16). ExLlamaV2 utilise la quantification EXL2. MLX-LM utilise des poids convertis MLX. La plupart des outils listés acceptent GGUF ; quelques-uns (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) nécessitent une étape de conversion à partir des poids Hugging Face d'origine.
Quels outils conviennent aux utilisateurs sans expérience en programmation ?
GPT4All offre l'installation la plus simple (un clic, fonctionne avec 8 Go RAM). LM Studio est le plus riche en fonctionnalités sans nécessiter de terminal. Jan est l'option sans code la plus axée vie privée. Pour le chat sur documents sans ligne de commande, AnythingLLM est le plus simple. Les quatre sont listés dans la catégorie Applications de bureau ci-dessus.
Puis-je faire tourner ces outils sur un serveur et y accéder à distance ?
La plupart des outils serveur (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) exposent une API HTTP et se lient à une interface réseau configurable dans les paramètres. Schéma habituel : Ollama sur un serveur domestique ou VPS, une interface sur votre ordinateur portable ou téléphone pointant vers l'IP du serveur. Traitez l'API comme tout service web — liez à localhost derrière un proxy inverse, ou à un réseau privé avec authentification. Open WebUI inclut le support multi-utilisateurs nativement.
Quels outils supportent les setups multi-utilisateurs / équipe ?
Open WebUI, LibreChat, h2oGPT, AnythingLLM (avec les fonctionnalités admin activées) et Dify sont conçus pour un usage multi-utilisateurs, avec contrôle d'accès basé sur les rôles et historique de conversations par utilisateur. vLLM est la bonne couche de serving en dessous lorsque l'inférence simultanée est importante — il regroupe les requêtes de plusieurs utilisateurs pour un débit inatteignable avec Ollama au-delà de ~3 requêtes simultanées.
À quelle fréquence ce répertoire est-il mis à jour ?
Tous les six mois — la prochaine révision planifiée est en novembre 2026. Les modifications intermédiaires (un projet devient inactif, un nouvel outil gagne des parts de marché, une licence change) sont intégrées comme correctifs. Les nouvelles catégories attendent une révision pour maintenir la stabilité de la structure. La section « Sources » liste les index communautaires utilisés pour surveiller l'écosystème entre les révisions.