Quels sont les meilleurs outils LLM locaux pour faire tourner l'IA sur son propre matériel en 2026 ?

Commencez par un runtime — Ollama est le chemin le plus rapide pour presque tout le monde, llama.cpp pour un contrôle de bas niveau, vLLM pour servir plusieurs utilisateurs en parallèle. Ajoutez une application bureau (LM Studio, Jan, GPT4All) ou une interface web (Open WebUI, LibreChat) pour le chat. Intégrez un assistant de codage (Continue.dev, Cline, Aider) pour l'autocomplétion et le chat dans votre IDE. Ajoutez un système RAG (AnythingLLM, PrivateGPT) pour interroger vos propres documents. Le catalogue couvre aussi les frameworks d'agents, voix et multimodal, clients mobiles et intégrations Obsidian/Logseq. Choisissez d'abord un runtime — Ollama (le plus simple), llama.cpp (fondamental) ou vLLM (multi-utilisateurs) couvrent 95 % des cas.. Ajoutez une interface de chat — LM Studio (meilleure GUI), Jan (axé vie privée) ou Open WebUI (navigateur, auto-hébergement populaire).. Pour le codage : Continue.dev pour l'autocomplétion et le chat, Cline pour les éditions autonomes, Aider pour le travail en terminal natif git.. Pour le RAG : AnythingLLM (le plus simple), PrivateGPT (hors ligne), Open WebUI (RAG intégré dans l'interface de chat).. Sur mobile : MLC Chat ou PocketPal AI sur Android, Private LLM ou Enchanted sur iOS — tous exécutent des modèles 2-4B utilisables sur les téléphones haut de gamme.

Répertoire de logiciels LLM locaux 2026 : 70+ outils

L'écosystème LLM local en 2026 est assez vaste pour que le mauvais choix initial coûte des heures. Ce répertoire recense 87 projets activement maintenus en neuf couches — runtimes, applications bureau, interfaces web, assistants de codage, systèmes RAG, frameworks d'agents, voix et multimodal, clients mobiles, plugins de productivité — avec description, licence et URL pour chacun. Utilisez-le comme carte d'orientation avant de vous engager dans une stack.

Points clés

Neuf couches, 87 projets, une carte. Runtimes, applications bureau, interfaces web, assistants de codage, systèmes RAG, frameworks d'agents, voix/multimodal, clients mobiles et plugins de productivité — presque tous les projets populaires de 2026 s'inscrivent dans exactement une couche.
Choisissez d'abord un runtime. Ollama est la valeur par défaut pour ~95 % des utilisateurs ; llama.cpp est le moteur fondateur derrière la plupart des autres outils ; vLLM est le choix de production pour les déploiements multi-utilisateurs sur GPU.
La plupart des couches au-dessus du runtime sont optionnelles. Une application bureau OU une interface web suffit pour le chat. Ajoutez un assistant de codage uniquement si vous souhaitez une intégration IDE ; un système RAG uniquement pour interroger vos documents.
La licence compte pour un usage commercial. MIT et Apache 2.0 dominent l'écosystème. AGPL apparaît sur quelques interfaces (text-generation-webui, KoboldCpp, Jan, SillyTavern) — acceptable pour un usage personnel, à examiner avec soin pour un déploiement commercial.
Les stacks multi-outils sont la norme. Ollama + Open WebUI + AnythingLLM + Continue.dev couvre le chat, le RAG et le codage sur une seule machine. Le tableau « Stacks courants en production » ci-dessous liste les recettes qui fonctionnent réellement en 2026.

1. Runtimes & moteurs d'inférence LLM locaux

Un runtime est le moteur qui charge les poids du modèle en mémoire et transforme les invites en tokens. C'est le premier choix d'une stack LLM locale et celui qui conditionne tout ce qui se trouve au-dessus. Ollama domine la part de marché en 2026 grâce à son API compatible OpenAI et son installation en une commande ; llama.cpp est le moteur C++ sous-jacent à la plupart des autres outils ; vLLM est le choix pour les déploiements à accès concurrent sur GPU.

Tool	Link	Description	Licence
Ollama	ollama.com	Le plus simple — installation en une commande, API compatible OpenAI, vaste bibliothèque de modèles	MIT
llama.cpp	github.com/ggml-org/llama.cpp	Moteur C++ fondateur derrière la plupart des autres outils, fonctionne partout dont Apple Silicon	MIT
vLLM	github.com/vllm-project/vllm	Serving haute performance pour déploiements GPU multi-utilisateurs	Apache 2.0
LocalAI	localai.io	Remplacement drop-in de l'API OpenAI, compatible avec plusieurs backends	MIT
TensorRT-LLM	github.com/NVIDIA/TensorRT-LLM	Inférence optimisée NVIDIA pour configurations GPU enterprise	Apache 2.0
MLC LLM	mlc.ai/mlc-llm	Runtime de déploiement pour appareils mobiles et edge	Apache 2.0
SGLang	github.com/sgl-project/sglang	Serving d'inférence structurée pour pipelines d'agents	Apache 2.0
ExLlamaV2	github.com/turboderp-org/exllamav2	Inférence quantifiée rapide, optimisée pour les GPU RTX	MIT
KoboldCpp	github.com/LostRuins/koboldcpp	Wrapper llama.cpp léger avec interface intégrée	AGPL 3.0
Llamafile	github.com/Mozilla-Ocho/llamafile	Exécution LLM portable en fichier unique par Mozilla	Apache 2.0
MLX-LM	github.com/ml-explore/mlx-examples	Runtime natif Apple Silicon par Apple Research	MIT

Comparatif approfondi : llama.cpp vs Ollama vs vLLM

2. Applications de bureau (GUI)

Les applications bureau encapsulent un runtime dans une interface de chat et un navigateur de modèles. C'est le point d'entrée pour la plupart des utilisateurs non techniques — télécharger, cliquer, discuter. LM Studio, Jan et GPT4All détiennent l'essentiel de la base utilisateurs en 2026 ; AnythingLLM fait office d'application bureau et de couche RAG ; Open Interpreter est le cas particulier qui permet à un modèle local de piloter votre ordinateur.

Tool	Link	Description	Licence
LM Studio	lmstudio.ai	Interface la plus aboutie, navigateur HuggingFace intégré, mode serveur	Gratuit (propriétaire)
Jan	jan.ai	Clone ChatGPT hors ligne axé vie privée, entièrement open source	AGPL 3.0
GPT4All	nomic.ai/gpt4all	Accessible aux débutants, excellent support CPU uniquement	MIT
AnythingLLM	anythingllm.com	RAG et chat sur documents avec store vectoriel intégré	MIT
Msty	msty.app	UX grand public épurée, support multi-fournisseurs	Gratuit (propriétaire)
Cherry Studio	cherry-ai.com	IA bureau multi-fournisseurs avec personnalisation étendue	Apache 2.0
Faraday	faraday.dev	Client bureau pour le chat de personnages et le jeu de rôle	Gratuit (propriétaire)
Enchanted	enchantedlabs.ai	Client Ollama minimal natif macOS/iOS	MIT
h2oGPT	github.com/h2oai/h2ogpt	Application bureau et serveur riche en fonctionnalités enterprise	Apache 2.0
Open Interpreter	github.com/OpenInterpreter/open-interpreter	Permet à un LLM local de contrôler votre ordinateur et d'exécuter du code	AGPL 3.0

Comparatif approfondi : LM Studio vs Jan vs GPT4All

3. Interfaces web & frontends navigateur

Les interfaces web sont des clones ChatGPT auto-hébergés — même surface conversationnelle, mais pointant vers un runtime sur votre propre machine ou réseau local. Elles conviennent particulièrement pour un accès multi-appareils ou un usage en équipe. Open WebUI domine le segment auto-hébergé en 2026, LibreChat est l'alternative orientée équipe, SillyTavern est l'interface dédiée au jeu de rôle.

Tool	Link	Description	Licence
Open WebUI	openwebui.com	Interface auto-hébergée la plus populaire, style ChatGPT, RAG intégré	BSD 3-Clause
LibreChat	librechat.ai	Alternative ChatGPT multi-modèles avec fonctionnalités équipe	MIT
text-generation-webui	github.com/oobabooga/text-generation-webui	Interface power-user avec écosystème de plugins étendu	AGPL 3.0
SillyTavern	github.com/SillyTavern/SillyTavern	Jeu de rôle et chat de personnages avec lorebooks	AGPL 3.0
LobeChat	lobehub.com	Interface moderne et soignée avec place de marché de plugins	MIT
Big-AGI	github.com/enricoros/big-AGI	Frontend multi-fournisseurs avancé avec personas	MIT
NextChat	github.com/ChatGPTNextWeb/NextChat	Chat web léger, déploiement simplifié	MIT
Page Assist	github.com/n4ze3m/page-assist	IA en barre latérale navigateur pour Chrome et Firefox	MIT
Chatbox	chatboxai.app	Client bureau et web multiplateforme	GPLv3

Comparatif approfondi : SillyTavern vs Agnai vs RisuAI

4. Assistants de codage & intégrations IDE

Les assistants de codage connectent un LLM local à votre éditeur ou terminal via des API compatibles OpenAI. Le choix dépend surtout du workflow : autocomplétion dans l'éditeur (Continue.dev), éditions autonomes par agent (Cline, OpenHands) ou éditions diff natives git en terminal (Aider). Les trois patterns fonctionnent avec tout runtime supportant le protocole OpenAI Chat Completions — Ollama est le backend le plus courant en 2026.

Tool	Link	Description	Licence
Continue.dev	continue.dev	Autocomplétion et chat VS Code et JetBrains avec modèles locaux	Apache 2.0
Aider	aider.chat	Pair-programmeur en terminal avec support d'édition multi-fichiers	Apache 2.0
Cline	cline.bot	Agent de codage autonome pour VS Code	Apache 2.0
Tabby	tabby.tabbyml.com	Alternative auto-hébergée à GitHub Copilot	Apache 2.0
CodeGPT	codegpt.co	Intégrations IDE pour plusieurs éditeurs	MIT
OpenHands	github.com/All-Hands-AI/OpenHands	Agent développeur logiciel IA (anciennement OpenDevin)	MIT
Cursor (mode local)	cursor.com	Éditeur de code centré IA avec support de modèles locaux	Gratuit (propriétaire)
Twinny	github.com/twinnydotdev/twinny	Alternative Copilot gratuite pour VS Code	MIT

Comparatif approfondi : Continue.dev vs Cline vs Aider

5. Systèmes RAG & chat sur documents

**Les systèmes RAG (Retrieval-Augmented Generation) combinent un LLM local avec un modèle d'embedding et un store vectoriel pour que le modèle puisse répondre à partir de vos propres documents.** La distinction est entre les applications clés en main (AnythingLLM, PrivateGPT, Quivr, Khoj) et les bibliothèques de framework (LlamaIndex, Haystack, txtai) sur lesquelles vous construisez. RAGFlow a gagné des parts de marché en 2026 pour les documents nécessitant une extraction de citations précise.

Tool	Link	Description	Licence
AnythingLLM	anythingllm.com	RAG personnel tout-en-un le plus simple, avec espaces de travail	MIT
PrivateGPT	github.com/zylon-ai/private-gpt	RAG entièrement hors ligne, orienté entreprise	Apache 2.0
Quivr	github.com/QuivrHQ/quivr	Assistant de connaissance personnelle auto-hébergé	Apache 2.0
Khoj	khoj.dev	Second cerveau IA personnel, synchronisé avec Obsidian et Notion	AGPL 3.0
Dify	dify.ai	Constructeur de workflows IA avec support RAG et agents	Modified Apache 2.0
Flowise	flowiseai.com	Constructeur visuel de workflows LangChain	Apache 2.0
Langflow	langflow.org	Orchestration IA visuelle avec composants RAG	MIT
LlamaIndex	llamaindex.ai	Framework RAG / bibliothèque Python — base pour les développements sur mesure	MIT
Haystack	haystack.deepset.ai	Framework de recherche et RAG par deepset	Apache 2.0
RAGFlow	ragflow.io	Compréhension approfondie des documents pour le RAG avec extraction de citations	Apache 2.0
txtai	github.com/neuml/txtai	Base de données vectorielle et LLM intégrée en une seule bibliothèque	Apache 2.0

Comparatif approfondi : AnythingLLM vs PrivateGPT vs Open WebUI

6. Frameworks d'agents & orchestration

Les frameworks d'agents transforment les appels LLM en une seule passe en workflows multi-étapes — planifier, agir, observer, répéter. LangChain reste la valeur par défaut généraliste ; CrewAI et AutoGen se spécialisent dans les setups multi-agents basés sur les rôles ; LangGraph est le bon choix lorsque la gestion d'état sur des flux longs est essentielle. Les huit frameworks ci-dessous fonctionnent avec un backend Ollama local.

Tool	Link	Description	Licence
LangChain	langchain.com	Framework d'application LLM généraliste	MIT
LlamaIndex	llamaindex.ai	Framework d'agents et de données orienté RAG	MIT
CrewAI	crewai.com	Workflows multi-agents basés sur les rôles	MIT
AutoGen	github.com/microsoft/autogen	Framework d'orchestration multi-agents Microsoft	CC-BY-4.0 / MIT
Semantic Kernel	learn.microsoft.com/semantic-kernel	SDK d'orchestration enterprise Microsoft en C#/Python/Java	MIT
LangGraph	langchain-ai.github.io/langgraph	Workflows d'agents en graphe avec gestion d'état	MIT
Letta (ex-MemGPT)	letta.com	Agents avec mémoire à long terme	Apache 2.0
Pydantic AI	ai.pydantic.dev	Framework d'agents typé construit sur Pydantic	MIT

Article approfondi : Agents IA locaux avec MCP

7. Voix, parole & multimodal

Les stacks voix et multimodal étendent un LLM local au-delà du texte — reconnaissance vocale (STT), synthèse vocale (TTS) et vision. Whisper.cpp et faster-whisper dominent la couche STT locale ; Piper et Coqui se partagent la couche TTS avec XTTS v2 en tête pour le clonage vocal ; LLaVA et les modèles vision Ollama couvrent la partie vision. Un assistant vocal entièrement hors ligne est faisable avec cette couche et un petit modèle de chat.

Tool	Link	Description	Licence
Whisper.cpp	github.com/ggerganov/whisper.cpp	Reconnaissance vocale locale, fonctionne sur CPU ou GPU	MIT
faster-whisper	github.com/SYSTRAN/faster-whisper	Transcription Whisper rapide via CTranslate2	MIT
Piper TTS	github.com/rhasspy/piper	Synthèse vocale locale légère	MIT
Coqui TTS	coqui.ai	Synthèse vocale open source avec plusieurs options de modèles	MPL 2.0
XTTS v2	docs.coqui.ai/en/latest/models/xtts.html	Clonage vocal avec support multilingue	CPML
Bark	github.com/suno-ai/bark	Synthèse vocale générative avec sons non-verbaux	MIT
StyleTTS 2	github.com/yl4579/StyleTTS2	TTS naturelle de haute qualité	MIT
LLaVA	llava-vl.github.io	Modèle local vision + langage	Apache 2.0
Modèles vision Ollama	ollama.com	Vision locale via Ollama (Llama 3.2 Vision, Llava, etc.)	Divers

Article approfondi : Construire un assistant vocal local sur mobile

8. Clients mobiles & edge

Les clients mobiles exécutent un modèle quantifié directement sur le téléphone via Apple Neural Engine, Qualcomm NPU ou inférence CPU pure. Le projet MLC LLM est la couche fondatrice ; les applications grand public (PocketPal AI, Private LLM, LLM Farm, Layla) l'encapsulent dans une interface de chat. Les téléphones haut de gamme 2026 exécutent des modèles 2-4B à des vitesses utilisables (8–15 tokens/sec) ; les modèles 7B sont en limite de faisabilité.

Tool	Link	Description	Licence
MLC Chat	mlc.ai/mlc-llm	Runtime LLM mobile multiplateforme	Apache 2.0
PocketPal AI	github.com/a-ghorbani/pocketpal-ai	Client LLM local gratuit pour iOS et Android	MIT
Private LLM	privatellm.app	Application iOS et macOS soignée pour LLM locaux	Payant (propriétaire)
LLM Farm	github.com/guinmoon/LLMFarm	Client iOS pour LLM locaux avec navigateur de modèles	MIT
Layla	layla-network.ai	Application LLM local d'abord Android	Gratuit (propriétaire)
Maid	github.com/Mobile-Artificial-Intelligence/maid	Application Flutter mobile open source pour LLM	MIT
Enchanted	enchantedlabs.ai	Client Ollama natif iOS/macOS	MIT
Chapper	prevolut.uk	Client mobile natif pour Ollama et LM Studio	Gratuit
RikkaHub	github.com/rikkahub/rikkahub	IA locale Android open source	MIT
AnythingLLM Mobile	anythingllm.com	Accès distant à votre espace de travail AnythingLLM local	MIT

Article approfondi : Meilleures applications LLM locales pour iPhone en 2026

9. Outils spécialisés & productivité

Les outils spécialisés intègrent les LLM locaux dans des applications déjà utilisées — plateformes de prise de notes (Obsidian, Logseq, Joplin), agents de tâches autonomes (AutoGPT, BabyAGI, MetaGPT) et frontends de jeu de rôle (Agnai, RisuAI). Ce ne sont pas des interfaces de chat génériques ; ce sont des intégrations spécifiques à un workflow qui supposent que vous disposez déjà d'une application hôte et d'un runtime.

Tool	Link	Description	Licence
Smart Connections	github.com/brianpetro/obsidian-smart-connections	Plugin Obsidian de recherche sémantique et chat	GPL 3.0
Copilot for Obsidian	github.com/logancyang/obsidian-copilot	Plugin Obsidian de chat LLM local	AGPL 3.0
Text Generator	github.com/nhaouari/obsidian-textgenerator-plugin	Plugin Obsidian de génération de contenu	MIT
logseq-copilot	github.com/logancyang/logseq-copilot	Plugin Logseq pour chat LLM local et cloud, même auteur qu'Obsidian Copilot	AGPL 3.0
BMO Chatbot	github.com/longy2k/obsidian-bmo-chatbot	Chatbot Obsidian avec LLM local	MIT
Joplin AI	joplinapp.org	Notes Joplin avec intégrations IA locales	MIT
AutoGPT (local)	github.com/Significant-Gravitas/AutoGPT	Agent de tâches autonome avec support Ollama	MIT
BabyAGI	github.com/yoheinakajima/babyagi	Agent autonome léger	MIT
MetaGPT	github.com/geekan/MetaGPT	Simulation multi-agents d'une entreprise logicielle	MIT
Agnai	agnai.chat	Frontend de jeu de rôle avec cartes de personnages	MIT
RisuAI	github.com/kwaroran/RisuAI	Frontend de jeu de rôle adapté au mobile	GPL 3.0

Article approfondi : LLM local avec Obsidian en 2026

Stacks courants en production

Pour les lecteurs qui ne souhaitent pas parcourir les neuf catégories : choisissez la stack la plus proche et copiez-la. Chaque ligne associe un objectif concret à une combinaison éprouvée et au matériel minimum réellement nécessaire.

Objectif	Stack	Matériel minimum
Chat occasionnel	LM Studio standalone	16 Go RAM, pas de GPU
Meilleur équilibre pour utilisateurs avancés	Ollama + Open WebUI	16 Go RAM, GPU optionnel
Chat sur documents	Ollama + AnythingLLM	16 Go RAM, GPU optionnel
Codage	Ollama + Continue.dev	16 Go RAM + GPU recommandé
Jeu de rôle / créatif	KoboldCpp + SillyTavern	16 Go RAM, GPU recommandé
Confidentialité professionnelle	Ollama + Open WebUI + PrivateGPT	32 Go RAM + 12 Go VRAM
Mobile / nomade	MLC Chat ou PocketPal AI	iPhone 13+ / Pixel 7+
Apple Silicon	Ollama (backend MLX) ou LM Studio	M2/M3/M4/M5 avec 16+ Go unifié
Équipe multi-utilisateurs	vLLM + Open WebUI	32+ Go RAM + multi-GPU

Mise à jour du répertoire

Ce répertoire est révisé tous les six mois (prochaine mise à jour : novembre 2026). Critères d'inclusion : le projet est activement maintenu (commits dans les 90 derniers jours), dispose d'une licence open source vérifiable ou d'une déclaration claire sur l'usage commercial, et détient soit une part d'utilisateurs significative en 2026, soit occupe une couche qui serait autrement vide. Les projets inactifs depuis plus de deux cycles de version sont supprimés ; les nouveaux entrants satisfaisant les critères sont ajoutés à la prochaine révision. Pour suggérer un projet, ouvrez une issue ou une PR dans le dépôt PromptQuorum — indiquez l'URL du projet, la licence et une description d'une phrase dans le format des tableaux ci-dessus. La CNIL recommande le recours à l'IA locale pour le traitement de données professionnelles sensibles (données médicales, juridiques, financières) afin de limiter les transferts hors de l'espace économique européen.

Sources

ggml-org/llama.cpp GitHub — Source principale pour l'architecture du runtime et les modèles supportés.
Ollama Library — Catalogue officiel de modèles et documentation du runtime.
LM Studio Documentation — Référence des fonctionnalités de l'application bureau dominante.
Open WebUI Documentation — Référence des fonctionnalités de l'interface web auto-hébergée dominante.
Hugging Face Hub — Source principale de téléchargement des poids de modèles utilisés par chaque runtime listé.
awesome-local-llm GitHub — Inventaire communautaire utilisé comme vérification de l'inclusion des projets.

FAQ

Quelle est la différence entre un runtime LLM local et une application de bureau ?

Un runtime (Ollama, llama.cpp, vLLM) est le moteur qui charge les poids du modèle et expose une API — généralement compatible OpenAI. Une application de bureau (LM Studio, Jan, GPT4All) est une interface de chat qui appelle un runtime en arrière-plan. Certaines applications intègrent leur propre runtime (LM Studio embarque llama.cpp), d'autres nécessitent une installation séparée (Open WebUI appelle Ollama). Le runtime détermine ce qui est possible ; l'application détermine ce qui est pratique.

Puis-je utiliser plusieurs outils de cette liste simultanément ?

Oui — la plupart des stacks combinent 2 à 4 outils. Une configuration courante : Ollama comme runtime, Open WebUI pour le chat, AnythingLLM pour le chat sur documents et Continue.dev pour le codage — les quatre s'appuient sur la même instance Ollama sur une seule machine. Le tableau « Stacks courants en production » liste les recettes qui fonctionnent sans conflit.

Quels outils fonctionnent entièrement hors ligne sans télémétrie ?

Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM et la plupart des applications sous licence AGPL/MIT fonctionnent entièrement hors ligne une fois le modèle téléchargé. LM Studio et plusieurs outils propriétaires disposent d'analyses optionnelles désactivables dans les paramètres — vérifiez avec une capture réseau après l'installation. Les interfaces web (Open WebUI, LibreChat) sont locales lorsqu'elles sont configurées avec un backend local.

Certains de ces outils sont-ils sous licence commerciale (non libres pour un usage commercial) ?

Quelques-uns : LM Studio, Msty, Faraday, Layla et Cursor sont propriétaires — généralement gratuits à l'usage mais non redistribuables, et les conditions commerciales varient. Private LLM est payant. Les outils sous licence AGPL (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) sont libres pour tout usage y compris commercial, mais les conditions AGPL exigent la divulgation du code source si vous les modifiez et les hébergez publiquement. Les projets Apache 2.0 et MIT (la majorité) sont utilisables dans tout contexte sans contraintes significatives.

Quels outils supportent Apple Silicon (puces M) nativement ?

Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM et la plupart des applications Electron/Tauri fonctionnent nativement sur Apple Silicon avec le backend Metal. MLX-LM est spécifique à Apple et le plus rapide sur M-series pour les grands modèles. vLLM, TensorRT-LLM et ExLlamaV2 sont centrés NVIDIA et ne fonctionnent pas ou mal sur Apple Silicon — pour les utilisateurs Apple, Ollama avec le backend Metal est la recommandation par défaut.

Tous ces outils supportent-ils le format GGUF ?

GGUF est le format natif de llama.cpp et tout outil qui s'appuie dessus (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM et TensorRT-LLM utilisent leurs propres formats optimisés (généralement AWQ ou FP16). ExLlamaV2 utilise la quantification EXL2. MLX-LM utilise des poids convertis MLX. La plupart des outils listés acceptent GGUF ; quelques-uns (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) nécessitent une étape de conversion à partir des poids Hugging Face d'origine.

Quels outils conviennent aux utilisateurs sans expérience en programmation ?

GPT4All offre l'installation la plus simple (un clic, fonctionne avec 8 Go RAM). LM Studio est le plus riche en fonctionnalités sans nécessiter de terminal. Jan est l'option sans code la plus axée vie privée. Pour le chat sur documents sans ligne de commande, AnythingLLM est le plus simple. Les quatre sont listés dans la catégorie Applications de bureau ci-dessus.

Puis-je faire tourner ces outils sur un serveur et y accéder à distance ?

La plupart des outils serveur (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) exposent une API HTTP et se lient à une interface réseau configurable dans les paramètres. Schéma habituel : Ollama sur un serveur domestique ou VPS, une interface sur votre ordinateur portable ou téléphone pointant vers l'IP du serveur. Traitez l'API comme tout service web — liez à localhost derrière un proxy inverse, ou à un réseau privé avec authentification. Open WebUI inclut le support multi-utilisateurs nativement.

Quels outils supportent les setups multi-utilisateurs / équipe ?

Open WebUI, LibreChat, h2oGPT, AnythingLLM (avec les fonctionnalités admin activées) et Dify sont conçus pour un usage multi-utilisateurs, avec contrôle d'accès basé sur les rôles et historique de conversations par utilisateur. vLLM est la bonne couche de serving en dessous lorsque l'inférence simultanée est importante — il regroupe les requêtes de plusieurs utilisateurs pour un débit inatteignable avec Ollama au-delà de ~3 requêtes simultanées.

À quelle fréquence ce répertoire est-il mis à jour ?

Tous les six mois — la prochaine révision planifiée est en novembre 2026. Les modifications intermédiaires (un projet devient inactif, un nouvel outil gagne des parts de marché, une licence change) sont intégrées comme correctifs. Les nouvelles catégories attendent une révision pour maintenir la stabilité de la structure. La section « Sources » liste les index communautaires utilisés pour surveiller l'écosystème entre les révisions.

Le répertoire complet des logiciels LLM locaux : 70+ outils pour faire tourner l'IA sur votre propre matériel (2026)