Conclusiones clave
- Nueve capas, 87 proyectos, un mapa. Runtimes, apps de escritorio, interfaces web, asistentes de código, sistemas RAG, frameworks de agentes, voz/multimodal, clientes móviles y plugins de productividad especializados — casi todos los proyectos populares de 2026 encajan exactamente en una capa.
- Elige primero un runtime. Ollama es la opción predeterminada adecuada para ~95% de los lectores; llama.cpp es el motor fundamental detrás de la mayoría de las otras herramientas; vLLM es la opción de producción para despliegues multiusuario en GPU real.
- La mayoría de las capas por encima del runtime son opcionales. Una app de escritorio O una interfaz web es suficiente para el chat. Agrega un asistente de código solo cuando quieras integración IDE; agrega un sistema RAG solo cuando quieras chatear con tus propios documentos; agrega un framework de agentes solo cuando las llamadas de un solo paso dejen de ser suficientes.
- La licencia importa para el uso comercial. MIT y Apache 2.0 dominan el ecosistema. AGPL aparece en algunas interfaces (text-generation-webui, KoboldCpp, Jan, SillyTavern) — perfecto para uso personal, más deliberado para despliegues comerciales. La columna "Licencia" a continuación nombra cada una explícitamente.
- Los stacks multiherramienta son la norma. Ollama + Open WebUI + AnythingLLM + Continue.dev es una configuración de una sola máquina que cubre chat, RAG y código sin compromiso. La tabla "Stacks comunes en producción" a continuación nombra las recetas que realmente funcionan en 2026.
1. Runtimes y motores de inferencia LLM local
Un runtime es el motor que carga los pesos del modelo en memoria y convierte prompts en tokens. Es la primera decisión en un stack LLM local y la que condiciona todo lo que está por encima — cada app de escritorio, interfaz web y asistente de código llama en última instancia a un runtime. Ollama domina la cuota de mercado orientada al usuario en 2026 porque incluye una API compatible con OpenAI y una instalación de un solo comando; llama.cpp es el motor C++ que subyace a la mayoría de las otras herramientas; vLLM es la opción adecuada cuando necesitas atender usuarios concurrentes en una GPU real.
| Tool | Link | Descripción | Licencia |
|---|---|---|---|
| Ollama | ollama.com | El más fácil en general — instalación de un comando, API compatible con OpenAI, enorme biblioteca de modelos | MIT |
| llama.cpp | github.com/ggml-org/llama.cpp | Motor C++ fundamental detrás de la mayoría de las otras herramientas, funciona en cualquier lugar incluyendo Apple Silicon | MIT |
| vLLM | github.com/vllm-project/vllm | Serving de alto rendimiento para despliegues GPU multiusuario | Apache 2.0 |
| LocalAI | localai.io | Reemplazo drop-in de la API de OpenAI que soporta múltiples backends | MIT |
| TensorRT-LLM | github.com/NVIDIA/TensorRT-LLM | Inferencia optimizada por NVIDIA para configuraciones GPU enterprise | Apache 2.0 |
| MLC LLM | mlc.ai/mlc-llm | Runtime de despliegue para dispositivos móviles y edge | Apache 2.0 |
| SGLang | github.com/sgl-project/sglang | Serving de inferencia estructurada para pipelines de agentes | Apache 2.0 |
| ExLlamaV2 | github.com/turboderp-org/exllamav2 | Inferencia cuantizada rápida optimizada para GPUs RTX | MIT |
| KoboldCpp | github.com/LostRuins/koboldcpp | Wrapper ligero de llama.cpp con interfaz integrada | AGPL 3.0 |
| Llamafile | github.com/Mozilla-Ocho/llamafile | Ejecución LLM portable en un solo archivo por Mozilla | Apache 2.0 |
| MLX-LM | github.com/ml-explore/mlx-examples | Runtime nativo de Apple Silicon por Apple Research | MIT |
Guía más detallada: llama.cpp vs Ollama vs vLLM
2. Aplicaciones de escritorio (GUI)
Las apps de escritorio envuelven un runtime en una interfaz de chat y un explorador de modelos. Son donde la mayoría de los usuarios no técnicos comienzan porque no hay paso de terminal — descargar, hacer clic, chatear. LM Studio, Jan y GPT4All tienen la mayor parte de la base de usuarios en 2026; AnythingLLM también funciona como app de escritorio y capa RAG; Open Interpreter es el caso especial que permite a un modelo local controlar tu computadora.
| Tool | Link | Descripción | Licencia |
|---|---|---|---|
| LM Studio | lmstudio.ai | La GUI más pulida, explorador de modelos de HuggingFace integrado, modo servidor | Gratuito (cerrado) |
| Jan | jan.ai | Clon offline de ChatGPT centrado en la privacidad, totalmente open-source | AGPL 3.0 |
| GPT4All | nomic.ai/gpt4all | Apto para principiantes con fuerte soporte de solo CPU | MIT |
| AnythingLLM | anythingllm.com | RAG y chat de documentos con almacén vectorial integrado | MIT |
| Msty | msty.app | UX de consumidor limpia, soporte multi-proveedor | Gratuito (cerrado) |
| Cherry Studio | cherry-ai.com | IA de escritorio multi-proveedor con personalización extensa | Apache 2.0 |
| Faraday | faraday.dev | Cliente de escritorio para chat de personajes y juego de rol | Gratuito (cerrado) |
| Enchanted | enchantedlabs.ai | Cliente Ollama mínimo nativo de macOS/iOS | MIT |
| h2oGPT | github.com/h2oai/h2ogpt | Escritorio y servidor con muchas funciones enterprise | Apache 2.0 |
| Open Interpreter | github.com/OpenInterpreter/open-interpreter | Permite que un LLM local controle tu computadora y ejecute código | AGPL 3.0 |
Guía más detallada: LM Studio vs Jan vs GPT4All
3. Interfaces web y frontends de navegador
Las interfaces web son clones de ChatGPT autoalojados — la misma superficie conversacional, pero apuntando a un runtime que corre en tu propia máquina o LAN. Son la opción natural cuando quieres acceso multidispositivo (laptop, teléfono, tablet apuntando a un servidor) o uso en equipo. Open WebUI domina el segmento de self-hosting en 2026, con LibreChat como alternativa de funciones de equipo y SillyTavern como la interfaz dedicada al juego de rol.
| Tool | Link | Descripción | Licencia |
|---|---|---|---|
| Open WebUI | openwebui.com | La interfaz autoalojada estilo ChatGPT más popular, con RAG integrado | BSD 3-Clause |
| LibreChat | librechat.ai | Alternativa a ChatGPT multimodelo con funciones de equipo | MIT |
| text-generation-webui | github.com/oobabooga/text-generation-webui | Interfaz para usuarios avanzados con extenso ecosistema de plugins | AGPL 3.0 |
| SillyTavern | github.com/SillyTavern/SillyTavern | Juego de rol y chat de personajes con lorebooks | AGPL 3.0 |
| LobeChat | lobehub.com | Interfaz moderna y pulida con marketplace de plugins | MIT |
| Big-AGI | github.com/enricoros/big-AGI | Frontend multi-proveedor avanzado con personas | MIT |
| NextChat | github.com/ChatGPTNextWeb/NextChat | Chat web ligero, despliegue sencillo | MIT |
| Page Assist | github.com/n4ze3m/page-assist | IA en barra lateral del navegador para Chrome y Firefox | MIT |
| Chatbox | chatboxai.app | Cliente multiplataforma de escritorio y web | GPLv3 |
Guía más detallada: SillyTavern vs Agnai vs RisuAI
4. Asistentes de código e integraciones IDE
Los asistentes de código conectan un LLM local a tu editor o terminal a través de APIs compatibles con OpenAI. La elección depende principalmente del flujo de trabajo: autocompletado en el editor (Continue.dev), ediciones de agente autónomo (Cline, OpenHands) o ediciones diff nativas de git en el terminal (Aider). Los tres patrones funcionan con cualquier runtime que soporte el protocolo OpenAI Chat Completions — Ollama es el backend más común en 2026.
| Tool | Link | Descripción | Licencia |
|---|---|---|---|
| Continue.dev | continue.dev | Autocompletado y chat en VS Code y JetBrains con modelos locales | Apache 2.0 |
| Aider | aider.chat | Pair programmer en terminal con soporte de edición multifichero | Apache 2.0 |
| Cline | cline.bot | Agente de código autónomo para VS Code | Apache 2.0 |
| Tabby | tabby.tabbyml.com | Alternativa autoalojada a GitHub Copilot | Apache 2.0 |
| CodeGPT | codegpt.co | Integraciones IDE para múltiples editores | MIT |
| OpenHands | github.com/All-Hands-AI/OpenHands | Agente desarrollador de software IA (antes OpenDevin) | MIT |
| Cursor (modo local) | cursor.com | Editor de código centrado en IA con soporte para modelos locales | Gratuito (cerrado) |
| Twinny | github.com/twinnydotdev/twinny | Alternativa gratuita a Copilot para VS Code | MIT |
Guía más detallada: Continue.dev vs Cline vs Aider
5. Sistemas RAG y chat de documentos
**Los sistemas RAG (Retrieval-Augmented Generation) combinan un LLM local con un modelo de embeddings y un almacén vectorial para que el modelo pueda responder desde tus propios documentos.** La división es entre apps llave en mano (AnythingLLM, PrivateGPT, Quivr, Khoj) que "simplemente funcionan" y bibliotecas de framework (LlamaIndex, Haystack, txtai) sobre las que puedes construir. RAGFlow ha ganado cuota en 2026 específicamente para documentos que necesitan extracción de citas de calidad.
| Tool | Link | Descripción | Licencia |
|---|---|---|---|
| AnythingLLM | anythingllm.com | RAG personal todo-en-uno más fácil, con espacios de trabajo | MIT |
| PrivateGPT | github.com/zylon-ai/private-gpt | RAG completamente offline orientado a empresas | Apache 2.0 |
| Quivr | github.com/QuivrHQ/quivr | Asistente de conocimiento personal autoalojado | Apache 2.0 |
| Khoj | khoj.dev | Segundo cerebro IA personal, sincronizado con Obsidian y Notion | AGPL 3.0 |
| Dify | dify.ai | Constructor de flujos de trabajo IA con soporte RAG y agentes | Modified Apache 2.0 |
| Flowise | flowiseai.com | Constructor visual de flujos de trabajo LangChain | Apache 2.0 |
| Langflow | langflow.org | Orquestación visual de IA con componentes RAG | MIT |
| LlamaIndex | llamaindex.ai | Framework RAG / biblioteca Python — base para desarrollos personalizados | MIT |
| Haystack | haystack.deepset.ai | Framework de búsqueda y RAG por deepset | Apache 2.0 |
| RAGFlow | ragflow.io | Comprensión profunda de documentos para RAG con extracción de citas | Apache 2.0 |
| txtai | github.com/neuml/txtai | Base de datos vectorial + LLM integrada en una sola biblioteca | Apache 2.0 |
Guía más detallada: AnythingLLM vs PrivateGPT vs Open WebUI
6. Frameworks de agentes y orquestación
Los frameworks de agentes convierten las llamadas de un solo paso a un LLM en flujos de trabajo de varios pasos — planificar, actuar, observar, repetir. LangChain sigue siendo el estándar de propósito general; CrewAI y AutoGen se especializan en configuraciones multiagente basadas en roles; LangGraph es la opción correcta cuando la gestión de estado importa a lo largo de flujos de larga duración. Los ocho frameworks a continuación funcionan perfectamente con un backend local de Ollama.
| Tool | Link | Descripción | Licencia |
|---|---|---|---|
| LangChain | langchain.com | Framework de aplicaciones LLM de propósito general | MIT |
| LlamaIndex | llamaindex.ai | Framework de agentes y datos centrado en RAG | MIT |
| CrewAI | crewai.com | Flujos de trabajo multiagente basados en roles | MIT |
| AutoGen | github.com/microsoft/autogen | Framework de orquestación multiagente de Microsoft | CC-BY-4.0 / MIT |
| Semantic Kernel | learn.microsoft.com/semantic-kernel | SDK de orquestación enterprise de Microsoft en C#/Python/Java | MIT |
| LangGraph | langchain-ai.github.io/langgraph | Flujos de trabajo de agentes basados en grafos con estado | MIT |
| Letta (antes MemGPT) | letta.com | Agentes con memoria a largo plazo | Apache 2.0 |
| Pydantic AI | ai.pydantic.dev | Framework de agentes con tipos seguros construido sobre Pydantic | MIT |
Guía más detallada: Agentes IA locales con MCP
7. Voz, habla y multimodal
Los stacks de voz y multimodal extienden un LLM local más allá del texto — habla de entrada (STT), habla de salida (TTS) y visión. Whisper.cpp y faster-whisper son los dueños de la capa STT local; Piper y Coqui comparten la capa TTS con XTTS v2 dominando la clonación de voz; LLaVA y los modelos de visión de Ollama cubren el lado visual. Un asistente de voz completamente offline es construible desde esta capa más un pequeño modelo de chat.
| Tool | Link | Descripción | Licencia |
|---|---|---|---|
| Whisper.cpp | github.com/ggerganov/whisper.cpp | Reconocimiento de voz local, funciona en CPU o GPU | MIT |
| faster-whisper | github.com/SYSTRAN/faster-whisper | Transcripción rápida de Whisper mediante CTranslate2 | MIT |
| Piper TTS | github.com/rhasspy/piper | Síntesis de texto a voz local ligera | MIT |
| Coqui TTS | coqui.ai | Síntesis de voz open-source con múltiples opciones de modelos | MPL 2.0 |
| XTTS v2 | docs.coqui.ai/en/latest/models/xtts.html | Clonación de voz con soporte multilingüe | CPML |
| Bark | github.com/suno-ai/bark | Voz generativa con sonidos que no son habla | MIT |
| StyleTTS 2 | github.com/yl4579/StyleTTS2 | TTS de alta calidad y sonido natural | MIT |
| LLaVA | llava-vl.github.io | Modelo local de visión + lenguaje | Apache 2.0 |
| Modelos de visión de Ollama | ollama.com | Visión local mediante Ollama (Llama 3.2 Vision, Llava, etc.) | Varios |
Guía más detallada: Construir un asistente de voz local en tu teléfono
8. Clientes móviles y edge
Los clientes móviles ejecutan un modelo cuantizado directamente en el teléfono usando Apple Neural Engine, Qualcomm NPU o inferencia pura de CPU. El proyecto MLC LLM es la capa fundamental; las apps de consumo (PocketPal AI, Private LLM, LLM Farm, Layla) lo envuelven con una interfaz de chat. Los teléfonos de gama alta en 2026 ejecutan modelos 2-4B a velocidades útiles (8-15 tokens/seg); 7B está en el límite de lo factible para el hardware de más alto nivel.
| Tool | Link | Descripción | Licencia |
|---|---|---|---|
| MLC Chat | mlc.ai/mlc-llm | Runtime LLM móvil multiplataforma | Apache 2.0 |
| PocketPal AI | github.com/a-ghorbani/pocketpal-ai | Cliente LLM local gratuito para iOS y Android | MIT |
| Private LLM | privatellm.app | App LLM local pulida para iOS y macOS | De pago (cerrado) |
| LLM Farm | github.com/guinmoon/LLMFarm | LLM local para iOS con explorador de modelos | MIT |
| Layla | layla-network.ai | App LLM local orientada a Android | Gratuito (cerrado) |
| Maid | github.com/Mobile-Artificial-Intelligence/maid | App Flutter móvil open-source para LLM | MIT |
| Enchanted | enchantedlabs.ai | Cliente Ollama nativo de iOS/macOS | MIT |
| Chapper | prevolut.uk | Cliente móvil nativo para Ollama y LM Studio | Gratuito |
| RikkaHub | github.com/rikkahub/rikkahub | IA local Android de código abierto | MIT |
| AnythingLLM Mobile | anythingllm.com | Acceso remoto a tu espacio de trabajo local de AnythingLLM | MIT |
Guía más detallada: Las mejores apps LLM local para iPhone en 2026
9. Herramientas especializadas y de productividad
Las herramientas especializadas integran LLMs locales en apps que ya usas — plataformas de notas (Obsidian, Logseq, Joplin), agentes de tareas autónomos (AutoGPT, BabyAGI, MetaGPT) y frontends de juego de rol (Agnai, RisuAI). No son interfaces de chat genéricas; son integraciones específicas de flujo de trabajo que asumen que ya tienes una app host y un runtime.
| Tool | Link | Descripción | Licencia |
|---|---|---|---|
| Smart Connections | github.com/brianpetro/obsidian-smart-connections | Plugin de búsqueda semántica y chat para Obsidian | GPL 3.0 |
| Copilot for Obsidian | github.com/logancyang/obsidian-copilot | Plugin de chat LLM local para Obsidian | AGPL 3.0 |
| Text Generator | github.com/nhaouari/obsidian-textgenerator-plugin | Plugin de generación de contenido para Obsidian | MIT |
| logseq-copilot | github.com/logancyang/logseq-copilot | Plugin de Logseq para chat LLM local y en la nube, mismo autor que Obsidian Copilot | AGPL 3.0 |
| BMO Chatbot | github.com/longy2k/obsidian-bmo-chatbot | Chatbot de Obsidian con LLM local | MIT |
| Joplin AI | joplinapp.org | Notas de Joplin con integraciones de IA local | MIT |
| AutoGPT (local) | github.com/Significant-Gravitas/AutoGPT | Agente de tareas autónomo con soporte para Ollama | MIT |
| BabyAGI | github.com/yoheinakajima/babyagi | Agente autónomo ligero | MIT |
| MetaGPT | github.com/geekan/MetaGPT | Simulación de empresa de software con múltiples agentes | MIT |
| Agnai | agnai.chat | Frontend de juego de rol con tarjetas de personajes | MIT |
| RisuAI | github.com/kwaroran/RisuAI | Frontend de juego de rol adaptado para móvil | GPL 3.0 |
Guía más detallada: LLM local con Obsidian en 2026
Stacks comunes en producción
Para los lectores que no quieren leer las nueve categorías, elige el stack más cercano y cópialo. Cada fila empareja un objetivo real con una combinación probada y el hardware mínimo en el que realmente funciona.
| Objetivo | Stack | Hardware mínimo |
|---|---|---|
| Chat casual | LM Studio standalone | 16 GB RAM, sin GPU |
| Mejor equilibrio para usuarios avanzados | Ollama + Open WebUI | 16 GB RAM, GPU opcional |
| Chat de documentos | Ollama + AnythingLLM | 16 GB RAM, GPU opcional |
| Código | Ollama + Continue.dev | 16 GB RAM + GPU recomendada |
| Juego de rol / creativo | KoboldCpp + SillyTavern | 16 GB RAM, GPU recomendada |
| Empresa con privacidad ante todo | Ollama + Open WebUI + PrivateGPT | 32 GB RAM + 12 GB VRAM |
| Móvil / en movimiento | MLC Chat o PocketPal AI | iPhone 13+ / Pixel 7+ |
| Apple Silicon | Ollama (backend MLX) o LM Studio | M2/M3/M4/M5 con 16+ GB unificada |
| Equipo multiusuario | vLLM + Open WebUI | 32+ GB RAM + multi-GPU |
Cómo se mantiene actualizado este directorio
Este directorio se revisa cada seis meses (próxima actualización: noviembre de 2026). Criterios de inclusión: el proyecto está en mantenimiento activo (commits en los últimos 90 días), tiene una licencia open-source verificable o una declaración clara de uso comercial, y o bien tiene una cuota de usuarios significativa en 2026 o llena una capa que de otro modo estaría vacía. Los proyectos que quedan inactivos durante más de dos ciclos de versión se eliminan; los nuevos participantes que cumplan los criterios se añaden en la próxima revisión. Para sugerir un proyecto para su inclusión, abre un issue o PR contra el repositorio de PromptQuorum — incluye la URL del proyecto, la licencia y una descripción de una oración en el formato anterior.
Fuentes
- ggml-org/llama.cpp GitHub — fuente principal para la arquitectura del runtime y los modelos compatibles.
- Ollama Library — catálogo oficial de modelos y documentación del runtime.
- LM Studio Documentation — referencia de funciones para la GUI de escritorio dominante.
- Open WebUI Documentation — referencia de funciones para la interfaz web autoalojada dominante.
- Hugging Face Hub — ubicación principal para descargar los pesos de modelos consumidos por cada runtime listado anteriormente.
- awesome-local-llm GitHub list — inventario mantenido por la comunidad usado como verificación de la inclusión de proyectos.
FAQ
¿Cuál es la diferencia entre un runtime LLM local y una app de escritorio?
Un runtime (Ollama, llama.cpp, vLLM) es el motor que carga los pesos del modelo y sirve una API — típicamente compatible con OpenAI. Una app de escritorio (LM Studio, Jan, GPT4All) es una interfaz de chat que llama a un runtime por detrás. Algunas apps incluyen su propio runtime (LM Studio incorpora llama.cpp), otras requieren que instales un runtime por separado (Open WebUI llama a Ollama). El runtime decide qué es posible; la app decide qué es conveniente.
¿Puedo usar varias herramientas de esta lista al mismo tiempo?
Sí — la mayoría de los stacks combinan 2-4 herramientas. Una configuración común: Ollama como runtime, Open WebUI para chat, AnythingLLM para chat de documentos y Continue.dev para código — las cuatro funcionan con la misma instancia de Ollama en una sola máquina. La tabla "Stacks comunes en producción" arriba lista las recetas que funcionan sin conflicto.
¿Qué herramientas funcionan completamente offline sin telemetría?
Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM y la mayoría de las apps con licencia AGPL/MIT de este directorio funcionan completamente offline una vez descargado el modelo. LM Studio y varias herramientas de código cerrado tienen análisis opcionales que se pueden desactivar en la configuración — verifica con una captura de paquetes una vez después de instalar. Las interfaces web (Open WebUI, LibreChat) son solo locales cuando se configuran para usar un backend local.
¿Alguna de estas herramientas tiene licencia comercial (no gratuita para uso comercial)?
Algunas: LM Studio, Msty, Faraday, Layla y Cursor son de código cerrado — generalmente gratuitas para usar pero no redistribuibles, y los términos comerciales varían. Private LLM es de pago. Las herramientas con licencia AGPL (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) son gratuitas para cualquier uso incluyendo comercial, pero los términos AGPL requieren divulgar el código fuente si las modificas y las alojas públicamente. Los proyectos Apache 2.0 y MIT (la mayoría) son utilizables en cualquier contexto incluyendo comercial sin restricciones de atribución más allá del texto de la licencia.
¿Qué herramientas soportan Apple Silicon (chips de la serie M) de forma nativa?
Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM y la mayoría de las apps Electron/Tauri funcionan de forma nativa en Apple Silicon y usan el backend Metal. MLX-LM es específico de Apple y el más rápido para modelos grandes en chips M-series. vLLM, TensorRT-LLM y ExLlamaV2 están centrados en NVIDIA y no funcionan o funcionan mal en Apple Silicon — para usuarios de Apple, Ollama con el backend Metal es la opción por defecto.
¿Todas estas herramientas soportan el formato de modelo GGUF?
GGUF es el formato nativo de llama.cpp y cualquier herramienta que lo envuelva (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM y TensorRT-LLM usan sus propios formatos optimizados (típicamente AWQ o FP16) para mayor rendimiento. ExLlamaV2 usa cuantización EXL2. MLX-LM usa pesos convertidos a MLX. La mayoría de las herramientas listadas aceptan GGUF; algunas (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) requieren un paso de conversión único desde los pesos originales de Hugging Face.
¿Qué herramientas son mejores para usuarios sin experiencia en código?
GPT4All tiene la instalación más sencilla (un clic, funciona con 8 GB RAM). LM Studio es la más completa en funciones sin necesitar terminal. Jan es la opción sin código más centrada en la privacidad. Para chat de documentos sin trabajo en línea de comandos, AnythingLLM es la más fácil. Las cuatro están listadas en la categoría de Aplicaciones de escritorio (GUI) arriba.
¿Puedo ejecutar estas herramientas en un servidor y acceder a ellas de forma remota?
La mayoría de las herramientas con capacidad de servidor (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) exponen una API HTTP y se vinculan a una interfaz de red configurable en la configuración. Patrón estándar: ejecutar Ollama en un servidor doméstico o VPS, ejecutar una interfaz en tu laptop o teléfono apuntando a la IP del servidor. Trata la API como cualquier servicio web — vincular a localhost detrás de un proxy inverso, o a una red privada con autenticación adecuada. Open WebUI incluye soporte multiusuario de forma nativa.
¿Qué herramientas soportan configuraciones multiusuario / de equipo?
Open WebUI, LibreChat, h2oGPT, AnythingLLM (con funciones de administrador habilitadas) y Dify están diseñados para uso multiusuario, con control de acceso basado en roles e historial de conversaciones por usuario. vLLM es la capa de serving correcta por debajo cuando la inferencia concurrente importa — agrupa solicitudes de múltiples usuarios para un rendimiento inalcanzable con Ollama a una concurrencia por encima de ~3.
¿Con qué frecuencia se actualiza este directorio?
Cada seis meses — la próxima actualización programada es en noviembre de 2026. Los cambios intermedios (un proyecto queda inactivo, una nueva herramienta gana cuota significativa, una licencia cambia) se aplican como parches a la entrada existente. Las categorías o capas completamente nuevas esperan a una revisión para mantener estable la estructura. La sección "Fuentes" arriba lista los índices comunitarios utilizados para monitorear lo que el ecosistema está haciendo entre revisiones.