Skip to main content
PromptQuorumPromptQuorum
Inicio/Power Local LLM/El directorio completo de software LLM local: 70+ herramientas para ejecutar IA en tu propio hardware (2026)
Overview & Reference

El directorio completo de software LLM local: 70+ herramientas para ejecutar IA en tu propio hardware (2026)

·20 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

El ecosistema de LLM local en 2026 se divide claramente en nueve capas. Los runtimes (Ollama, llama.cpp, vLLM) procesan tokens a través del modelo; las apps de escritorio (LM Studio, Jan, GPT4All) envuelven un runtime en una interfaz de chat; las interfaces web (Open WebUI, LibreChat) hacen lo mismo en el navegador; los asistentes de código (Continue.dev, Cline, Aider) conectan un modelo local a tu editor; los sistemas RAG (AnythingLLM, PrivateGPT) lo apuntan a tus documentos; los frameworks de agentes (LangChain, CrewAI, LangGraph) encadenan llamadas en flujos de trabajo de varios pasos; los stacks de voz y multimodal (Whisper.cpp, Piper, LLaVA) lo extienden más allá del texto; los clientes móviles (MLC Chat, PocketPal AI) lo llevan al teléfono; y los plugins de productividad especializados (Obsidian, Logseq, AutoGPT) lo integran en herramientas que ya usas. Elige primero un runtime (Ollama para casi todo el mundo), luego agrega una o dos capas encima. El directorio a continuación lista cada proyecto que vale la pena conocer en cada capa junto con su licencia, para que puedas planificar un stack completamente open-source de principio a fin si eso te importa.**

El ecosistema de LLM local en 2026 es lo suficientemente amplio como para que elegir la herramienta incorrecta al inicio cueste horas, no minutos. Este directorio cataloga 87 proyectos en mantenimiento activo en nueve capas — runtimes, aplicaciones de escritorio, interfaces web, asistentes de código, sistemas RAG, frameworks de agentes, voz y multimodal, clientes móviles y plugins de productividad especializados — con descripción, licencia y URL principal para cada uno. Úsalo como el mapa de "qué existe" antes de comprometerte con un stack; cada categoría termina con un enlace a la guía de comparación más detallada de PromptQuorum para esa capa.

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

Presentación: El directorio completo de software LLM local: 70+ herramientas para ejecutar IA en tu propio hardware (2026)

La presentación a continuación cubre: una visión general del stack LLM local en 9 capas (desde runtimes hasta plugins especializados); tablas de comparación de 6 herramientas para runtimes (Ollama/llama.cpp/vLLM/LocalAI/ExLlamaV2/MLX-LM), apps de escritorio, interfaces web, asistentes de código, sistemas RAG y frameworks de agentes; una tabla de stacks del mundo real de 9 filas (objetivo, stack, hardware mínimo); una guía de selección de stack en 5 pasos; y FAQ. Descarga el PDF como tarjeta de referencia del directorio de software LLM local.

Navega por las diapositivas o descárgalas en PDF para consultarlas sin conexión. Descargar tarjeta de referencia (PDF)

Conclusiones clave

  • Nueve capas, 87 proyectos, un mapa. Runtimes, apps de escritorio, interfaces web, asistentes de código, sistemas RAG, frameworks de agentes, voz/multimodal, clientes móviles y plugins de productividad especializados — casi todos los proyectos populares de 2026 encajan exactamente en una capa.
  • Elige primero un runtime. Ollama es la opción predeterminada adecuada para ~95% de los lectores; llama.cpp es el motor fundamental detrás de la mayoría de las otras herramientas; vLLM es la opción de producción para despliegues multiusuario en GPU real.
  • La mayoría de las capas por encima del runtime son opcionales. Una app de escritorio O una interfaz web es suficiente para el chat. Agrega un asistente de código solo cuando quieras integración IDE; agrega un sistema RAG solo cuando quieras chatear con tus propios documentos; agrega un framework de agentes solo cuando las llamadas de un solo paso dejen de ser suficientes.
  • La licencia importa para el uso comercial. MIT y Apache 2.0 dominan el ecosistema. AGPL aparece en algunas interfaces (text-generation-webui, KoboldCpp, Jan, SillyTavern) — perfecto para uso personal, más deliberado para despliegues comerciales. La columna "Licencia" a continuación nombra cada una explícitamente.
  • Los stacks multiherramienta son la norma. Ollama + Open WebUI + AnythingLLM + Continue.dev es una configuración de una sola máquina que cubre chat, RAG y código sin compromiso. La tabla "Stacks comunes en producción" a continuación nombra las recetas que realmente funcionan en 2026.
Las 9 capas de un stack LLM local: 87 proyectos en mantenimiento activo que abarcan runtimes (Ollama, llama.cpp, vLLM), apps de escritorio (LM Studio, Jan, GPT4All), interfaces web, asistentes de código, sistemas RAG, frameworks de agentes, voz y multimodal, clientes móviles y herramientas de productividad especializadas.
Las 9 capas de un stack LLM local: 87 proyectos en mantenimiento activo que abarcan runtimes (Ollama, llama.cpp, vLLM), apps de escritorio (LM Studio, Jan, GPT4All), interfaces web, asistentes de código, sistemas RAG, frameworks de agentes, voz y multimodal, clientes móviles y herramientas de productividad especializadas.

1. Runtimes y motores de inferencia LLM local

Un runtime es el motor que carga los pesos del modelo en memoria y convierte prompts en tokens. Es la primera decisión en un stack LLM local y la que condiciona todo lo que está por encima — cada app de escritorio, interfaz web y asistente de código llama en última instancia a un runtime. Ollama domina la cuota de mercado orientada al usuario en 2026 porque incluye una API compatible con OpenAI y una instalación de un solo comando; llama.cpp es el motor C++ que subyace a la mayoría de las otras herramientas; vLLM es la opción adecuada cuando necesitas atender usuarios concurrentes en una GPU real.

ToolLinkDescripciónLicencia
Ollamaollama.comEl más fácil en general — instalación de un comando, API compatible con OpenAI, enorme biblioteca de modelosMIT
llama.cppgithub.com/ggml-org/llama.cppMotor C++ fundamental detrás de la mayoría de las otras herramientas, funciona en cualquier lugar incluyendo Apple SiliconMIT
vLLMgithub.com/vllm-project/vllmServing de alto rendimiento para despliegues GPU multiusuarioApache 2.0
LocalAIlocalai.ioReemplazo drop-in de la API de OpenAI que soporta múltiples backendsMIT
TensorRT-LLMgithub.com/NVIDIA/TensorRT-LLMInferencia optimizada por NVIDIA para configuraciones GPU enterpriseApache 2.0
MLC LLMmlc.ai/mlc-llmRuntime de despliegue para dispositivos móviles y edgeApache 2.0
SGLanggithub.com/sgl-project/sglangServing de inferencia estructurada para pipelines de agentesApache 2.0
ExLlamaV2github.com/turboderp-org/exllamav2Inferencia cuantizada rápida optimizada para GPUs RTXMIT
KoboldCppgithub.com/LostRuins/koboldcppWrapper ligero de llama.cpp con interfaz integradaAGPL 3.0
Llamafilegithub.com/Mozilla-Ocho/llamafileEjecución LLM portable en un solo archivo por MozillaApache 2.0
MLX-LMgithub.com/ml-explore/mlx-examplesRuntime nativo de Apple Silicon por Apple ResearchMIT

Guía más detallada: llama.cpp vs Ollama vs vLLM

Ollama vs llama.cpp vs vLLM: Ollama es MIT con instalación de un comando y API compatible con OpenAI; llama.cpp es el motor C++ fundamental con licencia MIT; vLLM es la opción Apache 2.0 de serving multiusuario para despliegues GPU.
Ollama vs llama.cpp vs vLLM: Ollama es MIT con instalación de un comando y API compatible con OpenAI; llama.cpp es el motor C++ fundamental con licencia MIT; vLLM es la opción Apache 2.0 de serving multiusuario para despliegues GPU.

2. Aplicaciones de escritorio (GUI)

Las apps de escritorio envuelven un runtime en una interfaz de chat y un explorador de modelos. Son donde la mayoría de los usuarios no técnicos comienzan porque no hay paso de terminal — descargar, hacer clic, chatear. LM Studio, Jan y GPT4All tienen la mayor parte de la base de usuarios en 2026; AnythingLLM también funciona como app de escritorio y capa RAG; Open Interpreter es el caso especial que permite a un modelo local controlar tu computadora.

ToolLinkDescripciónLicencia
LM Studiolmstudio.aiLa GUI más pulida, explorador de modelos de HuggingFace integrado, modo servidorGratuito (cerrado)
Janjan.aiClon offline de ChatGPT centrado en la privacidad, totalmente open-sourceAGPL 3.0
GPT4Allnomic.ai/gpt4allApto para principiantes con fuerte soporte de solo CPUMIT
AnythingLLManythingllm.comRAG y chat de documentos con almacén vectorial integradoMIT
Mstymsty.appUX de consumidor limpia, soporte multi-proveedorGratuito (cerrado)
Cherry Studiocherry-ai.comIA de escritorio multi-proveedor con personalización extensaApache 2.0
Faradayfaraday.devCliente de escritorio para chat de personajes y juego de rolGratuito (cerrado)
Enchantedenchantedlabs.aiCliente Ollama mínimo nativo de macOS/iOSMIT
h2oGPTgithub.com/h2oai/h2ogptEscritorio y servidor con muchas funciones enterpriseApache 2.0
Open Interpretergithub.com/OpenInterpreter/open-interpreterPermite que un LLM local controle tu computadora y ejecute códigoAGPL 3.0

Guía más detallada: LM Studio vs Jan vs GPT4All

3. Interfaces web y frontends de navegador

Las interfaces web son clones de ChatGPT autoalojados — la misma superficie conversacional, pero apuntando a un runtime que corre en tu propia máquina o LAN. Son la opción natural cuando quieres acceso multidispositivo (laptop, teléfono, tablet apuntando a un servidor) o uso en equipo. Open WebUI domina el segmento de self-hosting en 2026, con LibreChat como alternativa de funciones de equipo y SillyTavern como la interfaz dedicada al juego de rol.

ToolLinkDescripciónLicencia
Open WebUIopenwebui.comLa interfaz autoalojada estilo ChatGPT más popular, con RAG integradoBSD 3-Clause
LibreChatlibrechat.aiAlternativa a ChatGPT multimodelo con funciones de equipoMIT
text-generation-webuigithub.com/oobabooga/text-generation-webuiInterfaz para usuarios avanzados con extenso ecosistema de pluginsAGPL 3.0
SillyTaverngithub.com/SillyTavern/SillyTavernJuego de rol y chat de personajes con lorebooksAGPL 3.0
LobeChatlobehub.comInterfaz moderna y pulida con marketplace de pluginsMIT
Big-AGIgithub.com/enricoros/big-AGIFrontend multi-proveedor avanzado con personasMIT
NextChatgithub.com/ChatGPTNextWeb/NextChatChat web ligero, despliegue sencilloMIT
Page Assistgithub.com/n4ze3m/page-assistIA en barra lateral del navegador para Chrome y FirefoxMIT
Chatboxchatboxai.appCliente multiplataforma de escritorio y webGPLv3

Guía más detallada: SillyTavern vs Agnai vs RisuAI

4. Asistentes de código e integraciones IDE

Los asistentes de código conectan un LLM local a tu editor o terminal a través de APIs compatibles con OpenAI. La elección depende principalmente del flujo de trabajo: autocompletado en el editor (Continue.dev), ediciones de agente autónomo (Cline, OpenHands) o ediciones diff nativas de git en el terminal (Aider). Los tres patrones funcionan con cualquier runtime que soporte el protocolo OpenAI Chat Completions — Ollama es el backend más común en 2026.

ToolLinkDescripciónLicencia
Continue.devcontinue.devAutocompletado y chat en VS Code y JetBrains con modelos localesApache 2.0
Aideraider.chatPair programmer en terminal con soporte de edición multificheroApache 2.0
Clinecline.botAgente de código autónomo para VS CodeApache 2.0
Tabbytabby.tabbyml.comAlternativa autoalojada a GitHub CopilotApache 2.0
CodeGPTcodegpt.coIntegraciones IDE para múltiples editoresMIT
OpenHandsgithub.com/All-Hands-AI/OpenHandsAgente desarrollador de software IA (antes OpenDevin)MIT
Cursor (modo local)cursor.comEditor de código centrado en IA con soporte para modelos localesGratuito (cerrado)
Twinnygithub.com/twinnydotdev/twinnyAlternativa gratuita a Copilot para VS CodeMIT

Guía más detallada: Continue.dev vs Cline vs Aider

3 patrones de código con LLM local: Continue.dev para autocompletado inline en VS Code y JetBrains, Cline para ediciones autónomas de agente, y Aider para diffs en terminal nativos de git — todos se conectan a Ollama mediante la API compatible con OpenAI.
3 patrones de código con LLM local: Continue.dev para autocompletado inline en VS Code y JetBrains, Cline para ediciones autónomas de agente, y Aider para diffs en terminal nativos de git — todos se conectan a Ollama mediante la API compatible con OpenAI.

5. Sistemas RAG y chat de documentos

**Los sistemas RAG (Retrieval-Augmented Generation) combinan un LLM local con un modelo de embeddings y un almacén vectorial para que el modelo pueda responder desde tus propios documentos.** La división es entre apps llave en mano (AnythingLLM, PrivateGPT, Quivr, Khoj) que "simplemente funcionan" y bibliotecas de framework (LlamaIndex, Haystack, txtai) sobre las que puedes construir. RAGFlow ha ganado cuota en 2026 específicamente para documentos que necesitan extracción de citas de calidad.

ToolLinkDescripciónLicencia
AnythingLLManythingllm.comRAG personal todo-en-uno más fácil, con espacios de trabajoMIT
PrivateGPTgithub.com/zylon-ai/private-gptRAG completamente offline orientado a empresasApache 2.0
Quivrgithub.com/QuivrHQ/quivrAsistente de conocimiento personal autoalojadoApache 2.0
Khojkhoj.devSegundo cerebro IA personal, sincronizado con Obsidian y NotionAGPL 3.0
Difydify.aiConstructor de flujos de trabajo IA con soporte RAG y agentesModified Apache 2.0
Flowiseflowiseai.comConstructor visual de flujos de trabajo LangChainApache 2.0
Langflowlangflow.orgOrquestación visual de IA con componentes RAGMIT
LlamaIndexllamaindex.aiFramework RAG / biblioteca Python — base para desarrollos personalizadosMIT
Haystackhaystack.deepset.aiFramework de búsqueda y RAG por deepsetApache 2.0
RAGFlowragflow.ioComprensión profunda de documentos para RAG con extracción de citasApache 2.0
txtaigithub.com/neuml/txtaiBase de datos vectorial + LLM integrada en una sola bibliotecaApache 2.0

Guía más detallada: AnythingLLM vs PrivateGPT vs Open WebUI

División del RAG local: apps llave en mano (AnythingLLM, PrivateGPT, Quivr, RAGFlow, Khoj) para chat de documentos sin código vs bibliotecas de framework (LlamaIndex, Haystack, Dify, Flowise, txtai) para construir pipelines personalizados.
División del RAG local: apps llave en mano (AnythingLLM, PrivateGPT, Quivr, RAGFlow, Khoj) para chat de documentos sin código vs bibliotecas de framework (LlamaIndex, Haystack, Dify, Flowise, txtai) para construir pipelines personalizados.

6. Frameworks de agentes y orquestación

Los frameworks de agentes convierten las llamadas de un solo paso a un LLM en flujos de trabajo de varios pasos — planificar, actuar, observar, repetir. LangChain sigue siendo el estándar de propósito general; CrewAI y AutoGen se especializan en configuraciones multiagente basadas en roles; LangGraph es la opción correcta cuando la gestión de estado importa a lo largo de flujos de larga duración. Los ocho frameworks a continuación funcionan perfectamente con un backend local de Ollama.

ToolLinkDescripciónLicencia
LangChainlangchain.comFramework de aplicaciones LLM de propósito generalMIT
LlamaIndexllamaindex.aiFramework de agentes y datos centrado en RAGMIT
CrewAIcrewai.comFlujos de trabajo multiagente basados en rolesMIT
AutoGengithub.com/microsoft/autogenFramework de orquestación multiagente de MicrosoftCC-BY-4.0 / MIT
Semantic Kernellearn.microsoft.com/semantic-kernelSDK de orquestación enterprise de Microsoft en C#/Python/JavaMIT
LangGraphlangchain-ai.github.io/langgraphFlujos de trabajo de agentes basados en grafos con estadoMIT
Letta (antes MemGPT)letta.comAgentes con memoria a largo plazoApache 2.0
Pydantic AIai.pydantic.devFramework de agentes con tipos seguros construido sobre PydanticMIT

Guía más detallada: Agentes IA locales con MCP

7. Voz, habla y multimodal

Los stacks de voz y multimodal extienden un LLM local más allá del texto — habla de entrada (STT), habla de salida (TTS) y visión. Whisper.cpp y faster-whisper son los dueños de la capa STT local; Piper y Coqui comparten la capa TTS con XTTS v2 dominando la clonación de voz; LLaVA y los modelos de visión de Ollama cubren el lado visual. Un asistente de voz completamente offline es construible desde esta capa más un pequeño modelo de chat.

ToolLinkDescripciónLicencia
Whisper.cppgithub.com/ggerganov/whisper.cppReconocimiento de voz local, funciona en CPU o GPUMIT
faster-whispergithub.com/SYSTRAN/faster-whisperTranscripción rápida de Whisper mediante CTranslate2MIT
Piper TTSgithub.com/rhasspy/piperSíntesis de texto a voz local ligeraMIT
Coqui TTScoqui.aiSíntesis de voz open-source con múltiples opciones de modelosMPL 2.0
XTTS v2docs.coqui.ai/en/latest/models/xtts.htmlClonación de voz con soporte multilingüeCPML
Barkgithub.com/suno-ai/barkVoz generativa con sonidos que no son hablaMIT
StyleTTS 2github.com/yl4579/StyleTTS2TTS de alta calidad y sonido naturalMIT
LLaVAllava-vl.github.ioModelo local de visión + lenguajeApache 2.0
Modelos de visión de Ollamaollama.comVisión local mediante Ollama (Llama 3.2 Vision, Llava, etc.)Varios

Guía más detallada: Construir un asistente de voz local en tu teléfono

8. Clientes móviles y edge

Los clientes móviles ejecutan un modelo cuantizado directamente en el teléfono usando Apple Neural Engine, Qualcomm NPU o inferencia pura de CPU. El proyecto MLC LLM es la capa fundamental; las apps de consumo (PocketPal AI, Private LLM, LLM Farm, Layla) lo envuelven con una interfaz de chat. Los teléfonos de gama alta en 2026 ejecutan modelos 2-4B a velocidades útiles (8-15 tokens/seg); 7B está en el límite de lo factible para el hardware de más alto nivel.

ToolLinkDescripciónLicencia
MLC Chatmlc.ai/mlc-llmRuntime LLM móvil multiplataformaApache 2.0
PocketPal AIgithub.com/a-ghorbani/pocketpal-aiCliente LLM local gratuito para iOS y AndroidMIT
Private LLMprivatellm.appApp LLM local pulida para iOS y macOSDe pago (cerrado)
LLM Farmgithub.com/guinmoon/LLMFarmLLM local para iOS con explorador de modelosMIT
Laylalayla-network.aiApp LLM local orientada a AndroidGratuito (cerrado)
Maidgithub.com/Mobile-Artificial-Intelligence/maidApp Flutter móvil open-source para LLMMIT
Enchantedenchantedlabs.aiCliente Ollama nativo de iOS/macOSMIT
Chapperprevolut.ukCliente móvil nativo para Ollama y LM StudioGratuito
RikkaHubgithub.com/rikkahub/rikkahubIA local Android de código abiertoMIT
AnythingLLM Mobileanythingllm.comAcceso remoto a tu espacio de trabajo local de AnythingLLMMIT

Guía más detallada: Las mejores apps LLM local para iPhone en 2026

9. Herramientas especializadas y de productividad

Las herramientas especializadas integran LLMs locales en apps que ya usas — plataformas de notas (Obsidian, Logseq, Joplin), agentes de tareas autónomos (AutoGPT, BabyAGI, MetaGPT) y frontends de juego de rol (Agnai, RisuAI). No son interfaces de chat genéricas; son integraciones específicas de flujo de trabajo que asumen que ya tienes una app host y un runtime.

ToolLinkDescripciónLicencia
Smart Connectionsgithub.com/brianpetro/obsidian-smart-connectionsPlugin de búsqueda semántica y chat para ObsidianGPL 3.0
Copilot for Obsidiangithub.com/logancyang/obsidian-copilotPlugin de chat LLM local para ObsidianAGPL 3.0
Text Generatorgithub.com/nhaouari/obsidian-textgenerator-pluginPlugin de generación de contenido para ObsidianMIT
logseq-copilotgithub.com/logancyang/logseq-copilotPlugin de Logseq para chat LLM local y en la nube, mismo autor que Obsidian CopilotAGPL 3.0
BMO Chatbotgithub.com/longy2k/obsidian-bmo-chatbotChatbot de Obsidian con LLM localMIT
Joplin AIjoplinapp.orgNotas de Joplin con integraciones de IA localMIT
AutoGPT (local)github.com/Significant-Gravitas/AutoGPTAgente de tareas autónomo con soporte para OllamaMIT
BabyAGIgithub.com/yoheinakajima/babyagiAgente autónomo ligeroMIT
MetaGPTgithub.com/geekan/MetaGPTSimulación de empresa de software con múltiples agentesMIT
Agnaiagnai.chatFrontend de juego de rol con tarjetas de personajesMIT
RisuAIgithub.com/kwaroran/RisuAIFrontend de juego de rol adaptado para móvilGPL 3.0

Guía más detallada: LLM local con Obsidian en 2026

Stacks comunes en producción

Para los lectores que no quieren leer las nueve categorías, elige el stack más cercano y cópialo. Cada fila empareja un objetivo real con una combinación probada y el hardware mínimo en el que realmente funciona.

ObjetivoStackHardware mínimo
Chat casualLM Studio standalone16 GB RAM, sin GPU
Mejor equilibrio para usuarios avanzadosOllama + Open WebUI16 GB RAM, GPU opcional
Chat de documentosOllama + AnythingLLM16 GB RAM, GPU opcional
CódigoOllama + Continue.dev16 GB RAM + GPU recomendada
Juego de rol / creativoKoboldCpp + SillyTavern16 GB RAM, GPU recomendada
Empresa con privacidad ante todoOllama + Open WebUI + PrivateGPT32 GB RAM + 12 GB VRAM
Móvil / en movimientoMLC Chat o PocketPal AIiPhone 13+ / Pixel 7+
Apple SiliconOllama (backend MLX) o LM StudioM2/M3/M4/M5 con 16+ GB unificada
Equipo multiusuariovLLM + Open WebUI32+ GB RAM + multi-GPU
9 stacks LLM locales comunes según el objetivo: desde LM Studio standalone (16 GB RAM, sin GPU) hasta vLLM + Open WebUI para equipos multiusuario (32 GB RAM + multi-GPU), con Ollama + Open WebUI como el mejor equilibrio por defecto con 16 GB RAM.
9 stacks LLM locales comunes según el objetivo: desde LM Studio standalone (16 GB RAM, sin GPU) hasta vLLM + Open WebUI para equipos multiusuario (32 GB RAM + multi-GPU), con Ollama + Open WebUI como el mejor equilibrio por defecto con 16 GB RAM.

Cómo se mantiene actualizado este directorio

Este directorio se revisa cada seis meses (próxima actualización: noviembre de 2026). Criterios de inclusión: el proyecto está en mantenimiento activo (commits en los últimos 90 días), tiene una licencia open-source verificable o una declaración clara de uso comercial, y o bien tiene una cuota de usuarios significativa en 2026 o llena una capa que de otro modo estaría vacía. Los proyectos que quedan inactivos durante más de dos ciclos de versión se eliminan; los nuevos participantes que cumplan los criterios se añaden en la próxima revisión. Para sugerir un proyecto para su inclusión, abre un issue o PR contra el repositorio de PromptQuorum — incluye la URL del proyecto, la licencia y una descripción de una oración en el formato anterior.

Fuentes

FAQ

¿Cuál es la diferencia entre un runtime LLM local y una app de escritorio?

Un runtime (Ollama, llama.cpp, vLLM) es el motor que carga los pesos del modelo y sirve una API — típicamente compatible con OpenAI. Una app de escritorio (LM Studio, Jan, GPT4All) es una interfaz de chat que llama a un runtime por detrás. Algunas apps incluyen su propio runtime (LM Studio incorpora llama.cpp), otras requieren que instales un runtime por separado (Open WebUI llama a Ollama). El runtime decide qué es posible; la app decide qué es conveniente.

¿Puedo usar varias herramientas de esta lista al mismo tiempo?

Sí — la mayoría de los stacks combinan 2-4 herramientas. Una configuración común: Ollama como runtime, Open WebUI para chat, AnythingLLM para chat de documentos y Continue.dev para código — las cuatro funcionan con la misma instancia de Ollama en una sola máquina. La tabla "Stacks comunes en producción" arriba lista las recetas que funcionan sin conflicto.

¿Qué herramientas funcionan completamente offline sin telemetría?

Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM y la mayoría de las apps con licencia AGPL/MIT de este directorio funcionan completamente offline una vez descargado el modelo. LM Studio y varias herramientas de código cerrado tienen análisis opcionales que se pueden desactivar en la configuración — verifica con una captura de paquetes una vez después de instalar. Las interfaces web (Open WebUI, LibreChat) son solo locales cuando se configuran para usar un backend local.

¿Alguna de estas herramientas tiene licencia comercial (no gratuita para uso comercial)?

Algunas: LM Studio, Msty, Faraday, Layla y Cursor son de código cerrado — generalmente gratuitas para usar pero no redistribuibles, y los términos comerciales varían. Private LLM es de pago. Las herramientas con licencia AGPL (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) son gratuitas para cualquier uso incluyendo comercial, pero los términos AGPL requieren divulgar el código fuente si las modificas y las alojas públicamente. Los proyectos Apache 2.0 y MIT (la mayoría) son utilizables en cualquier contexto incluyendo comercial sin restricciones de atribución más allá del texto de la licencia.

¿Qué herramientas soportan Apple Silicon (chips de la serie M) de forma nativa?

Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM y la mayoría de las apps Electron/Tauri funcionan de forma nativa en Apple Silicon y usan el backend Metal. MLX-LM es específico de Apple y el más rápido para modelos grandes en chips M-series. vLLM, TensorRT-LLM y ExLlamaV2 están centrados en NVIDIA y no funcionan o funcionan mal en Apple Silicon — para usuarios de Apple, Ollama con el backend Metal es la opción por defecto.

¿Todas estas herramientas soportan el formato de modelo GGUF?

GGUF es el formato nativo de llama.cpp y cualquier herramienta que lo envuelva (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM y TensorRT-LLM usan sus propios formatos optimizados (típicamente AWQ o FP16) para mayor rendimiento. ExLlamaV2 usa cuantización EXL2. MLX-LM usa pesos convertidos a MLX. La mayoría de las herramientas listadas aceptan GGUF; algunas (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) requieren un paso de conversión único desde los pesos originales de Hugging Face.

¿Qué herramientas son mejores para usuarios sin experiencia en código?

GPT4All tiene la instalación más sencilla (un clic, funciona con 8 GB RAM). LM Studio es la más completa en funciones sin necesitar terminal. Jan es la opción sin código más centrada en la privacidad. Para chat de documentos sin trabajo en línea de comandos, AnythingLLM es la más fácil. Las cuatro están listadas en la categoría de Aplicaciones de escritorio (GUI) arriba.

¿Puedo ejecutar estas herramientas en un servidor y acceder a ellas de forma remota?

La mayoría de las herramientas con capacidad de servidor (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) exponen una API HTTP y se vinculan a una interfaz de red configurable en la configuración. Patrón estándar: ejecutar Ollama en un servidor doméstico o VPS, ejecutar una interfaz en tu laptop o teléfono apuntando a la IP del servidor. Trata la API como cualquier servicio web — vincular a localhost detrás de un proxy inverso, o a una red privada con autenticación adecuada. Open WebUI incluye soporte multiusuario de forma nativa.

¿Qué herramientas soportan configuraciones multiusuario / de equipo?

Open WebUI, LibreChat, h2oGPT, AnythingLLM (con funciones de administrador habilitadas) y Dify están diseñados para uso multiusuario, con control de acceso basado en roles e historial de conversaciones por usuario. vLLM es la capa de serving correcta por debajo cuando la inferencia concurrente importa — agrupa solicitudes de múltiples usuarios para un rendimiento inalcanzable con Ollama a una concurrencia por encima de ~3.

¿Con qué frecuencia se actualiza este directorio?

Cada seis meses — la próxima actualización programada es en noviembre de 2026. Los cambios intermedios (un proyecto queda inactivo, una nueva herramienta gana cuota significativa, una licencia cambia) se aplican como parches a la entrada existente. Las categorías o capas completamente nuevas esperan a una revisión para mantener estable la estructura. La sección "Fuentes" arriba lista los índices comunitarios utilizados para monitorear lo que el ecosistema está haciendo entre revisiones.

← Volver a Power Local LLM

Mejores herramientas LLM local 2026: 87 apps en 9 categorías