¿Cuáles son las mejores herramientas LLM local para ejecutar IA en mi propio hardware en 2026?

Comienza con un runtime — Ollama es el camino más rápido para casi todo el mundo, llama.cpp si quieres el control más bajo nivel, vLLM si necesitas servir múltiples usuarios. Agrega una app de escritorio (LM Studio, Jan, GPT4All) o interfaz web (Open WebUI, LibreChat) para el chat. Agrega un asistente de código (Continue.dev, Cline, Aider) si quieres autocompletado y chat en tu IDE. Agrega un sistema RAG (AnythingLLM, PrivateGPT, RAG integrado de Open WebUI) si quieres chatear con tus propios documentos. Más allá de eso, el catálogo cubre frameworks de agentes, voz y multimodal, clientes móviles e integraciones con Obsidian/Logseq. El directorio completo a continuación lista 88 proyectos con licencias y URLs principales.

Inicio/LLM locales avanzados/El directorio completo de software LLM local: 70+ herramientas para ejecutar IA en tu propio hardware (2026)

Overview & Reference

El directorio completo de software LLM local: 70+ herramientas para ejecutar IA en tu propio hardware (2026)

Última actualización: 1 de julio de 2026·20 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Este directorio actualizado de 2026 (última actualización en julio de 2026) mapea 88 herramientas LLM local, herramientas de despliegue y frameworks en nueve capas. El ecosistema de LLM local en 2026 se divide claramente en estas capas. Los runtimes (Ollama, llama.cpp, vLLM) procesan tokens a través del modelo; las apps de escritorio (LM Studio, Jan, GPT4All) envuelven un runtime en una interfaz de chat; las interfaces web (Open WebUI, LibreChat) hacen lo mismo en el navegador; los asistentes de código (Continue.dev, Cline, Aider) conectan un modelo local a tu editor; los sistemas RAG (AnythingLLM, PrivateGPT) lo apuntan a tus documentos; los frameworks de agentes (LangChain, CrewAI, LangGraph) encadenan llamadas en flujos de trabajo de varios pasos; los stacks de voz y multimodal (Whisper.cpp, Piper, LLaVA) lo extienden más allá del texto; los clientes móviles (MLC Chat, PocketPal AI) lo llevan al teléfono; y los plugins de productividad especializados (Obsidian, Logseq, AutoGPT) lo integran en herramientas que ya usas. Elige primero un runtime (Ollama para casi todo el mundo), luego agrega una o dos capas encima. El directorio a continuación lista cada proyecto que vale la pena conocer en cada capa junto con su licencia, para que puedas planificar un stack completamente open-source de principio a fin si eso te importa.**

Este es un directorio actualizado de 2026 con 88 herramientas, aplicaciones, frameworks y software de despliegue de LLM local — última actualización en julio de 2026. El ecosistema de LLM local en 2026 es lo suficientemente amplio como para que elegir la herramienta incorrecta al inicio cueste horas, no minutos. Este directorio cataloga 88 proyectos en mantenimiento activo en nueve capas — runtimes, aplicaciones de escritorio, interfaces web, asistentes de código, sistemas RAG, frameworks de agentes, voz y multimodal, clientes móviles y plugins de productividad especializados — con descripción, licencia y URL principal para cada uno. Tanto si eliges herramientas LLM local, herramientas de despliegue para servicio multiusuario o frameworks para construir agentes, úsalo como el mapa de "qué existe" antes de comprometerte con un stack; cada categoría termina con un enlace a la guía de comparación más detallada de PromptQuorum para esa capa.

Esta página contiene enlaces de referencia a productos de terceros. PromptQuorum no participa en ningún programa de afiliados — son enlaces simples que no generan comisión. Hacer clic en los enlaces y los pasos siguientes son de su entera responsabilidad. Estos enlaces no representan ningún respaldo ni verificación por parte de PromptQuorum.

Presentación: El directorio completo de software LLM local: 70+ herramientas para ejecutar IA en tu propio hardware (2026)

La presentación a continuación cubre: una visión general del stack LLM local en 9 capas (desde runtimes hasta plugins especializados); tablas de comparación de 6 herramientas para runtimes (Ollama/llama.cpp/vLLM/LocalAI/ExLlamaV2/MLX-LM), apps de escritorio, interfaces web, asistentes de código, sistemas RAG y frameworks de agentes; una tabla de stacks del mundo real de 9 filas (objetivo, stack, hardware mínimo); una guía de selección de stack en 5 pasos; y FAQ. Descarga el PDF como tarjeta de referencia del directorio de software LLM local.

Navega por las diapositivas o descárgalas en PDF para consultarlas sin conexión. Descargar tarjeta de referencia (PDF)

Conclusiones clave

Nueve capas, 88 proyectos, un mapa. Runtimes, apps de escritorio, interfaces web, asistentes de código, sistemas RAG, frameworks de agentes, voz/multimodal, clientes móviles y plugins de productividad especializados — casi todos los proyectos populares de 2026 encajan exactamente en una capa.
Elige primero un runtime. Ollama es la opción predeterminada adecuada para ~95% de los lectores; llama.cpp es el motor fundamental detrás de la mayoría de las otras herramientas; vLLM es la opción de producción para despliegues multiusuario en GPU real.
La mayoría de las capas por encima del runtime son opcionales. Una app de escritorio O una interfaz web es suficiente para el chat. Agrega un asistente de código solo cuando quieras integración IDE; agrega un sistema RAG solo cuando quieras chatear con tus propios documentos; agrega un framework de agentes solo cuando las llamadas de un solo paso dejen de ser suficientes.
La licencia importa para el uso comercial. MIT y Apache 2.0 dominan el ecosistema. AGPL aparece en algunas interfaces (text-generation-webui, KoboldCpp, Jan, SillyTavern) — perfecto para uso personal, más deliberado para despliegues comerciales. La columna "Licencia" a continuación nombra cada una explícitamente.
Los stacks multiherramienta son la norma. Ollama + Open WebUI + AnythingLLM + Continue.dev es una configuración de una sola máquina que cubre chat, RAG y código sin compromiso. La tabla "Stacks comunes en producción" a continuación nombra las recetas que realmente funcionan en 2026.

Las 9 capas de un stack LLM local: 88 proyectos en mantenimiento activo que abarcan runtimes (Ollama, llama.cpp, vLLM), apps de escritorio (LM Studio, Jan, GPT4All), interfaces web, asistentes de código, sistemas RAG, frameworks de agentes, voz y multimodal, clientes móviles y herramientas de productividad especializadas.

1. Runtimes y motores de inferencia LLM local

Un runtime es el motor que carga los pesos del modelo en memoria y convierte prompts en tokens. Es la primera decisión en un stack LLM local y la que condiciona todo lo que está por encima — cada app de escritorio, interfaz web y asistente de código llama en última instancia a un runtime. Ollama domina la cuota de mercado orientada al usuario en 2026 porque incluye una API compatible con OpenAI y una instalación de un solo comando; llama.cpp es el motor C++ que subyace a la mayoría de las otras herramientas; vLLM es la opción adecuada cuando necesitas atender usuarios concurrentes en una GPU real.

Tool	Link	Descripción	Licencia
Ollama	ollama.com	El más fácil en general — instalación de un comando, API compatible con OpenAI, enorme biblioteca de modelos	MIT
llama.cpp	github.com/ggml-org/llama.cpp	Motor C++ fundamental detrás de la mayoría de las otras herramientas, funciona en cualquier lugar incluyendo Apple Silicon	MIT
vLLM	github.com/vllm-project/vllm	Serving de alto rendimiento para despliegues GPU multiusuario	Apache 2.0
LocalAI	localai.io	Reemplazo drop-in de la API de OpenAI que soporta múltiples backends	MIT
TensorRT-LLM	github.com/NVIDIA/TensorRT-LLM	Inferencia optimizada por NVIDIA para configuraciones GPU enterprise	Apache 2.0
MLC LLM	mlc.ai/mlc-llm	Runtime de despliegue para dispositivos móviles y edge	Apache 2.0
SGLang	github.com/sgl-project/sglang	Serving de inferencia estructurada para pipelines de agentes	Apache 2.0
ExLlamaV2	github.com/turboderp-org/exllamav2	Inferencia cuantizada rápida optimizada para GPUs RTX	MIT
KoboldCpp	github.com/LostRuins/koboldcpp	Wrapper ligero de llama.cpp con interfaz integrada	AGPL 3.0
Llamafile	github.com/Mozilla-Ocho/llamafile	Ejecución LLM portable en un solo archivo por Mozilla	Apache 2.0
MLX-LM	github.com/ml-explore/mlx-examples	Runtime nativo de Apple Silicon por Apple Research	MIT

Guía más detallada: llama.cpp vs Ollama vs vLLM

Ollama vs llama.cpp vs vLLM: Ollama es MIT con instalación de un comando y API compatible con OpenAI; llama.cpp es el motor C++ fundamental con licencia MIT; vLLM es la opción Apache 2.0 de serving multiusuario para despliegues GPU.

Ver precios de RunPod y registrarseenlace de producto · divulgadoVer precios de Vast.ai y registrarseenlace de producto · divulgadoVer precios de Lambda Labs y registrarseenlace de producto · divulgado

2. Aplicaciones de escritorio (GUI)

Las apps de escritorio envuelven un runtime en una interfaz de chat y un explorador de modelos. Son donde la mayoría de los usuarios no técnicos comienzan porque no hay paso de terminal — descargar, hacer clic, chatear. LM Studio, Jan y GPT4All tienen la mayor parte de la base de usuarios en 2026; AnythingLLM también funciona como app de escritorio y capa RAG; Open Interpreter es el caso especial que permite a un modelo local controlar tu computadora.

Tool	Link	Descripción	Licencia
LM Studio	lmstudio.ai	La GUI más pulida, explorador de modelos de HuggingFace integrado, modo servidor	Gratuito (cerrado)
Atomic Chat	atomic.chat	App de chat sin conexión para escritorio y móvil con agentes locales en un clic	Apache 2.0
Jan	jan.ai	Clon offline de ChatGPT centrado en la privacidad, totalmente open-source	AGPL 3.0
GPT4All	nomic.ai/gpt4all	Apto para principiantes con fuerte soporte de solo CPU	MIT
AnythingLLM	anythingllm.com	RAG y chat de documentos con almacén vectorial integrado	MIT
Msty	msty.app	UX de consumidor limpia, soporte multi-proveedor	Gratuito (cerrado)
Cherry Studio	cherry-ai.com	IA de escritorio multi-proveedor con personalización extensa	AGPL 3.0
Backyard AI	backyard.ai	Cliente de escritorio para chat de personajes y juego de rol	Gratuito (cerrado)
Enchanted	github.com/AugustDev/enchanted	Cliente Ollama mínimo nativo de macOS/iOS	Apache 2.0
h2oGPT	github.com/h2oai/h2ogpt	Escritorio y servidor con muchas funciones enterprise	Apache 2.0
Open Interpreter	github.com/OpenInterpreter/open-interpreter	Permite que un LLM local controle tu computadora y ejecute código	AGPL 3.0

Guía más detallada: LM Studio vs Jan vs GPT4All

Ver precios de Mstyenlace de producto · divulgadoVer precios de AnythingLLM Cloudenlace de producto · divulgado

3. Interfaces web y frontends de navegador

Las interfaces web son clones de ChatGPT autoalojados — la misma superficie conversacional, pero apuntando a un runtime que corre en tu propia máquina o LAN. Son la opción natural cuando quieres acceso multidispositivo (laptop, teléfono, tablet apuntando a un servidor) o uso en equipo. Open WebUI domina el segmento de self-hosting en 2026, con LibreChat como alternativa de funciones de equipo y SillyTavern como la interfaz dedicada al juego de rol.

Tool	Link	Descripción	Licencia
Open WebUI	openwebui.com	La interfaz autoalojada estilo ChatGPT más popular, con RAG integrado	BSD 3-Clause
LibreChat	librechat.ai	Alternativa a ChatGPT multimodelo con funciones de equipo	MIT
text-generation-webui	github.com/oobabooga/text-generation-webui	Interfaz para usuarios avanzados con extenso ecosistema de plugins	AGPL 3.0
SillyTavern	github.com/SillyTavern/SillyTavern	Juego de rol y chat de personajes con lorebooks	AGPL 3.0
LobeChat	lobehub.com	Interfaz moderna y pulida con marketplace de plugins	MIT
Big-AGI	github.com/enricoros/big-AGI	Frontend multi-proveedor avanzado con personas	MIT
NextChat	github.com/ChatGPTNextWeb/NextChat	Chat web ligero, despliegue sencillo	MIT
Page Assist	github.com/n4ze3m/page-assist	IA en barra lateral del navegador para Chrome y Firefox	MIT
Chatbox	chatboxai.app	Cliente multiplataforma de escritorio y web	GPLv3

Guía más detallada: SillyTavern vs Agnai vs RisuAI

4. Asistentes de código e integraciones IDE

Los asistentes de código conectan un LLM local a tu editor o terminal a través de APIs compatibles con OpenAI. La elección depende principalmente del flujo de trabajo: autocompletado en el editor (Continue.dev), ediciones de agente autónomo (Cline, OpenHands) o ediciones diff nativas de git en el terminal (Aider). Los tres patrones funcionan con cualquier runtime que soporte el protocolo OpenAI Chat Completions — Ollama es el backend más común en 2026.

Tool	Link	Descripción	Licencia
Continue.dev	continue.dev	Autocompletado y chat en VS Code y JetBrains con modelos locales	Apache 2.0
Aider	aider.chat	Pair programmer en terminal con soporte de edición multifichero	Apache 2.0
Cline	cline.bot	Agente de código autónomo para VS Code	Apache 2.0
Tabby	tabby.tabbyml.com	Alternativa autoalojada a GitHub Copilot	Apache 2.0
CodeGPT	codegpt.co	Integraciones IDE para múltiples editores	MIT
OpenHands	github.com/All-Hands-AI/OpenHands	Agente desarrollador de software IA (antes OpenDevin)	MIT
Cursor (modo local)	cursor.com	Editor de código centrado en IA con soporte para modelos locales	Gratuito (cerrado)
Twinny	github.com/twinnydotdev/twinny	Alternativa gratuita a Copilot para VS Code	MIT

Guía más detallada: Continue.dev vs Cline vs Aider

3 patrones de código con LLM local: Continue.dev para autocompletado inline en VS Code y JetBrains, Cline para ediciones autónomas de agente, y Aider para diffs en terminal nativos de git — todos se conectan a Ollama mediante la API compatible con OpenAI.

Ver precios de Cursorenlace de producto · divulgado

5. Sistemas RAG y chat de documentos

**Los sistemas RAG (Retrieval-Augmented Generation) combinan un LLM local con un modelo de embeddings y un almacén vectorial para que el modelo pueda responder desde tus propios documentos.** La división es entre apps llave en mano (AnythingLLM, PrivateGPT, Quivr, Khoj) que "simplemente funcionan" y bibliotecas de framework (LlamaIndex, Haystack, txtai) sobre las que puedes construir. RAGFlow ha ganado cuota en 2026 específicamente para documentos que necesitan extracción de citas de calidad.

Tool	Link	Descripción	Licencia
AnythingLLM	anythingllm.com	RAG personal todo-en-uno más fácil, con espacios de trabajo	MIT
PrivateGPT	github.com/zylon-ai/private-gpt	RAG completamente offline orientado a empresas	Apache 2.0
Quivr	github.com/QuivrHQ/quivr	Asistente de conocimiento personal autoalojado	Apache 2.0
Khoj	khoj.dev	Segundo cerebro IA personal, sincronizado con Obsidian y Notion	AGPL 3.0
Dify	dify.ai	Constructor de flujos de trabajo IA con soporte RAG y agentes	Modified Apache 2.0
Flowise	flowiseai.com	Constructor visual de flujos de trabajo LangChain	Apache 2.0
Langflow	langflow.org	Orquestación visual de IA con componentes RAG	MIT
LlamaIndex	llamaindex.ai	Framework RAG / biblioteca Python — base para desarrollos personalizados	MIT
Haystack	haystack.deepset.ai	Framework de búsqueda y RAG por deepset	Apache 2.0
RAGFlow	ragflow.io	Comprensión profunda de documentos para RAG con extracción de citas	Apache 2.0
txtai	github.com/neuml/txtai	Base de datos vectorial + LLM integrada en una sola biblioteca	Apache 2.0

Guía más detallada: AnythingLLM vs PrivateGPT vs Open WebUI

División del RAG local: apps llave en mano (AnythingLLM, PrivateGPT, Quivr, RAGFlow, Khoj) para chat de documentos sin código vs bibliotecas de framework (LlamaIndex, Haystack, Dify, Flowise, txtai) para construir pipelines personalizados.

6. Frameworks de agentes y orquestación

Los frameworks de agentes convierten las llamadas de un solo paso a un LLM en flujos de trabajo de varios pasos — planificar, actuar, observar, repetir. LangChain sigue siendo el estándar de propósito general; CrewAI y AutoGen se especializan en configuraciones multiagente basadas en roles; LangGraph es la opción correcta cuando la gestión de estado importa a lo largo de flujos de larga duración. Los ocho frameworks a continuación funcionan perfectamente con un backend local de Ollama.

Tool	Link	Descripción	Licencia
LangChain	langchain.com	Framework de aplicaciones LLM de propósito general	MIT
LlamaIndex	llamaindex.ai	Framework de agentes y datos centrado en RAG	MIT
CrewAI	crewai.com	Flujos de trabajo multiagente basados en roles	MIT
AutoGen	github.com/microsoft/autogen	Framework de orquestación multiagente de Microsoft	CC-BY-4.0 / MIT
Semantic Kernel	learn.microsoft.com/semantic-kernel	SDK de orquestación enterprise de Microsoft en C#/Python/Java	MIT
LangGraph	langchain-ai.github.io/langgraph	Flujos de trabajo de agentes basados en grafos con estado	MIT
Letta (antes MemGPT)	letta.com	Agentes con memoria a largo plazo	Apache 2.0
Pydantic AI	ai.pydantic.dev	Framework de agentes con tipos seguros construido sobre Pydantic	MIT

Guía más detallada: Agentes IA locales con MCP

7. Voz, habla y multimodal

Los stacks de voz y multimodal extienden un LLM local más allá del texto — habla de entrada (STT), habla de salida (TTS) y visión. Whisper.cpp y faster-whisper son los dueños de la capa STT local; Piper y Coqui comparten la capa TTS con XTTS v2 dominando la clonación de voz; LLaVA y los modelos de visión de Ollama cubren el lado visual. Un asistente de voz completamente offline es construible desde esta capa más un pequeño modelo de chat.

Tool	Link	Descripción	Licencia
Whisper.cpp	github.com/ggerganov/whisper.cpp	Reconocimiento de voz local, funciona en CPU o GPU	MIT
faster-whisper	github.com/SYSTRAN/faster-whisper	Transcripción rápida de Whisper mediante CTranslate2	MIT
Piper TTS	github.com/rhasspy/piper	Síntesis de texto a voz local ligera	MIT
Coqui TTS	github.com/idiap/coqui-ai-TTS	Síntesis de voz open-source con múltiples opciones de modelos	MPL 2.0
XTTS v2	huggingface.co/coqui/XTTS-v2	Clonación de voz con soporte multilingüe	CPML
Bark	github.com/suno-ai/bark	Voz generativa con sonidos que no son habla	MIT
StyleTTS 2	github.com/yl4579/StyleTTS2	TTS de alta calidad y sonido natural	MIT
LLaVA	llava-vl.github.io	Modelo local de visión + lenguaje	Apache 2.0
Modelos de visión de Ollama	ollama.com	Visión local mediante Ollama (Llama 3.2 Vision, Llava, etc.)	Varios

Guía más detallada: Construir un asistente de voz local en tu teléfono

8. Clientes móviles y edge

Los clientes móviles ejecutan un modelo cuantizado directamente en el teléfono usando Apple Neural Engine, Qualcomm NPU o inferencia pura de CPU. El proyecto MLC LLM es la capa fundamental; las apps de consumo (PocketPal AI, Private LLM, LLM Farm, Layla) lo envuelven con una interfaz de chat. Los teléfonos de gama alta en 2026 ejecutan modelos 2-4B a velocidades útiles (8-15 tokens/seg); 7B está en el límite de lo factible para el hardware de más alto nivel.

Tool	Link	Descripción	Licencia
MLC Chat	mlc.ai/mlc-llm	Runtime LLM móvil multiplataforma	Apache 2.0
PocketPal AI	github.com/a-ghorbani/pocketpal-ai	Cliente LLM local gratuito para iOS y Android	MIT
Private LLM	privatellm.app	App LLM local pulida para iOS y macOS	De pago (cerrado)
LLM Farm	github.com/guinmoon/LLMFarm	LLM local para iOS con explorador de modelos	MIT
Layla	layla-network.ai	App LLM local orientada a Android	Gratuito (cerrado)
Maid	github.com/Mobile-Artificial-Intelligence/maid	App Flutter móvil open-source para LLM	MIT
Enchanted	github.com/AugustDev/enchanted	Cliente Ollama nativo de iOS/macOS	Apache 2.0
Chapper	prevolut.uk	Cliente móvil nativo para Ollama y LM Studio	Gratuito
RikkaHub	github.com/rikkahub/rikkahub	IA local Android de código abierto	MIT
AnythingLLM Mobile	anythingllm.com	Acceso remoto a tu espacio de trabajo local de AnythingLLM	MIT

Guía más detallada: Las mejores apps LLM local para iPhone en 2026

9. Herramientas especializadas y de productividad

Las herramientas especializadas integran LLMs locales en apps que ya usas — plataformas de notas (Obsidian, Logseq, Joplin), agentes de tareas autónomos (AutoGPT, BabyAGI, MetaGPT) y frontends de juego de rol (Agnai, RisuAI). No son interfaces de chat genéricas; son integraciones específicas de flujo de trabajo que asumen que ya tienes una app host y un runtime.

Tool	Link	Descripción	Licencia
Smart Connections	github.com/brianpetro/obsidian-smart-connections	Plugin de búsqueda semántica y chat para Obsidian	GPL 3.0
Copilot for Obsidian	github.com/logancyang/obsidian-copilot	Plugin de chat LLM local para Obsidian	AGPL 3.0
Text Generator	github.com/nhaouari/obsidian-textgenerator-plugin	Plugin de generación de contenido para Obsidian	MIT
logseq-copilot	github.com/logancyang/logseq-copilot	Plugin de Logseq para chat LLM local y en la nube, mismo autor que Obsidian Copilot	AGPL 3.0
BMO Chatbot	github.com/longy2k/obsidian-bmo-chatbot	Chatbot de Obsidian con LLM local	MIT
Joplin AI	joplinapp.org	Notas de Joplin con integraciones de IA local	MIT
AutoGPT (local)	github.com/Significant-Gravitas/AutoGPT	Agente de tareas autónomo con soporte para Ollama	MIT
BabyAGI	github.com/yoheinakajima/babyagi	Agente autónomo ligero	MIT
MetaGPT	github.com/geekan/MetaGPT	Simulación de empresa de software con múltiples agentes	MIT
Agnai	agnai.chat	Frontend de juego de rol con tarjetas de personajes	MIT
RisuAI	github.com/kwaroran/RisuAI	Frontend de juego de rol adaptado para móvil	GPL 3.0

Guía más detallada: LLM local con Obsidian en 2026

Stacks comunes en producción

Para los lectores que no quieren leer las nueve categorías, elige el stack más cercano y cópialo. Cada fila empareja un objetivo real con una combinación probada y el hardware mínimo en el que realmente funciona.

Objetivo	Stack	Hardware mínimo
Chat casual	LM Studio standalone	16 GB RAM, sin GPU
Mejor equilibrio para usuarios avanzados	Ollama + Open WebUI	16 GB RAM, GPU opcional
Chat de documentos	Ollama + AnythingLLM	16 GB RAM, GPU opcional
Código	Ollama + Continue.dev	16 GB RAM + GPU recomendada
Juego de rol / creativo	KoboldCpp + SillyTavern	16 GB RAM, GPU recomendada
Empresa con privacidad ante todo	Ollama + Open WebUI + PrivateGPT	32 GB RAM + 12 GB VRAM
Móvil / en movimiento	MLC Chat o PocketPal AI	iPhone 13+ / Pixel 7+
Apple Silicon	Ollama (backend MLX) o LM Studio	M2/M3/M4/M5 con 16+ GB unificada
Equipo multiusuario	vLLM + Open WebUI	32+ GB RAM + multi-GPU

9 stacks LLM locales comunes según el objetivo: desde LM Studio standalone (16 GB RAM, sin GPU) hasta vLLM + Open WebUI para equipos multiusuario (32 GB RAM + multi-GPU), con Ollama + Open WebUI como el mejor equilibrio por defecto con 16 GB RAM.

Cómo se mantiene actualizado este directorio

Este directorio se revisa cada seis meses y se corrige entre revisiones — última actualización en julio de 2026, próxima revisión en noviembre de 2026. La revisión más reciente verificó de nuevo todos los enlaces y corrigió varios nombres de proyectos y licencias: Faraday ahora es Backyard AI, el fork mantenido de Coqui TTS está alojado por Idiap y Cherry Studio es AGPL 3.0. Criterios de inclusión: el proyecto está en mantenimiento activo (commits en los últimos 90 días), tiene una licencia open-source verificable o una declaración clara de uso comercial, y o bien tiene una cuota de usuarios significativa en 2026 o llena una capa que de otro modo estaría vacía. Los proyectos que quedan inactivos durante más de dos ciclos de versión se eliminan; los nuevos participantes que cumplan los criterios se añaden en la próxima revisión. Para sugerir un proyecto para su inclusión, abre un issue o PR contra el repositorio de PromptQuorum — incluye la URL del proyecto, la licencia y una descripción de una oración en el formato anterior.

Fuentes

ggml-org/llama.cpp GitHub — fuente principal para la arquitectura del runtime y los modelos compatibles.
Ollama Library — catálogo oficial de modelos y documentación del runtime.
LM Studio Documentation — referencia de funciones para la GUI de escritorio dominante.
Open WebUI Documentation — referencia de funciones para la interfaz web autoalojada dominante.
Hugging Face Hub — ubicación principal para descargar los pesos de modelos consumidos por cada runtime listado anteriormente.
awesome-local-llm GitHub list — inventario mantenido por la comunidad usado como verificación de la inclusión de proyectos.

Preguntas frecuentes

¿Cuál es la diferencia entre un runtime LLM local y una app de escritorio?

Un runtime (Ollama, llama.cpp, vLLM) es el motor que carga los pesos del modelo y sirve una API — típicamente compatible con OpenAI. Una app de escritorio (LM Studio, Jan, GPT4All) es una interfaz de chat que llama a un runtime por detrás. Algunas apps incluyen su propio runtime (LM Studio incorpora llama.cpp), otras requieren que instales un runtime por separado (Open WebUI llama a Ollama). El runtime decide qué es posible; la app decide qué es conveniente.

¿Puedo usar varias herramientas de esta lista al mismo tiempo?

Sí — la mayoría de los stacks combinan 2-4 herramientas. Una configuración común: Ollama como runtime, Open WebUI para chat, AnythingLLM para chat de documentos y Continue.dev para código — las cuatro funcionan con la misma instancia de Ollama en una sola máquina. La tabla "Stacks comunes en producción" arriba lista las recetas que funcionan sin conflicto.

¿Qué herramientas funcionan completamente offline sin telemetría?

Ollama, llama.cpp, vLLM, Jan, GPT4All, Open WebUI, AnythingLLM, PrivateGPT, Continue.dev, Aider, KoboldCpp, Llamafile, MLX-LM y la mayoría de las apps con licencia AGPL/MIT de este directorio funcionan completamente offline una vez descargado el modelo. LM Studio y varias herramientas de código cerrado tienen análisis opcionales que se pueden desactivar en la configuración — verifica con una captura de paquetes una vez después de instalar. Las interfaces web (Open WebUI, LibreChat) son solo locales cuando se configuran para usar un backend local.

¿Alguna de estas herramientas tiene licencia comercial (no gratuita para uso comercial)?

Algunas: LM Studio, Msty, Backyard AI, Layla y Cursor son de código cerrado — generalmente gratuitas para usar pero no redistribuibles, y los términos comerciales varían. Private LLM es de pago. Las herramientas con licencia AGPL (Jan, KoboldCpp, text-generation-webui, SillyTavern, Khoj, Open Interpreter, Copilot for Obsidian) son gratuitas para cualquier uso incluyendo comercial, pero los términos AGPL requieren divulgar el código fuente si las modificas y las alojas públicamente. Los proyectos Apache 2.0 y MIT (la mayoría) son utilizables en cualquier contexto incluyendo comercial sin restricciones de atribución más allá del texto de la licencia.

¿Qué herramientas soportan Apple Silicon (chips de la serie M) de forma nativa?

Ollama, llama.cpp, MLX-LM, LM Studio, Jan, Enchanted, GPT4All, MLC Chat, AnythingLLM y la mayoría de las apps Electron/Tauri funcionan de forma nativa en Apple Silicon y usan el backend Metal. MLX-LM es específico de Apple y el más rápido para modelos grandes en chips M-series. vLLM, TensorRT-LLM y ExLlamaV2 están centrados en NVIDIA y no funcionan o funcionan mal en Apple Silicon — para usuarios de Apple, Ollama con el backend Metal es la opción por defecto.

¿Todas estas herramientas soportan el formato de modelo GGUF?

GGUF es el formato nativo de llama.cpp y cualquier herramienta que lo envuelva (Ollama, LM Studio, Jan, GPT4All, KoboldCpp, Llamafile). vLLM y TensorRT-LLM usan sus propios formatos optimizados (típicamente AWQ o FP16) para mayor rendimiento. ExLlamaV2 usa cuantización EXL2. MLX-LM usa pesos convertidos a MLX. La mayoría de las herramientas listadas aceptan GGUF; algunas (vLLM, TensorRT-LLM, ExLlamaV2, MLX-LM) requieren un paso de conversión único desde los pesos originales de Hugging Face.

¿Qué herramientas son mejores para usuarios sin experiencia en código?

GPT4All tiene la instalación más sencilla (un clic, funciona con 8 GB RAM). LM Studio es la más completa en funciones sin necesitar terminal. Jan es la opción sin código más centrada en la privacidad. Para chat de documentos sin trabajo en línea de comandos, AnythingLLM es la más fácil. Las cuatro están listadas en la categoría de Aplicaciones de escritorio (GUI) arriba.

¿Puedo ejecutar estas herramientas en un servidor y acceder a ellas de forma remota?

La mayoría de las herramientas con capacidad de servidor (Ollama, vLLM, LocalAI, Open WebUI, LibreChat, PrivateGPT, AnythingLLM) exponen una API HTTP y se vinculan a una interfaz de red configurable en la configuración. Patrón estándar: ejecutar Ollama en un servidor doméstico o VPS, ejecutar una interfaz en tu laptop o teléfono apuntando a la IP del servidor. Trata la API como cualquier servicio web — vincular a localhost detrás de un proxy inverso, o a una red privada con autenticación adecuada. Open WebUI incluye soporte multiusuario de forma nativa.

¿Qué herramientas soportan configuraciones multiusuario / de equipo?

Open WebUI, LibreChat, h2oGPT, AnythingLLM (con funciones de administrador habilitadas) y Dify están diseñados para uso multiusuario, con control de acceso basado en roles e historial de conversaciones por usuario. vLLM es la capa de serving correcta por debajo cuando la inferencia concurrente importa — agrupa solicitudes de múltiples usuarios para un rendimiento inalcanzable con Ollama a una concurrencia por encima de ~3.

¿Con qué frecuencia se actualiza este directorio?

Cada seis meses — última revisión en julio de 2026, la próxima actualización programada es en noviembre de 2026. Los cambios intermedios (un proyecto queda inactivo, una nueva herramienta gana cuota significativa, una licencia cambia) se aplican como parches a la entrada existente. Las categorías o capas completamente nuevas esperan a una revisión para mantener estable la estructura. La sección "Fuentes" arriba lista los índices comunitarios utilizados para monitorear lo que el ecosistema está haciendo entre revisiones.

← Volver a LLM locales avanzados