Key Takeaways
- Un LLM local se ejecuta en tu propia CPU o GPU: sin internet, sin costes de API, sin datos enviados a servidores de terceros.
- Se necesitan tres componentes: el archivo del modelo (formato GGUF o safetensors), un motor de inferencia (Ollama, LM Studio o llama.cpp) y, opcionalmente, una interfaz de chat.
- Hardware mínimo: 8 GB de RAM para un modelo de 7B parámetros con cuantización de 4 bits. Con 16 GB de RAM se manejan con comodidad la mayoría de los modelos cotidianos.
- Los modelos locales son más lentos que las API en la nube en hardware de consumo: un modelo de 7B en un portátil moderno produce 15-40 tokens/seg frente a ~100 tokens/seg de GPT-4o Mini por API.
- Mejores casos de uso: procesamiento de datos privados, trabajo sin conexión, coste recurrente cero y aprender cómo funcionan los LLM.
¿Qué es un LLM local?
Un LLM local (modelo de lenguaje grande) es un modelo de IA que se ejecuta en hardware bajo tu control: tu portátil, ordenador de escritorio o servidor local. Los pesos del modelo se almacenan como un archivo en tu disco, y todo el procesamiento ocurre en tu propia CPU o GPU. Ningún texto de los prompts ni datos de respuesta se transmite a ningún servidor externo.
El término "local" distingue estos modelos de los servicios alojados en la nube, como OpenAI GPT-4o, Anthropic Claude 4.6 o Google Gemini 3.1 Pro, que procesan tus prompts en servidores remotos y devuelven los resultados por internet.
Los LLM locales van desde pequeños modelos de 1B parámetros que funcionan en un teléfono hasta modelos de 70B parámetros que requieren una estación de trabajo con 48 GB de VRAM. Los modelos para principiantes más utilizados -- Meta Llama 3.2 3B, Microsoft Phi-3 Mini y Google Gemma 2 2B -- funcionan en cualquier portátil con 8 GB de RAM.
¿Cómo funciona un LLM local?
Ejecutar un LLM local implica tres capas que trabajan juntas: el archivo del modelo, el motor de inferencia y la interfaz.
El archivo del modelo contiene los pesos de la red neuronal: los valores numéricos aprendidos que definen cómo el modelo procesa y genera texto. Para uso local, estos pesos se almacenan casi siempre en formato GGUF (un formato comprimido desarrollado por el proyecto llama.cpp) o en formato safetensors. Un modelo de 7B parámetros cuantizado a 4 bits de precisión ocupa aproximadamente 4,5 GB en disco.
El motor de inferencia lee el archivo del modelo y realiza los cálculos matriciales necesarios para generar tokens. Los motores más populares son Ollama (se ejecuta como servicio en segundo plano con una API compatible con OpenAI), LM Studio (una aplicación de escritorio con interfaz de chat integrada) y llama.cpp (la biblioteca C++ subyacente sobre la que se construyen la mayoría de las herramientas).
La interfaz es donde interactúas con el modelo: un terminal, una interfaz web o un endpoint de API. Muchas herramientas como Ollama exponen una API REST en `http://localhost:11434` para que puedas conectar cualquier aplicación compatible con OpenAI a tu modelo local.
¿Qué hardware necesitas para ejecutar un LLM local?
El requisito de hardware depende completamente del modelo que quieras ejecutar y de la velocidad de respuesta que necesites.
| Tamaño del modelo | RAM necesaria | Velocidad (CPU) | Modelos de ejemplo |
|---|---|---|---|
| 1B-3B parámetros | 4-6 GB | 20-60 tok/seg | Llama 3.2 1B, Phi-3 Mini 3.8B |
| 7B-8B parámetros | 6-8 GB | 10-30 tok/seg | Llama 3.1 8B, Mistral 7B |
| 13B-14B parámetros | 10-12 GB | 5-15 tok/seg | Llama 3.2 13B, Qwen2.5 14B |
| 32B-34B parámetros | 20-24 GB | 2-6 tok/seg | Qwen2.5 32B, DeepSeek-R1 32B |
| 70B+ parámetros | 40-48 GB | 1-3 tok/seg | Llama 3.3 70B, Qwen2.5 72B |
¿Una GPU hace más rápido un LLM local?
La aceleración por GPU mejora la velocidad de forma drástica. Una NVIDIA RTX 4070 Ti (12 GB de VRAM) ejecuta un modelo de 7B a 80-120 tokens/seg: entre 4 y 8 veces más rápido que en modo solo CPU. Los Mac con Apple Silicon (M1, M2, M3, M4) usan memoria unificada y alcanzan 40-80 tokens/seg en modelos de 7B sin una GPU dedicada. Para usuarios de portátiles, consulta Cómo ejecutar LLM locales en un portátil para consejos específicos de hardware.
LLM local vs API en la nube: ¿cuál es la diferencia?
La compensación principal es privacidad y coste frente a capacidad y velocidad. Consulta la comparación completa en LLM locales vs API en la nube.
| Factor | LLM local | API en la nube |
|---|---|---|
| Privacidad | Total: los datos nunca salen de tu máquina | Datos procesados en servidores del proveedor |
| Coste | $0 por token tras el coste del hardware | $0,15-$15 por 1M de tokens según el modelo |
| Velocidad | 10-120 tok/seg en hardware de consumo | 50-200 tok/seg, varía según la carga |
| Calidad del modelo | Buena: competitiva a escala 70B | La mejor disponible (GPT-4o, Claude 4.6 Sonnet) |
| Tiempo de configuración | 5-15 minutos con Ollama o LM Studio | 2-5 minutos para obtener una API key |
| Uso sin conexión | Sí: funciona sin internet | No: requiere conexión activa |
¿Qué formatos de modelo se usan para los LLM locales?
GGUF (GPT-Generated Unified Format) es el formato dominante para la inferencia local. Desarrollado por el proyecto llama.cpp, los archivos GGUF integran todos los metadatos del modelo y soportan múltiples niveles de cuantización en un único archivo. Cuando ejecutas `ollama pull llama3.2`, Ollama descarga internamente un archivo GGUF.
Safetensors es un formato de Hugging Face utilizado principalmente con herramientas de inferencia basadas en PyTorch, como transformers y vLLM. Es más habitual en investigación y despliegues en servidores.
La cuantización reduce la precisión del modelo para bajar los requisitos de memoria. Un modelo de 7B en precisión FP16 completa requiere ~14 GB de RAM. Con cuantización Q4_K_M (4 bits), el mismo modelo necesita ~4,5 GB con una pérdida de calidad mínima. La mayoría de las guías para principiantes usan Q4_K_M o Q5_K_M.
¿Cuándo debes usar un LLM local en lugar de una API en la nube?
- Procesamiento de datos sensibles -- historiales médicos, documentos legales, datos financieros o cualquier información de identificación personal (PII) que no puede salir de tu infraestructura.
- Eliminar costes de API -- procesamiento por lotes de alto volumen donde los costes por token en la nube se acumulan rápidamente. Un modelo de 7B ejecutado localmente cuesta $0 por consulta una vez amortizado el hardware.
- Entornos sin conexión o aislados -- trabajo de campo, instalaciones seguras o aplicaciones que deben funcionar sin conectividad a internet.
- Aprendizaje y experimentación -- entender cómo funcionan los LLM internamente, probar prompts sin preocupaciones de coste o construir herramientas locales potenciadas por IA.
- Aplicaciones de baja latencia -- cuando el tiempo de ida y vuelta por red es inaceptable y un modelo local más pequeño es suficientemente rápido para la tarea.
Preguntas frecuentes sobre los LLM locales
¿Puede un LLM local igualar la calidad de GPT-4o?
No, no en el hardware de consumo actual. GPT-4o y Claude 4.6 Sonnet superan a cualquier modelo ejecutable localmente en razonamiento complejo, generación de código y benchmarks de seguimiento de instrucciones. Sin embargo, para tareas de resumen, traducción y escritura cotidiana, un modelo de 13B-34B bien cuantizado produce resultados difíciles de distinguir de los modelos frontier.
¿Necesito una GPU para ejecutar un LLM local?
No. Todos los motores de inferencia principales (Ollama, LM Studio, llama.cpp) funcionan solo con CPU. Una GPU acelera considerablemente el rendimiento: una NVIDIA RTX 4060 (8 GB de VRAM) ejecuta un modelo de 7B a 60-90 tokens/seg frente a 10-20 tokens/seg solo en CPU. Los Mac con Apple Silicon utilizan memoria unificada acelerada por GPU de forma predeterminada y son ideales para LLM locales sin una GPU dedicada.
¿Dónde descargo los modelos de LLM locales?
Las tres fuentes principales son: la biblioteca de modelos de Ollama (ollama.com/library) para descargas con un solo comando; Hugging Face (huggingface.co) para la gama completa de modelos GGUF y safetensors; y el navegador de modelos integrado de LM Studio, que busca directamente en Hugging Face. Consulta Cómo instalar Ollama y Cómo instalar LM Studio para guías de configuración.
¿Es privado ejecutar un LLM local?
Sí, con matices. La inferencia del modelo en sí es completamente local. Sin embargo, algunas aplicaciones construidas sobre LLM locales pueden enviar datos a servidores externos. Comprueba siempre si la interfaz o la capa de plugins que utilizas tiene habilitada la telemetría o la sincronización en la nube. Consulta la Lista de verificación de seguridad y privacidad para LLM locales para una guía de auditoría completa.
¿Cómo empezar con los LLM locales?
La forma más rápida de ejecutar tu primer LLM local es Cómo instalar Ollama: un único comando instala el motor y descarga un modelo en menos de 5 minutos en macOS, Windows o Linux. Si prefieres una interfaz gráfica, Cómo instalar LM Studio guía paso a paso por la configuración de la aplicación de escritorio. Para elegir con qué modelo empezar, consulta Mejores modelos LLM locales para principiantes.
Fuentes
- llama.cpp -- GitHub -- La biblioteca C++ fundamental para ejecutar modelos cuantizados localmente
- Hugging Face -- Model Hub -- Repositorio de más de 100.000 modelos en formato GGUF, safetensors y otros
- Ollama Model Library -- Lista curada de modelos precuantizados disponibles para descargar con un clic
Errores comunes al empezar
- Asumir que todos los modelos locales son igualmente privados: algunas interfaces o cuantizaciones pueden seguir registrando datos.
- Ejecutar modelos demasiado grandes para la RAM disponible, lo que provoca una ralentización severa por intercambio de disco.
- No entender que la calidad de los modelos varía drásticamente: no todos los modelos locales igualan a GPT-4o en tareas complejas.