Conclusiones clave
- LM Studio es el camino más rápido de cero a chatear localmente. Descarga el instalador desde lmstudio.ai, abre la pestaña Discover, busca "Phi-4 Mini", descarga el modelo y empieza a chatear. En menos de 10 minutos con una conexión a internet decente.
- Jan es la alternativa de código abierto. Misma facilidad de uso que LM Studio, completamente de código abierto, funciona en Linux AppImage. Si prefieres software de código abierto o quieres ver el código fuente, Jan es la opción equivalente.
- GPT4All es la experiencia más simplificada. Ventana de chat única, recomendaciones de modelos seleccionados, sin sobrecarga de navegación de modelos. Lo mejor para usuarios que quieren escribir una pregunta y obtener una respuesta sin tomar decisiones de configuración.
- Empieza con Phi-4 Mini o Llama 3.2 3B en cualquier hardware. Estos modelos de 3B funcionan en cualquier portátil fabricado en los últimos 7 años — sin GPU, sin 32 GB de RAM, sin hardware especial. Son más lentos que una IA en la nube pero producen resultados utilizables para la mayoría de las tareas cotidianas.
- No se necesita cuenta en la nube. Tras la descarga inicial (la aplicación y el archivo del modelo), todo se ejecuta localmente sin conexión a internet. Sin clave de API, sin suscripción, sin datos enviados a ningún servidor.
- En Apple Silicon, casi cualquier modelo funciona bien. El MacBook Air M3 (8 GB) ejecuta Llama 3.2 3B y Phi-4 Mini con fluidez. El M3 Pro o M4 (16 GB+) ejecuta Qwen3 8B cómodamente. El M5 Max (64 GB) ejecuta modelos de 70B.
- LM Studio también sirve una API local. Si más adelante quieres conectar Obsidian, VS Code u otra herramienta a tu modelo local, la pestaña Local Server de LM Studio expone una API compatible con OpenAI en localhost — sin configuración adicional.
Datos rápidos
- LM Studio: lmstudio.ai — Windows (x64, ARM), macOS (Apple Silicon, Intel), Linux (AppImage, .deb).
- Jan: jan.ai — Windows (x64), macOS (Apple Silicon, Intel), Linux (AppImage).
- GPT4All: gpt4all.io — Windows (x64), macOS (Apple Silicon, Intel), Linux (AppImage).
- Hardware mínimo: cualquier portátil con 8 GB RAM para modelos de 3B–7B; 16 GB+ para modelos de 8B–14B; 24 GB+ para 30B+.
- No se necesita GPU para modelos de 3B–7B en Apple Silicon o modo de inferencia por CPU.
- Las tres son gratuitas y de código abierto (LM Studio es gratuita pero con código disponible, no completamente de código abierto).
- Recomendación de primer modelo: Phi-4 Mini (3B, ~2,7 GB de descarga) para hardware con menos de 8 GB; Qwen3 8B para sistemas de 8–16 GB.
Las tres opciones comparadas
Las tres aplicaciones se instalan como aplicaciones de escritorio estándar y no requieren el uso de la línea de comandos. Las diferencias están en la profundidad de funciones, el tamaño de la biblioteca de modelos y el equilibrio entre simplicidad y configurabilidad.
📍 En una frase
LM Studio es la aplicación de IA local más fácil para Windows y Mac — instala, navega por los modelos, descarga, chatea — con Jan como equivalente de código abierto y GPT4All como la opción más sencilla de ventana única.
💬 En términos simples
Si solo quieres iniciar un chat de IA local lo más rápido posible: descarga LM Studio, ábrelo, haz clic en Discover, escribe "Phi-4 Mini", descarga el modelo (~2,7 GB), haz clic en Chat y empieza a hablar. Esa es la configuración completa. Sin terminal, sin Python, sin cuenta. Si LM Studio te parece que tiene demasiadas opciones, prueba GPT4All — tiene una ventana y una lista corta de modelos preseleccionados.
| Característica | LM Studio | Jan | GPT4All |
|---|---|---|---|
| Tiempo de configuración (primera ejecución) | ~8 minutos | ~10 minutos | ~5 minutos |
| Biblioteca de modelos | Búsqueda GGUF completa de Hugging Face (~50.000+ modelos) | Seleccionados + búsqueda en Hugging Face | Lista seleccionada (~20 modelos) |
| Servidor de API local | Sí (compatible con OpenAI, pestaña Local Server) | Sí (compatible con OpenAI) | Sí (limitado, menos documentado) |
| Multi-chat / historial de conversaciones | Sí | Sí | Ventana de chat única |
| Licencia del código fuente | Gratuito, código disponible (no OSI) | AGPLv3 (completamente de código abierto) | MIT (completamente de código abierto) |
| Compatibilidad con Linux | AppImage, .deb | AppImage | AppImage |
| Lo mejor para | Usuarios que quieren la mejor interfaz + acceso a API para desarrolladores | Usuarios que prefieren software de código abierto | Principiantes absolutos que quieren la interfaz más sencilla |
💡Tip: Comienza con LM Studio a menos que tengas una razón específica para no hacerlo. Tiene la mejor interfaz, la biblioteca de modelos más grande y una ruta de actualización clara (pestaña Local Server) si quieres conectar otras herramientas más adelante. Si prefieres firmemente el software de código abierto, Jan es la opción equivalente.
LM Studio: guía de configuración
LM Studio se instala en 3 minutos y te tiene chateando en menos de 10. El proceso es idéntico en Windows y macOS — descarga, instala, navega por los modelos, descarga un modelo, chatea.
- 1Ve a lmstudio.ai y descarga el instalador para tu plataforma (Windows .exe, macOS .dmg, Linux .AppImage o .deb).
- 2Ejecuta el instalador. Acepta cualquier aviso de seguridad (es una aplicación nueva, no firmada por Apple/Microsoft de forma predeterminada en algunas versiones).
- 3Abre LM Studio. La barra lateral izquierda muestra: Chat, Search (Discover), Models y Local Server.
- 4Haz clic en "Discover" (el ícono del telescopio). En la barra de búsqueda, escribe "Phi-4 Mini" (para sistemas de 8 GB o menos) o "Qwen3 8B" (para sistemas de 16 GB+).
- 5Haz clic en el modelo y luego en "Download" junto a la variante de cuantización Q4_K_M. Esta es la mejor relación calidad-tamaño para la mayoría del hardware.
- 6Espera a que la descarga se complete (2–5 GB según el modelo). El progreso se muestra en la barra inferior.
- 7Haz clic en "Chat" en la barra lateral. Selecciona tu modelo descargado en el menú desplegable de la parte superior. Escribe tu primer mensaje.
💡Tip: En macOS, LM Studio detecta tu hardware automáticamente y recomienda el mejor nivel de cuantización para tu memoria disponible. Acepta la recomendación a menos que tengas una razón específica para modificarla. En Windows con GPU NVIDIA, LM Studio habilita automáticamente la aceleración por GPU — no necesitas configurar CUDA.
Jan: guía de configuración
Jan es la alternativa de código abierto a LM Studio — misma facilidad de uso, experiencia de descarga de modelos idéntica, licencia AGPLv3. Usa Jan si el software de código abierto es importante para ti o si quieres inspeccionar o modificar el código de la aplicación.
- 1Ve a jan.ai y descarga el instalador para tu plataforma.
- 2Ejecuta el instalador y abre Jan.
- 3Haz clic en "Hub" en la barra lateral izquierda para navegar por los modelos.
- 4Busca "Phi-4 Mini" o "Qwen3 8B" y haz clic en "Download". El Hub descarga archivos GGUF desde Hugging Face.
- 5Una vez descargado, haz clic en "Thread" para iniciar una nueva conversación. Selecciona tu modelo en el selector de modelos en la parte inferior de la ventana de chat.
- 6Escribe tu primer mensaje. Jan usa los mismos archivos de modelo que LM Studio — cualquier modelo que descargues funciona en ambas aplicaciones.
💡Tip: Jan y LM Studio usan el mismo formato de modelo GGUF. Los archivos de modelo descargados por una aplicación pueden apuntarse manualmente a la otra. Si ya descargaste modelos en LM Studio y quieres probar Jan (o viceversa), puedes ahorrar la re-descarga de 2–5 GB apuntando Jan al directorio de modelos de LM Studio (normalmente ~/Library/Application Support/LM Studio/models en macOS).
GPT4All: guía de configuración
GPT4All ofrece la experiencia más simplificada — una ventana de chat única y una lista seleccionada de modelos recomendados. Si LM Studio y Jan tienen demasiadas opciones y solo quieres escribir una pregunta y obtener una respuesta, empieza aquí.
- 1Ve a gpt4all.io y descarga el instalador para tu plataforma.
- 2Ejecuta el instalador y abre GPT4All.
- 3La pestaña Models muestra una lista seleccionada de modelos recomendados con descripciones en lenguaje sencillo (p. ej., "rápido, bueno para código", "mejor para chat general"). Haz clic en "Download" en el modelo más adecuado para tu hardware.
- 4Una vez descargado, la ventana de chat se abre automáticamente con el modelo seleccionado. Escribe tu primer mensaje.
- 5GPT4All no tiene historial de conversaciones múltiples — cada sesión comienza desde cero. Está diseñado para uso de una sola tarea en lugar de conversaciones extendidas.
💡Tip: GPT4All incluye una función "LocalDocs" que te permite agregar una carpeta de documentos (PDFs, archivos de texto) y hacer preguntas sobre ellos. Esta es una versión simplificada de RAG — útil para preguntas básicas sobre documentos sin configurar LlamaIndex o AnythingLLM. La precisión es limitada en comparación con una configuración RAG adecuada, pero no requiere ninguna configuración adicional.
¿Qué modelo debo descargar primero?
El primer modelo correcto depende de cuánta RAM tiene tu computadora. Más RAM = modelo más grande = mejores respuestas, pero cualquier computadora moderna puede ejecutar algo útil.
| RAM disponible | Primer modelo recomendado | Tamaño de descarga | Velocidad esperada |
|---|---|---|---|
| 8 GB o menos | Phi-4 Mini (3,8B Q4) | ~2,7 GB | 15–30 tokens/seg en Apple Silicon; 5–10 tok/seg solo CPU Intel/AMD |
| 8–16 GB | Llama 3.2 3B (Q4) o Qwen3 8B (Q4) | 2,0–4,9 GB | 20–40 tok/seg en Apple Silicon; 8–15 tok/seg solo CPU |
| 16–32 GB | Qwen3 14B (Q4) | ~8,9 GB | 15–25 tok/seg en Apple Silicon; GPU necesaria para tiempo real en x86 |
| 32 GB+ (Apple Silicon) o 24 GB VRAM (NVIDIA) | Llama 3.3 70B (Q4) | ~40 GB | 10–20 tok/seg en Apple M5 Max; 15–25 tok/seg RTX 4090 |
💡Tip: Comienza con el modelo más pequeño que se ejecute lo suficientemente rápido como para sentirse interactivo (más de 8 tokens por segundo en velocidad de escritura en tiempo real). Un modelo grande y lento es peor de usar que uno pequeño y rápido — la frustración de esperar 10 segundos por oración derrota el propósito. Actualiza a un modelo más grande cuando hayas experimentado los límites del pequeño.
Requisitos de hardware
No necesitas una PC para juegos ni una GPU dedicada para ejecutar IA local en 2026. Los Mac con Apple Silicon son el mejor hardware de consumo para LLMs locales; cualquier MacBook Air desde M1 en adelante ejecuta modelos pequeños bien. En Windows y Linux, el modo de inferencia por CPU funciona para modelos de 3B–7B en cualquier portátil con 8 GB RAM.
📍 En una frase
Cualquier portátil con 8 GB RAM fabricado después de 2018 puede ejecutar un modelo de IA local — los Mac con Apple Silicon los ejecutan más rápido, pero las máquinas Windows y Linux solo con CPU ejecutan modelos de 3B–7B a velocidades de generación utilizables.
💬 En términos simples
No se necesita GPU para los modelos pequeños (Phi-4 Mini, Llama 3.2 3B). Estos se ejecutan en inferencia por CPU y producen una respuesta a velocidad de escritura en cualquier portátil moderno. Si tienes una GPU NVIDIA con 8 GB+ VRAM, LM Studio la usará automáticamente y ejecutará modelos más grandes (Mistral 7B, Qwen3 8B) mucho más rápido. Si tienes un Mac con Apple Silicon, la arquitectura de memoria unificada significa que puedes ejecutar modelos hasta el tamaño de tu RAM.
- Apple Silicon (M1–M5): el mejor hardware de consumo para LLMs locales. La memoria unificada significa que la GPU y la CPU comparten RAM — un MacBook Air M3 con 8 GB ejecuta Phi-4 Mini a más de 20 tokens/seg; un M5 Max con 64 GB ejecuta Llama 3.3 70B.
- GPU NVIDIA (Windows/Linux): la aceleración CUDA en LM Studio y Jan acelera drásticamente la generación. RTX 3060 12 GB ejecuta Mistral 7B y Qwen3 8B en tiempo real. RTX 4090 24 GB ejecuta modelos de 30B.
- GPU AMD (Windows/Linux): el soporte ROCm en LM Studio y Jan está mejorando pero es menos maduro que CUDA. Si tienes una GPU AMD, consulta las notas de la versión de LM Studio para tu tarjeta específica antes de depender de la aceleración por GPU.
- Solo CPU Intel/AMD: funciona para modelos de 3B–7B a 5–15 tokens/seg — utilizable pero lento. La experiencia es mejor para tareas donde envías un prompt y haces otra cosa (resumen, redacción de correos) que para uso conversacional en tiempo real.
- RAM y VRAM: el modelo debe caber completamente en RAM (o VRAM). Un modelo de 4B necesita ~3 GB; un modelo de 8B necesita ~5 GB; un modelo de 14B necesita ~9 GB; un modelo de 70B necesita ~42 GB. Si el modelo es demasiado grande, LM Studio te avisará antes de descargarlo.
⚠️Warning: No intentes ejecutar un modelo más grande que tu RAM disponible. LM Studio usará el disco como intercambio si el modelo no cabe en RAM, lo que hace que la generación sea tan lenta (~0,5 tokens/seg) que la aplicación parece rota. Siempre comprueba el tamaño del modelo en la pestaña Discover antes de descargarlo y compáralo con tu RAM disponible.
Errores comunes
- Descargar un modelo demasiado grande para tu RAM. Comprueba la RAM disponible antes de descargar. Un modelo de 70B en una máquina de 16 GB usará el disco como intercambio y producirá salida a 1 token cada 10 segundos.
- Esperar calidad de IA en la nube de un modelo de 3B. Los modelos locales pequeños (3B–7B) son menos capaces que GPT-4o o Claude. Son mejores que nada y útiles para muchas tareas, pero cometen más errores, pierden contexto más rápido y producen salidas menos matizadas.
- No usar la cuantización Q4_K_M. LM Studio usa Q4_K_M por defecto para la mayoría de los modelos, que es la elección correcta. Q8 requiere el doble de RAM para una ganancia de calidad modesta; Q2 requiere menos RAM pero degrada notablemente la calidad de la salida. Mantente en Q4_K_M a menos que tengas una razón específica para desviarte.
- Cerrar el chat entre sesiones y perder el historial. En LM Studio y Jan, cada sesión de chat guarda su historial a menos que lo elimines. Guarda o fija las conversaciones importantes; no asumas que el historial persiste si reinstala o borras la aplicación.
- No ejecutar el Local Server para integraciones. Si más adelante quieres usar tu modelo local con Obsidian, VS Code u otra herramienta, haz clic en la pestaña Local Server en LM Studio y presiona Start. Otras herramientas se conectan a
http://localhost:1234usando la API compatible con OpenAI.
Fuentes
- Notas de la versión de LM Studio y compatibilidad de hardware — lmstudio.ai
- Documentación de Jan y requisitos de hardware — jan.ai/docs
- Biblioteca de modelos de GPT4All y documentación de LocalDocs — gpt4all.io
- Informe técnico de Phi-4 Mini — Microsoft Research
- Especificación del formato de cuantización GGUF — llama.cpp
FAQ
¿Tiene algún costo ejecutar una aplicación de IA local?
Sin costo continuo. LM Studio, Jan y GPT4All son gratuitas para descargar y usar. Los modelos también son gratuitos — son de código abierto y se descargan directamente desde Hugging Face o repositorios similares. El único costo es la electricidad (ejecutar tu CPU/GPU) y la descarga única del modelo (2–40 GB según el modelo). No hay tarifas de suscripción, costos de API ni cargos por mensaje.
¿Necesito conexión a internet para usar una aplicación de IA local?
Solo para la descarga inicial de la aplicación y los archivos del modelo. Una vez descargados, todo se ejecuta localmente — no se necesita conexión a internet. Puedes usar tu aplicación de IA local en un avión, en un hotel sin Wi-Fi o en un entorno con red restringida.
¿Qué tan privada es una aplicación de IA local?
Completamente privada. Tus conversaciones, prompts y las respuestas del modelo nunca salen de tu máquina. No hay servidores en la nube, sin registros, sin recopilación de datos de entrenamiento. LM Studio tiene análisis opcionales (se puede desactivar en la configuración), pero el contenido del chat en sí nunca se transmite. Jan y GPT4All no tienen telemetría por defecto.
¿Cuál es la diferencia entre LM Studio y Ollama?
LM Studio es una aplicación de escritorio con interfaz gráfica — interactúas con ella a través de una interfaz visual. Ollama es una herramienta de línea de comandos que ejecuta un servidor de modelos local — interactúas con ella a través de una terminal o llamadas a la API. Para usuarios no técnicos, LM Studio es mucho más fácil. Para desarrolladores que quieren integrar modelos locales en sus propias herramientas, la API de Ollama es más sencilla de usar. Ambas ejecutan los mismos archivos de modelo GGUF.
¿Puedo usar una aplicación de IA local en un MacBook más antiguo?
Sí, si cumple con el requisito de RAM (8 GB mínimo para modelos de 3B). Los modelos MacBook Air y MacBook Pro de 2018 en adelante con 8 GB RAM pueden ejecutar Phi-4 Mini a velocidad lenta pero utilizable (~5–10 tokens/seg en Mac Intel). Los Mac con Apple Silicon (M1 en adelante) son significativamente más rápidos debido a la arquitectura de memoria unificada y el Neural Engine. Un MacBook Air M1 de 2020 ejecuta Phi-4 Mini a más de 20 tokens/seg.
¿Puedo ejecutar varios modelos al mismo tiempo?
LM Studio admite cargar un modelo a la vez en la interfaz gráfica, pero puedes ejecutar varios modelos simultáneamente a través del Local Server si tienes suficiente RAM. Jan y GPT4All son de un modelo a la vez. Para flujos de trabajo con múltiples modelos, Ollama es más flexible — puede servir varios modelos simultáneamente en el mismo servidor.
¿Qué aplicación de IA local funciona en un Chromebook?
Ninguna de las tres funciona de forma nativa en ChromeOS. Sin embargo, los Chromebooks con Linux (Crostini) habilitado pueden instalar Jan u Ollama a través de la terminal de Linux. La experiencia es más técnica que en Windows o Mac. En Chromebooks Android con buena RAM (8 GB+), Termux también puede ejecutar Ollama, pero esto requiere comodidad con la línea de comandos.
¿Cómo actualizo a una versión más nueva del modelo?
En LM Studio, abre la pestaña Discover, busca la versión más nueva del modelo, descárgala y cambia a ella en el selector de modelos de Chat. La versión antigua no se elimina automáticamente — elimínala manualmente desde la pestaña Models si necesitas espacio en disco. En Jan, el Hub muestra las actualizaciones disponibles para los modelos que has descargado. GPT4All muestra los nuevos modelos en su lista de modelos seleccionados.