Key Takeaways
- Mejor modelo para principiantes en general: Llama 3.2 3B -- 2 GB de descarga, funciona con 4 GB de RAM, excelente seguimiento de instrucciones para su tamaño.
- Mejor para poca RAM (4 GB o menos): Phi-4 Mini 3.8B -- el modelo compacto de Microsoft destaca en razonamiento y codificación (68% MMLU, 70% HumanEval con solo 2,5 GB de RAM).
- El modelo 2B más rápido: Gemma 3 2B -- el modelo actualizado de Google alcanza 40-60 tok/s en CPU con contexto de 128K (ampliado desde los 8K de Gemma 2).
- Mejor modelo 7B todoterreno: Mistral 7B v0.3 -- fiable, con soporte de llamadas a funciones y licencia Apache 2.0. A partir de abril de 2026, Qwen2.5 7B lo supera en codificación y Llama 3.1 8B lidera en razonamiento en inglés en el mismo nivel de RAM.
- Mejor para multilingüe y codificación: Qwen2.5 7B -- supera a Mistral 7B en benchmarks de codificación y soporta 29 idiomas de forma nativa.
- 👉 ¿No sabes si lo local es para ti? Lee la comparación de LLM local vs nube antes de decidir -- cubre diferencias de velocidad, calidad y coste.
Inicio rápido: Ejecuta tu primer LLM local en 3 minutos
1. Instala Ollama (1 minuto)
Descárgalo desde ollama.com y ejecuta el instalador. Sin configuración.
2. Ejecuta Llama 3.2 3B (2 minutos)
Abre tu terminal y ejecuta: `ollama run llama3.2:3b`
Ollama descarga el modelo (~2 GB) la primera vez. Este es el modelo recomendado como primer modelo para la mayoría de usuarios.
3. Empieza a chatear (inmediato)
Una vez que el modelo cargue, escribe tu pregunta o prompt y presiona Enter. Verás respuestas a 25-45 tokens/segundo en un portátil típico.
Eso es todo. Sin configuración manual, sin GPU necesaria. Si tienes 8 GB+ de RAM, estás listo. Si tienes 4-6 GB, usa `ollama run gemma3:2b` en su lugar (más rápido, usa 1,7 GB de RAM).
Lista de verificación para principiantes: ¿Es lo local adecuado para ti?
Antes de descargar tu primer modelo, responde estas tres preguntas:
1. ¿Tienes 8 GB o más de RAM? (Si no, las APIs en la nube son más rápidas para empezar.)
2. ¿Necesitas que tus datos permanezcan privados? (Si no, las APIs en la nube ofrecen mejor calidad.)
3. ¿Puedes tolerar 20-40 minutos de configuración? (Si no, las APIs en la nube están listas en 5 minutos.)
Si respondiste "no" a dos o más preguntas, **lee la comparación completa de local vs nube** para ver si una API en la nube se adapta mejor a tu hardware y cronograma. Los principiantes suelen asumir que los LLMs locales son siempre mejores -- no es así. La elección correcta depende de tus restricciones específicas.
¿Cómo eliges un modelo LLM local para principiantes?
La selección de modelos para LLMs locales depende de tres restricciones: RAM disponible, velocidad de inferencia y tipo de tarea -- en ese orden de prioridad.
El número de parámetros (3B, 7B, 13B) es el principal determinante de los requisitos de RAM. Con la cuantización de 4 bits -- el estándar para la mayoría de herramientas de inferencia local -- multiplica el número de parámetros por ~0,5 para estimar los GB de RAM necesarios. Un modelo de 7B en Q4_K_M requiere aproximadamente 4,5 GB de RAM.
Para la mayoría de principiantes, los modelos de 7B con cuantización Q4_K_M ofrecen el mejor equilibrio de calidad, velocidad y uso de RAM en máquinas con 8 GB o más. En máquinas con 4-6 GB de RAM, los modelos de 3B son el techo práctico.
#1 Meta Llama 3.2 3B -- Mejor modelo para principiantes en general
Meta Llama 3.2 3B es el mejor punto de partida para la mayoría de usuarios. Se descarga en menos de 5 minutos, funciona en cualquier máquina con 4 GB de RAM y produce un seguimiento de instrucciones notablemente mejor que los modelos 3B anteriores. Utiliza una ventana de contexto de 128K -- mucho mayor que los modelos de tamaño comparable.
En nuestras pruebas con un CPU de portátil de 8 núcleos, Llama 3.2 3B genera 25-45 tokens/s. En Apple M3 Pro alcanza 70-90 tokens/s. La calidad es adecuada para resúmenes, preguntas y respuestas y tareas de codificación simples, pero queda por detrás de los modelos de 7B en razonamiento de varios pasos.
| Especificación | Valor |
|---|---|
| Parámetros | 3B |
| RAM requerida | ~2,5 GB (Q4_K_M) |
| Tamaño de descarga | ~2 GB |
| Ventana de contexto | 128K tokens |
| Velocidad CPU (portátil de 8 núcleos) | 25-45 tok/s |
| Comando Ollama | ollama run llama3.2:3b |
#2 Microsoft Phi-4 Mini 3.8B -- Mejor para poca RAM
Phi-4 Mini es el modelo compacto de Microsoft optimizado para tareas de razonamiento y codificación a pequeña escala. Alcanza 68% MMLU y 70% HumanEval -- puntuaciones que superan a muchos modelos de 7B de 2024 -- gracias al entrenamiento con datos sintéticos de alta calidad enfocados en la resolución de problemas.
Es el modelo recomendado para máquinas con 4-6 GB de RAM donde la calidad importa. Phi-4 Mini usa 2,5 GB de RAM (frente a los 3 GB de Phi-3.5 Mini), lo que lo hace más accesible en máquinas de 4 GB.
| Especificación | Valor |
|---|---|
| Parámetros | 3,8B |
| RAM requerida | ~2,5 GB (Q4_K_M) |
| Tamaño de descarga | ~2,3 GB |
| Puntuación MMLU | 68% |
| Ventana de contexto | 128K tokens |
| Velocidad CPU (portátil de 8 núcleos) | 30-50 tok/s |
| Comando Ollama | ollama run phi4-mini |
#3 Google Gemma 3 2B -- El modelo 2B más rápido
Gemma 3 2B es el modelo 2B actualizado de Google y la opción más rápida para inferencia solo en CPU. Genera 40-60 tokens/s en un CPU de portátil de gama media -- aproximadamente el doble de velocidad que Llama 3.2 3B en el mismo hardware. Gemma 3 mejora significativamente a su predecesor: la ventana de contexto se amplía de 8K (Gemma 2) a 128K tokens, eliminando una limitación importante para tareas con documentos.
Gemma 3 2B es una buena opción cuando la velocidad de respuesta es lo más importante, en máquinas con ≤4 GB de RAM, o como modelo de prueba para verificar tu configuración de LLM local antes de descargar modelos más grandes.
| Especificación | Valor |
|---|---|
| Parámetros | 2B |
| RAM requerida | ~1,7 GB (Q4_K_M) |
| Tamaño de descarga | ~1,6 GB |
| Ventana de contexto | 128K tokens |
| Velocidad CPU (portátil de 8 núcleos) | 40-60 tok/s |
| Comando Ollama | ollama run gemma3:2b |
#4 Mistral 7B v0.3 -- Mejor modelo 7B todoterreno
Mistral 7B v0.3 es un modelo 7B de uso general fiable con un formato de instrucciones limpio y soporte de llamadas a funciones. A partir de abril de 2026, Qwen2.5 7B lo supera en benchmarks de codificación y Llama 3.1 8B lidera en razonamiento en inglés -- pero Mistral 7B sigue siendo una opción sólida para contextos de soberanía de datos en la UE, ya que Mistral AI es una empresa francesa con licencia Apache 2.0 en este modelo.
Para máquinas con 8 GB de RAM, Mistral 7B es un salto natural desde los modelos de 3B. Maneja textos más largos, instrucciones más complejas y conversaciones de varios turnos de forma más fiable que cualquier modelo de 3B.
| Especificación | Valor |
|---|---|
| Parámetros | 7B |
| RAM requerida | ~4,5 GB (Q4_K_M) |
| Tamaño de descarga | ~4,1 GB |
| Ventana de contexto | 32K tokens |
| Velocidad CPU (portátil de 8 núcleos) | 10-20 tok/s |
| Comando Ollama | ollama run llama3.2 |
#5 Qwen2.5 7B -- Mejor para multilingüe y codificación
Qwen2.5 7B supera a Mistral 7B en HumanEval (codificación) y los benchmarks MBPP, y soporta de forma nativa 29 idiomas incluyendo chino, japonés, coreano, árabe y todos los principales idiomas europeos. Es la opción recomendada para flujos de trabajo en idiomas distintos al inglés o casos de uso intensivos en codificación.
Qwen2.5 7B usa una ventana de contexto de 128K (frente a los 32K de Mistral 7B) y soporta salida estructurada con modo JSON. El modelo está disponible en variantes instruct y base -- para uso en chat, usa siempre la versión instruct. Consulta la comparación de benchmarks Qwen vs Llama vs Mistral para datos detallados de benchmarks.
| Especificación | Valor |
|---|---|
| Parámetros | 7B |
| RAM requerida | ~4,7 GB (Q4_K_M) |
| Tamaño de descarga | ~4,4 GB |
| Ventana de contexto | 128K tokens |
| Velocidad CPU (portátil de 8 núcleos) | 10-18 tok/s |
| Comando Ollama | ollama run qwen2.5:7b |
¿Qué modelo gana en RAM, velocidad y ventana de contexto?
| Modelo | RAM | Velocidad (CPU) | Contexto | Mejor para |
|---|---|---|---|---|
| Llama 3.2 3B | 2,5 GB | 25-45 tok/s | 128K | Uso general, primer modelo |
| Phi-4 Mini 3.8B | 2,5 GB | 30-50 tok/s | 128K | Razonamiento, codificación, poca RAM |
| Gemma 3 2B | 1,7 GB | 40-60 tok/s | 128K | Velocidad, muy poca RAM |
| Mistral 7B v0.3 | 4,5 GB | 10-20 tok/s | 32K | Despliegues en la UE, llamadas a funciones, Apache 2.0 |
| Qwen2.5 7B | 4,7 GB | 10-18 tok/s | 128K | Multilingüe, codificación |
¿Con qué modelo deberías empezar?
- 4 GB de RAM o menos: `ollama run gemma3:2b` -- descarga más rápida, menor uso de memoria, contexto de 128K. Calidad aceptable para tareas básicas.
- 8 GB de RAM, primer modelo: `ollama run llama3.2:3b` -- mejor equilibrio de calidad y RAM para una primera experiencia.
- 4-6 GB de RAM, razonamiento/codificación: `ollama run phi4-mini` -- 68% MMLU, 70% HumanEval con solo 2,5 GB de RAM. Mejor que Llama 3.2 3B en tareas estructuradas.
- 8 GB de RAM, uso serio: `ollama run mistral` o `ollama run qwen2.5:7b` -- un paso adelante para documentos largos e instrucciones complejas.
- Principalmente tareas de codificación: `ollama run qwen2.5:7b` -- mejor puntuación HumanEval de esta lista; excelente en Python, JavaScript y SQL.
- Idioma distinto al inglés: `ollama run qwen2.5:7b` -- soporte nativo de 29 idiomas, sin sobrecarga de traducción.
¿Qué modelo elegir según tu región?
UE / RGPD: Para organizaciones europeas que procesan datos personales localmente, la procedencia del modelo importa para la documentación de cumplimiento. Mistral 7B v0.3 (Mistral AI, Francia, Apache 2.0) ofrece la narrativa de cumplimiento europeo más sencilla. Las directrices alemanas del BSI requieren documentar el origen y el tipo de licencia del modelo para sistemas de IA usados en contextos profesionales. Llama (Meta/EE.UU.), Gemma (Google/EE.UU.) y Qwen (Alibaba/China) son técnicamente utilizables bajo el RGPD para inferencia local, pero el origen europeo de Mistral simplifica la documentación para sectores regulados.
Japón (METI): Para flujos de trabajo en japonés, Qwen2.5 7B es el primer modelo correcto -- la tokenización japonesa nativa produce una eficiencia de tokens 30-40% mejor en textos japoneses que Llama o Mistral. Ejecuta: `ollama run qwen2.5:7b`. Las directrices de gobernanza de IA del METI requieren documentar el nombre y la versión del modelo -- los cinco modelos aquí tienen etiquetas de Ollama versionadas que satisfacen este requisito.
China: Qwen2.5 7B (Alibaba) es el primer modelo natural para flujos de trabajo en chino. La tokenización nativa en chino y el soporte de 29 idiomas lo convierten en el estándar para flujos de trabajo en mandarín. Para el despliegue empresarial en China bajo la Ley de Seguridad de Datos de China (数据安全法), Qwen2.5 ejecutado localmente mediante Ollama cumple los requisitos de localización de datos.
¿Cómo descargar y ejecutar estos modelos?
Los cinco modelos se instalan con un solo comando de Ollama -- sin configuración manual necesaria. Consulta Cómo instalar Ollama para la configuración, luego Ejecuta tu primer LLM local para un paso a paso de la primera ejecución. Si ejecutas en un portátil con poca RAM, Cómo ejecutar LLMs locales en un portátil cubre la cuantización y el ajuste de rendimiento para hardware limitado.
Una vez que tu primer modelo esté en marcha, el siguiente paso es aprender a hacer prompts de forma efectiva. Empieza con los fundamentos de prompt engineering -- 16 guías que cubren los bloques básicos que todo prompt necesita, desde la configuración de temperatura hasta el formato de salida.
¿Qué errores cometen los principiantes al elegir un LLM local?
- Elegir el tamaño del modelo basándose solo en el número de parámetros -- un 7B con cuantización de 4 bits puede superar a un 13B mal cuantizado.
- No tener en cuenta la sobrecarga de cuantización de VRAM -- un modelo puede necesitar un 10-15% más de VRAM que el tamaño del archivo.
- Usar cuantizaciones antiguas (Q3_K_S) cuando las nuevas (Q4_K_M) ofrecen mejor calidad con el mismo tamaño.
- Elegir Mistral 7B como modelo 7B predeterminado: Mistral 7B v0.3 era el estándar de la comunidad en 2023-2024 pero ahora Qwen2.5 7B lo supera en codificación y Llama 3.1 8B lo supera en tareas en inglés con el mismo requisito de RAM. Si tu herramienta usa `ollama run mistral` por defecto, cambia a `ollama run qwen2.5:7b` o `ollama run llama3.2` para mejores resultados sin aumentar la RAM.
- Descargar un modelo sin comprobar la RAM disponible primero: Si descargas un modelo que supera la RAM disponible, Ollama recurre a inferencia lenta en CPU con intercambio de disco parcial -- a veces por debajo de 1 tok/s. Siempre ejecuta `free -h` (Linux/macOS) o comprueba el Administrador de tareas (Windows) antes de descargar modelos superiores a 7B.
Preguntas frecuentes
¿Cuál es el mejor modelo LLM local para principiantes en 2026?
Llama 3.2 3B para la mayoría de usuarios -- funciona en cualquier máquina con 4 GB de RAM, se descarga en menos de 5 minutos y produce una salida con buen seguimiento de instrucciones. Con 8 GB de RAM, Qwen2.5 7B ofrece mejor rendimiento en codificación y multilingüe. Para la RAM más baja posible, Gemma 3 2B funciona con 1,7 GB a 40-60 tok/s en CPU.
¿Cuál es la RAM mínima para ejecutar un LLM local?
El mínimo práctico para una salida útil es 4 GB de RAM con un modelo de 3B con cuantización Q4_K_M. Con 8 GB de RAM puedes acceder a modelos de 7B que producen resultados notablemente mejores en tareas complejas.
¿Cómo ejecuto estos modelos con Ollama?
Instala Ollama desde ollama.com, luego ejecuta: `ollama run llama3.2:3b` para el modelo recomendado para principiantes. Ollama descarga el modelo en la primera ejecución. Los cinco modelos listados aquí están en la biblioteca de Ollama.
¿Es Llama 3.2 3B suficientemente bueno para tareas cotidianas?
Sí para: resúmenes, preguntas y respuestas simples, explicación básica de código y chat conversacional. No para: razonamiento de varios pasos, codificación compleja y escritura estructurada larga. Para esas tareas, actualiza a Llama 3.1 8B o Qwen2.5 7B con 8 GB de RAM.
¿Cuál es la diferencia entre los modelos de 3B y 7B?
Un modelo de 7B produce una salida notablemente mejor en instrucciones complejas y razonamiento. Un modelo de 3B usa aproximadamente la mitad de RAM y funciona 2-3 veces más rápido. La elección casi siempre la determina la RAM disponible -- usa 3B en máquinas de 4-6 GB, 7B en máquinas de 8 GB.
¿Qué modelo es mejor para tareas de codificación?
Qwen2.5 7B lidera en HumanEval entre los cinco modelos. Para una codificación aún mejor, usa la variante de código dedicada: `ollama run qwen2.5-coder:7b`. Phi-4 Mini 3.8B es el mejor modelo de codificación si estás limitado a 4-6 GB de RAM (70% HumanEval con 2,5 GB de RAM).
¿Qué modelo debo usar para idiomas distintos al inglés?
Qwen2.5 7B soporta 29 idiomas de forma nativa, incluyendo chino, japonés, coreano, árabe y todos los principales idiomas europeos. Procesa texto en idiomas distintos al inglés de forma más eficiente que Llama o Mistral.
¿Son seguros estos modelos para usar con datos privados?
Sí -- los cinco modelos se ejecutan completamente en tu hardware. Ningún texto de prompt, contexto o salida se transmite a servidores externos. La inferencia local es inherentemente más privada que las APIs en la nube para datos sensibles.
¿Cuánto tiempo lleva descargar estos modelos?
Con una conexión de 100 Mbps: Gemma 3 2B (1,6 GB) ~2 minutos. Llama 3.2 3B (2 GB) ~3 minutos. Phi-4 Mini (2,3 GB) ~3 minutos. Mistral 7B (4,1 GB) ~5 minutos. Los modelos se almacenan en caché tras la primera descarga -- las ejecuciones posteriores empiezan en segundos.
¿Puedo ejecutar varios modelos en la misma máquina?
Sí -- los cinco pueden coexistir en disco simultáneamente. Planifica 15-20 GB si instalas los cinco. Ollama carga un modelo a la vez y lo descarga tras 5 minutos de inactividad.
Fuentes
- Meta AI. (2024). "Llama 3.2 Model Card." https://llama.meta.com/ -- Especificaciones y benchmarks oficiales para los modelos Llama 3.2 3B y 1B.
- Microsoft. (2025). "Phi-4 Mini Technical Report." https://huggingface.co/microsoft/Phi-4-mini-instruct -- Datos de benchmark para Phi-4 Mini (68% MMLU, 70% HumanEval).
- Google DeepMind. (2025). "Gemma 3 Model Card." https://ai.google.dev/gemma/docs/core -- Especificaciones y rendimiento de Gemma 3 2B, incluyendo la actualización a ventana de contexto de 128K.
- Ollama. (2026). "Ollama Model Library." https://ollama.com/library -- Fuente canónica de etiquetas de modelos Ollama, tamaños y comandos pull.
- Hugging Face. (2026). "Open LLM Leaderboard." https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard -- Puntuaciones de benchmarks MMLU, HumanEval y MATH para todos los modelos abiertos.
- Mistral AI. (2024). "Mistral 7B v0.3 Release Notes." https://mistral.ai/news/announcing-mistral-7b/ -- Especificaciones técnicas y detalles de la licencia Apache 2.0.
- Alibaba DAMO Academy. (2024). "Qwen2.5 Technical Report." arXiv:2412.15115. https://arxiv.org/abs/2412.15115 -- Datos de benchmark multilingüe y detalles de arquitectura para Qwen2.5 7B.