Home/Local LLMs/Modelos LLM locales pequeños: los mejores sub-4B para máquinas con poca RAM en 2026

Best Models

Modelos LLM locales pequeños: los mejores sub-4B para máquinas con poca RAM en 2026

Last updated: April 2026·8 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es

Los LLMs locales pequeños (1B-4B parámetros) funcionan en máquinas con 4-8 GB de RAM y producen 30-70 tokens/seg en CPU -- suficientemente rápido para chat en tiempo real.

Los LLMs locales pequeños (1B-4B parámetros) funcionan en máquinas con 4-8 GB de RAM y producen 30-70 tokens/seg en CPU -- suficientemente rápido para chat en tiempo real. Los mejores modelos pequeños en 2026 son Microsoft Phi-4 Mini 3.8B (mejor razonamiento), Google Gemma 2 2B (el más rápido), Qwen2.5 3B (mejor para código) y Meta Llama 3.2 3B (mejor uso general).

Key Takeaways

Mejor razonamiento a pequeña escala: Phi-4 Mini 3.8B -- 68% MMLU, 70% HumanEval, funciona con 4 GB de RAM.
El más rápido en CPU: Gemma 2 2B -- 40-60 tok/seg en cualquier portátil moderno, 1,7 GB de RAM.
Mejor modelo pequeño para código: Qwen2.5 3B -- 65% HumanEval con ~2 GB de RAM.
Mejor 3B de uso general: Llama 3.2 3B -- mayor soporte de la comunidad, contexto de 128K, 2,5 GB de RAM.
A partir de abril de 2026, ningún modelo sub-2B produce calidad de salida adecuada para tareas profesionales. Usa 3B o más para trabajo real.

¿Qué es un LLM local "pequeño" y cuándo deberías usar uno?

Un LLM local pequeño se define típicamente como un modelo con menos de 4.000 millones de parámetros. Con cuantización Q4_K_M, estos modelos requieren 1,5-3 GB de RAM -- perfectamente dentro de las limitaciones de portátiles de gama básica con 4-8 GB de memoria total.

A partir de abril de 2026, los modelos pequeños son adecuados para: resumen rápido, preguntas y respuestas simples, explicación de fragmentos de código, traducción de textos cortos y tareas de clasificación. No son adecuados para razonamiento de varios pasos, generación de código complejo ni redacción de documentos largos y coherentes.

La brecha de calidad entre un modelo 3B y uno 7B es significativa -- aproximadamente equivalente a la brecha entre GPT-3.5 Mini y GPT-3.5 Turbo. Para usuarios con 8 GB de RAM, un modelo 7B con Q4_K_M es casi siempre la mejor opción si la máquina tiene margen. Consulta Mejores modelos LLM locales para principiantes para recomendaciones de 7B.

¿Qué modelo deberías usar? Guía de decisión rápida

Árbol de decisión: elige según prioridad (razonamiento, velocidad o código). Por defecto, Llama 3.2 3B si no estás seguro.

Phi-4 Mini 3.8B -- Mejor rendimiento de razonamiento en la clase sub-4B

Microsoft Phi-4 Mini alcanza el 68% en MMLU y el 70% en HumanEval -- puntuaciones que superan a muchos modelos 7B lanzados antes de 2025. Esto es posible porque Phi-4 Mini fue entrenado con un conjunto de datos sintético curado, centrado en el razonamiento y la resolución de problemas, en lugar de texto web genérico.

A partir de abril de 2026, Phi-4 Mini es la opción recomendada para usuarios que principalmente necesitan razonamiento (matemáticas, lógica, explicaciones paso a paso) o asistencia con código en hardware con 4-6 GB de RAM.

Especificación	Valor
MMLU	68%
HumanEval	70%
RAM (Q4_K_M)	~2,5 GB
Contexto	128K tokens
Velocidad en CPU	30-50 tok/seg
Comando Ollama	ollama run phi4-mini

Gemma 2 2B -- El LLM local pequeño más rápido en CPU

Google Gemma 2 2B genera 40-60 tokens/seg en una CPU de portátil moderna -- el más rápido de cualquier modelo en este nivel de calidad. Su huella de RAM de 1,7 GB deja amplia memoria para el sistema operativo y otras aplicaciones en una máquina de 4 GB.

La calidad es inferior a Phi-4 Mini o Llama 3.2 3B en tareas de razonamiento. La ventana de contexto de 8K (frente a 128K en Phi-4 Mini y Llama 3.2) es una limitación práctica para documentos más largos. Gemma 2 2B es la elección correcta cuando la velocidad de respuesta importa más que la profundidad de salida.

Especificación	Valor
MMLU	52%
RAM (Q4_K_M)	~1,7 GB
Contexto	8K tokens
Velocidad en CPU	40-60 tok/seg
Comando Ollama	ollama run gemma2:2b

Qwen2.5 3B -- Mejor modelo pequeño para tareas de código

Qwen2.5 3B obtiene un 65% en HumanEval -- 5 puntos porcentuales por encima de Llama 3.2 3B -- convirtiéndolo en la mejor opción para tareas de código a escala 3B. Incluye modo JSON y soporte de llamadas a funciones, y maneja de forma nativa 29 idiomas.

Para tareas que no son de código en inglés, Llama 3.2 3B y Phi-4 Mini producen prosa más natural. Elige Qwen2.5 3B específicamente cuando el código o la salida multilingüe es el caso de uso principal.

Especificación	Valor
MMLU	62%
HumanEval	65%
RAM (Q4_K_M)	~2 GB
Contexto	128K tokens
Velocidad en CPU	25-40 tok/seg
Comando Ollama	ollama run qwen2.5:3b

Llama 3.2 3B -- Mejor modelo pequeño de uso general

Meta Llama 3.2 3B es el modelo 3B más documentado y con mayor soporte de la comunidad. Obtiene un 58% en MMLU y un 60% en HumanEval -- ligeramente por debajo de Phi-4 Mini en ambos -- pero tiene el soporte de herramientas más amplio, más ajustes finos disponibles y la mayor colección de guías comunitarias.

La ventana de contexto de 128K es la misma que en los modelos Llama 3.x más grandes, lo que lo hace adecuado para resumir documentos de longitud media. Para un primer modelo pequeño, Llama 3.2 3B sigue siendo la opción más segura debido a su comportamiento predecible y documentación extensa.

Especificación	Valor
MMLU	58%
RAM (Q4_K_M)	~2,5 GB
Contexto	128K tokens
Velocidad en CPU	25-45 tok/seg
Comando Ollama	ollama run llama3.2:3b

Llama 3.2 1B -- Mínimo absoluto para cualquier salida útil

Llama 3.2 1B requiere solo 1,3 GB de RAM y genera 60-90 tok/seg en CPU -- el modelo ejecutable localmente más rápido. La calidad de salida es marginal: maneja clasificaciones muy simples y extracción de palabras clave, pero tiene dificultades con respuestas coherentes de varias frases. A partir de abril de 2026, usa Llama 3.2 1B solo cuando la RAM es genuinamente la restricción principal (menos de 3 GB disponibles) o para probar integraciones de herramientas.

Comparativa completa: mejores LLMs locales pequeños de menos de 4B parámetros

Modelo	MMLU	HumanEval	RAM	Contexto	Mejor para
Phi-4 Mini 3.8B	68%	70%	2,5 GB	128K	Razonamiento, código
Qwen2.5 3B	62%	65%	2 GB	128K	Código, multilingüe
Llama 3.2 3B	58%	60%	2,5 GB	128K	Uso general, primer modelo
Gemma 2 2B	52%	38%	1,7 GB	8K	Velocidad, muy poca RAM
Llama 3.2 1B	32%	28%	1,3 GB	128K	RAM mínima absoluta

Niveles de rendimiento: las puntuaciones de MMLU y HumanEval muestran que Phi-4 Mini lidera en razonamiento y código, Gemma 2 es el más rápido en CPU, Qwen2.5 destaca en código.

Entendiendo la cuantización: equilibrio entre RAM y calidad

Equilibrio de cuantización: Q4_K_M (2,5 GB, -0,5% de calidad) es el valor predeterminado recomendado. Q8_0 usa 3,8 GB sin ganancia de calidad. Q3_K_M (1,8 GB, -1,8% de pérdida) para restricciones extremas de RAM.

LLMs locales pequeños por región

UE / RGPD: Para profesionales de la UE que trabajan con hardware limitado -- trabajo de campo, entornos aislados, portátiles empresariales más antiguos -- los modelos locales pequeños proporcionan inferencia compatible con el RGPD sin salida de datos. Un Phi-4 Mini 3.8B ejecutándose en un portátil corporativo estándar (8 GB de RAM) mantiene todo el texto procesado en el dispositivo bajo el Artículo 5 del RGPD (minimización de datos). Para la documentación de cumplimiento del BSI alemán: Phi-4 Mini (Microsoft, licencia MIT) y Llama 3.2 3B (Meta, licencia de la comunidad Llama) proporcionan identificadores de modelos versionados a través de sus etiquetas de Ollama, satisfaciendo los requisitos de documentación de herramientas de IA. Mistral no ofrece actualmente un modelo sub-4B. Para organizaciones de la UE que prefieren un modelo de origen europeo en esta clase de tamaño, las opciones son limitadas hasta que Mistral lance una variante sub-4B.

Japón (METI): Para tareas en japonés a nivel de modelo pequeño, Qwen2.5 3B es el único modelo en esta comparación con tokenización nativa en japonés. Llama 3.2 3B maneja el japonés pero con menor eficiencia de tokenización. Para resumen o traducción al japonés en hardware limitado: `ollama run qwen2.5:3b`. La ventaja de velocidad de los modelos pequeños es especialmente relevante para el uso empresarial japonés: 25-40 tok/seg en CPU proporciona una respuesta en tiempo real adecuada para interfaces de chat en hardware de oficina estándar.

China: Qwen2.5 3B (Alibaba, Apache 2.0) es la elección natural para la implementación de modelos pequeños en chino. La tokenización nativa en chino procesa texto en mandarín un 30-40% más eficientemente que Llama con el mismo número de parámetros. Para implementaciones IoT y edge bajo la Ley de Seguridad de Datos de China (数据安全法): `ollama run qwen2.5:3b` funciona en cualquier dispositivo Linux con 4 GB de RAM y procesa todo el texto en el dispositivo sin llamadas a API externas.

¿Cuáles son los errores comunes al ejecutar LLMs locales pequeños?

Usar cuantización Q8_0 en lugar de Q4_K_M: Q8_0 requiere casi el doble de RAM que Q4_K_M con una mejora mínima de calidad a pequeña escala. Un modelo Llama 3.2 3B con Q8_0 necesita ~3,8 GB de RAM frente a ~2,5 GB con Q4_K_M. En una máquina de 4 GB, Q8_0 puede activar el uso de swap y hacer la inferencia 3-5 veces más lenta. Usa siempre Q4_K_M como valor predeterminado para modelos sub-4B.
Ejecutar un modelo base en lugar de la variante instruct: Los modelos base (por ejemplo, `llama3.2:3b-text`) son puntos de control previos al ajuste fino, entrenados para predecir el siguiente token en el texto. No siguen instrucciones. Cuando le preguntas a un modelo base "¿Cuánto es 2+2?", puede completar la frase como un cuestionario en lugar de responder "4". Usa siempre la variante instruct: `llama3.2:3b` (Ollama usa instruct por defecto para los modelos con nombre).
Esperar calidad de modelo 7B de un modelo 3B: Un modelo 3B con 68% en MMLU (Phi-4 Mini) tiene un rendimiento similar al GPT-3.5 Mini de 2023 en tareas generales. Las cadenas de razonamiento complejas, la escritura extensa y la generación de código matizado producirán una calidad notablemente inferior a la de un modelo 7B. Si la calidad de salida es insuficiente, actualiza a un modelo 7B -- la diferencia de RAM es ~2 GB (2,5 GB → 4,5 GB).

Preguntas comunes sobre los modelos LLM locales pequeños

¿Cuál es el LLM local más pequeño que produce resultados útiles?

A partir de abril de 2026, el mínimo práctico para resultados útiles es un modelo 3B con cuantización Q4_K_M. Los modelos por debajo de 2B parámetros (Llama 3.2 1B, Gemma 2 2B) producen frases coherentes pero tienen dificultades con instrucciones de varios pasos, respuestas más largas y razonamiento complejo. Para tareas como resumen y preguntas y respuestas simples, Gemma 2 2B es usable. Para cualquier cosa más compleja, comienza con un modelo 3B.

¿Puede un modelo 3B ejecutarse en un teléfono?

Sí -- Llama 3.2 1B y 3B están específicamente diseñados para implementación móvil en el dispositivo. Meta proporciona compilaciones optimizadas para iOS (a través de MLC LLM) y Android. La inferencia en un teléfono moderno (Snapdragon 8 Gen 3 o Apple A17 Pro) produce 15-30 tok/seg para modelos 1B. LM Studio y Ollama no se ejecutan actualmente en iOS o Android -- el móvil requiere frameworks separados.

¿Son los modelos pequeños buenos para el resumen?

Sí -- el resumen es uno de los casos de uso más fuertes para los modelos pequeños. Gemma 2 2B y Llama 3.2 3B producen resúmenes precisos de textos de hasta ~4.000 palabras (su límite de contexto práctico para salida de calidad) de forma confiable. Para documentos más largos, usa un modelo con una ventana de contexto grande como Phi-4 Mini o Llama 3.2 3B (ambos con 128K tokens).

¿Cuánto más rápido es un modelo 2B que un modelo 7B en el mismo hardware?

Aproximadamente 2-3 veces más rápido en CPU. Gemma 2 2B genera 40-60 tok/seg frente a 10-20 tok/seg de Mistral 7B en la misma CPU de portátil. En una GPU, la ventaja de velocidad se reduce porque el rendimiento de la GPU está menos limitado por el tamaño del modelo. La diferencia de velocidad es más notable en máquinas solo con CPU.

¿Los modelos pequeños admiten llamadas a funciones?

Algunos sí. Qwen2.5 3B admite llamadas a funciones y modo JSON. Llama 3.2 3B tiene soporte básico de uso de herramientas. Gemma 2 2B no admite llamadas a funciones. Consulta la documentación del modelo antes de crear un pipeline que dependa de salida estructurada.

¿Qué modelo pequeño es mejor para idiomas distintos del inglés?

Qwen2.5 3B admite 29 idiomas de forma nativa, incluyendo chino, japonés, coreano y árabe. Gemma 2 2B y Phi-4 Mini están optimizados principalmente para inglés. Para tareas en otros idiomas a escala de modelo pequeño, Qwen2.5 3B es la elección clara. Consulta la comparación multilingüe Qwen vs Llama vs Mistral para una comparación completa de idiomas.

¿Cuál es la diferencia entre Phi-4 Mini y Llama 3.2 3B para tareas cotidianas?

Phi-4 Mini supera a Llama 3.2 3B en razonamiento, matemáticas y código (68% vs 58% en MMLU, 70% vs 60% en HumanEval) con casi idéntica RAM (2,5 GB cada uno). Para tareas cotidianas -- preguntas y respuestas, resumen, explicaciones simples -- la brecha de calidad es notable pero no dramática. Llama 3.2 3B tiene mayor soporte de la comunidad y más ajustes finos disponibles. Elige Phi-4 Mini para razonamiento estructurado; Llama 3.2 3B para chat general y mayor compatibilidad.

¿Puedo ejecutar dos modelos pequeños simultáneamente?

Sí, si la RAM total lo permite. Dos modelos 3B con Q4_K_M usan ~5 GB combinados -- factible en una máquina de 8 GB con un sistema operativo ligero. Ollama carga un modelo a la vez por proceso de forma predeterminada. Ejecuta dos instancias de Ollama en diferentes puertos (OLLAMA_HOST=:11434 y OLLAMA_HOST=:11435) para servir dos modelos en paralelo. Esto es útil para pruebas A/B de salidas.

¿Los modelos pequeños funcionan para RAG (generación aumentada por recuperación)?

Sí para RAG simple. Llama 3.2 3B y Phi-4 Mini pueden responder preguntas sobre fragmentos de documentos recuperados de forma confiable. Para RAG sobre grandes bases de conocimiento que requieren razonamiento de múltiples saltos, los modelos de 7B o más rinden de forma más consistente. La función LocalDocs de GPT4All usa un modelo 3B para preguntas y respuestas sobre documentos y funciona bien para colecciones de documentos personales.

¿Es Phi-4 Mini mejor que Llama 3.2 3B para código?

Sí. Phi-4 Mini obtiene un 70% en HumanEval frente al 60% de Llama 3.2 3B -- una brecha significativa de 10 puntos a esta escala. Para asistencia con código en máquinas de 4-6 GB de RAM, Phi-4 Mini es la opción recomendada. Para código en múltiples idiomas (no Python), Qwen2.5 3B con un 65% en HumanEval es competitivo con Phi-4 Mini y también admite llamadas a funciones.

Fuentes

Hugging Face Open LLM Leaderboard -- open-llm-leaderboard.hf.space (puntuaciones MMLU y HumanEval)
Microsoft Phi-4 Technical Report -- microsoft.com/en-us/research/publication/phi-4-technical-report/
Meta Llama 3.2 Model Card -- huggingface.co/meta-llama/Llama-3.2-3B-Instruct
Google Gemma 2 Technical Report -- storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Compare your local LLM against 25+ cloud models simultaneously with PromptQuorum.

Join the PromptQuorum Waitlist →

← Back to Local LLMs