Home/Local LLMs/Mejores LLMs locales para principiantes 2026: Modelos de 4 GB y 8 GB de RAM (Llama, Phi, Gemma, Qwen)

Getting Started

Mejores LLMs locales para principiantes 2026: Modelos de 4 GB y 8 GB de RAM (Llama, Phi, Gemma, Qwen)

Last updated: 14 de julio de 2026·9 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Los cinco mejores modelos LLM locales para principiantes en 2026 son Llama 3.2 3B, Phi-4 Mini 3.8B, Gemma 3 2B, Llama 3.3 8B y Qwen3 8B. Todos funcionan con 4-8 GB de RAM con un solo comando de Ollama.

Los cinco mejores modelos LLM locales para principiantes en 2026 son Meta Llama 3.2 3B, Microsoft Phi-4 Mini, Google Gemma 3 2B, Meta Llama 3.3 8B y Qwen3 8B. Cada uno funciona en hardware de consumo con 4-8 GB de RAM y produce calidad de salida adecuada para tareas cotidianas.

Slide Deck: Mejores LLMs locales para principiantes 2026: Modelos de 4 GB y 8 GB de RAM (Llama, Phi, Gemma, Qwen)

Presentación interactiva de 14 diapositivas: 5 mejores modelos LLM locales para principiantes en 2026 -- Llama 3.2 3B (2,5 GB RAM), Phi-4 Mini (2,5 GB), Gemma 3 2B (1,7 GB), Llama 3.3 8B (5,5 GB), Qwen3 8B (5,2 GB). Cubre tabla de comparación de modelos, guía de decisión por RAM, cumplimiento regional (UE/Japón/China/Corea), errores comunes y primeros pasos. Nota: las diapositivas reflejan la selección de abril de 2026 (Mistral Small v0.3, Qwen3 7B); las recomendaciones actualizadas están en el texto anterior, pendiente de regenerar las diapositivas. Descarga el PDF como tarjeta de referencia de LLM local para principiantes.

Browse the slides below or download as PDF for offline reference. Download Reference Card (PDF)

Key Takeaways

Mejor modelo para principiantes en general: Llama 3.2 3B -- 2 GB de descarga, funciona con 4 GB de RAM, excelente seguimiento de instrucciones para su tamaño.
Mejor para poca RAM (4 GB o menos): Phi-4 Mini 3.8B -- el modelo compacto de Microsoft destaca en razonamiento y codificación (68% MMLU, 70% HumanEval con solo 2,5 GB de RAM).
El modelo 2B más rápido: Gemma 3 2B -- el modelo actualizado de Google alcanza 40-60 tok/s en CPU con contexto de 128K (ampliado desde los 8K de Gemma 2).
Mejor todoterreno 7B/8B: Llama 3.3 8B -- 72% HumanEval, ~5,5 GB de RAM, el modelo general de referencia actual en este tamaño (sustituye a la ya desactualizada recomendación de Mistral Small v0.3 de 2023-2024).
Mejor para multilingüe y codificación: Qwen3 8B -- 57,3% HumanEval, MMLU a la par o por delante de Llama 3.1 8B, y soporte nativo de más de 29 idiomas.
Regla práctica Q4 para 7B: un modelo de 8B en Q4_K_M necesita aproximadamente 5-5,5 GB de RAM -- unos 0,6-0,7 GB por cada mil millones de parámetros a 4 bits.
Mejor para 2 GB de RAM o menos: Llama 3.2 1B -- descarga de ~1,3 GB, la opción utilizable más pequeña; la calidad es notablemente inferior a los modelos de 3B+ pero funciona en hardware muy antiguo.
👉 ¿No sabes si lo local es para ti? Lee la comparación de LLM local vs nube antes de decidir -- cubre diferencias de velocidad, calidad y coste.

Los mejores LLMs locales para principiantes en 2026 son Llama 3.2 3B (4 GB RAM, mejor general), Phi-4 Mini 3.8B (2,5 GB RAM, mejor razonamiento con poca RAM) y Gemma 3 2B (el más rápido a 40–60 tok/s en CPU) — todos se instalan con un comando Ollama, sin GPU.

Estos modelos se ejecutan completamente en tu laptop o escritorio usando RAM normal — sin suscripción a la nube, sin GPU. "1B" o "7B" significa miles de millones de parámetros (el tamaño del modelo). Más pequeño = más rápido y usa menos RAM. Más grande = más inteligente pero necesita más RAM. Empieza con Llama 3.2 3B: descarga de 2 GB, funciona con 4 GB de RAM.

Inicio rápido: Ejecuta tu primer LLM local en 3 minutos

1. Instala Ollama (1 minuto)

Descárgalo desde ollama.com y ejecuta el instalador. Sin configuración.

2. Ejecuta Llama 3.2 3B (2 minutos)

Abre tu terminal y ejecuta: `ollama run llama3.2:3b`

Ollama descarga el modelo (~2 GB) la primera vez. Este es el modelo recomendado como primer modelo para la mayoría de usuarios.

3. Empieza a chatear (inmediato)

Una vez que el modelo cargue, escribe tu pregunta o prompt y presiona Enter. Verás respuestas a 25-45 tokens/segundo en un portátil típico.

Eso es todo. Sin configuración manual, sin GPU necesaria. Si tienes 8 GB+ de RAM, estás listo. Si tienes 4-6 GB, usa `ollama run gemma3:2b` en su lugar (más rápido, usa 1,7 GB de RAM).

Lista de verificación para principiantes: ¿Es lo local adecuado para ti?

Antes de descargar tu primer modelo, responde estas tres preguntas:

1. ¿Tienes 8 GB o más de RAM? (Si no, las APIs en la nube son más rápidas para empezar.)

2. ¿Necesitas que tus datos permanezcan privados? (Si no, las APIs en la nube ofrecen mejor calidad.)

3. ¿Puedes tolerar 20-40 minutos de configuración? (Si no, las APIs en la nube están listas en 5 minutos.)

Si respondiste "no" a dos o más preguntas, **lee la comparación completa de local vs nube** para ver si una API en la nube se adapta mejor a tu hardware y cronograma. Los principiantes suelen asumir que los LLMs locales son siempre mejores -- no es así. La elección correcta depende de tus restricciones específicas.

¿Cómo eliges un modelo LLM local para principiantes?

La selección de modelos para LLMs locales depende de tres restricciones: RAM disponible, velocidad de inferencia y tipo de tarea -- en ese orden de prioridad.

El número de parámetros (3B, 7B, 13B) es el principal determinante de los requisitos de RAM. Con la cuantización de 4 bits -- el estándar para la mayoría de herramientas de inferencia local -- multiplica el número de parámetros por ~0,5 para estimar los GB de RAM necesarios. Un modelo de 7B en Q4_K_M requiere aproximadamente 4,5 GB de RAM.

Para la mayoría de principiantes, los modelos de 7B con cuantización Q4_K_M ofrecen el mejor equilibrio de calidad, velocidad y uso de RAM en máquinas con 8 GB o más. En máquinas con 4-6 GB de RAM, los modelos de 3B son el techo práctico.

Compromiso entre parámetros 3B y 7B -- los modelos de 3B usan 2-3 GB de RAM a 25-60 tok/s; los modelos de 7B usan 4,5-5 GB de RAM a 10-20 tok/s con calidad significativamente mejor en razonamiento complejo y documentos largos.

#1 Meta Llama 3.2 3B -- Mejor modelo para principiantes en general

Meta Llama 3.2 3B es el mejor punto de partida para la mayoría de usuarios. Se descarga en menos de 5 minutos, funciona en cualquier máquina con 4 GB de RAM y produce un seguimiento de instrucciones notablemente mejor que los modelos 3B anteriores. Utiliza una ventana de contexto de 128K -- mucho mayor que los modelos de tamaño comparable.

En nuestras pruebas con un CPU de portátil de 8 núcleos, Llama 3.2 3B genera 25-45 tokens/s. En Apple M3 Pro alcanza 70-90 tokens/s. La calidad es adecuada para resúmenes, preguntas y respuestas y tareas de codificación simples, pero queda por detrás de los modelos de 7B en razonamiento de varios pasos.

Especificación	Valor
Parámetros	3B
RAM requerida	~2,5 GB (Q4_K_M)
Tamaño de descarga	~2 GB
Ventana de contexto	128K tokens
Velocidad CPU (portátil de 8 núcleos)	25-45 tok/s
Comando Ollama	ollama run llama3.2:3b

#2 Microsoft Phi-4 Mini 3.8B -- Mejor para poca RAM

Phi-4 Mini es el modelo compacto de Microsoft optimizado para tareas de razonamiento y codificación a pequeña escala. Alcanza 68% MMLU y 70% HumanEval -- puntuaciones que superan a muchos modelos de 7B de 2024 -- gracias al entrenamiento con datos sintéticos de alta calidad enfocados en la resolución de problemas.

Es el modelo recomendado para máquinas con 4-6 GB de RAM donde la calidad importa. Phi-4 Mini usa 2,5 GB de RAM (frente a los 3 GB de Phi-3.5 Mini), lo que lo hace más accesible en máquinas de 4 GB.

Especificación	Valor
Parámetros	3,8B
RAM requerida	~2,5 GB (Q4_K_M)
Tamaño de descarga	~2,3 GB
Puntuación MMLU	68%
Ventana de contexto	128K tokens
Velocidad CPU (portátil de 8 núcleos)	30-50 tok/s
Comando Ollama	ollama run phi4-mini

#3 Google Gemma 3 2B -- El modelo 2B más rápido

Gemma 3 2B es el modelo 2B actualizado de Google y la opción más rápida para inferencia solo en CPU. Genera 40-60 tokens/s en un CPU de portátil de gama media -- aproximadamente el doble de velocidad que Llama 3.2 3B en el mismo hardware. Gemma 3 mejora significativamente a su predecesor: la ventana de contexto se amplía de 8K (Gemma 2) a 128K tokens, eliminando una limitación importante para tareas con documentos.

Gemma 3 2B es una buena opción cuando la velocidad de respuesta es lo más importante, en máquinas con ≤4 GB de RAM, o como modelo de prueba para verificar tu configuración de LLM local antes de descargar modelos más grandes.

Especificación	Valor
Parámetros	2B
RAM requerida	~1,7 GB (Q4_K_M)
Tamaño de descarga	~1,6 GB
Ventana de contexto	128K tokens
Velocidad CPU (portátil de 8 núcleos)	40-60 tok/s
Comando Ollama	ollama run gemma3:2b

#4 Meta Llama 3.3 8B -- Mejor todoterreno 7B/8B

Meta Llama 3.3 8B es el modelo generalista de referencia actual en este tamaño, con un 72% en HumanEval y un razonamiento en inglés sólido. Sustituye a Mistral Small v0.3 como la elección 7B/8B de esta lista -- Mistral Small v0.3 fue el estándar de la comunidad en 2023-2024, pero ahora queda por detrás en el mismo nivel de RAM y es mejor tratarlo como una opción heredada (consulta Errores comunes más abajo para saber por qué ya no lo recomendamos por defecto).

Para máquinas con 8 GB de RAM, Llama 3.3 8B es un salto natural desde los modelos de 3B. Maneja textos más largos, instrucciones más complejas y conversaciones de varios turnos de forma más fiable que cualquier modelo de 3B, con una ventana de contexto de 128K.

Especificación	Valor
Parámetros	8B
RAM requerida	~5,5 GB (Q4_K_M)
Tamaño de descarga	~5 GB
Ventana de contexto	128K tokens
Puntuación HumanEval	72%
Velocidad CPU (portátil de 8 núcleos)	10-18 tok/s
Comando Ollama	ollama run llama3.3:8b-instruct

#5 Qwen3 8B -- Mejor para multilingüe y codificación

Qwen3 8B (8,2B parámetros) obtiene un 57,3% en HumanEval, iguala o supera a Llama 3.1 8B en MMLU, y soporta de forma nativa más de 29 idiomas, incluyendo chino, japonés, coreano, árabe y todos los principales idiomas europeos. Es la opción recomendada para flujos de trabajo en idiomas distintos al inglés o casos de uso intensivos en codificación, y sustituye al anterior Qwen2.5 7B como la elección multilingüe de esta lista.

Qwen3 8B usa una ventana de contexto de 32K (ampliable a 131K con YaRN) y soporta salida estructurada con modo JSON, además de un "modo de pensamiento" opcional para tareas de razonamiento más difíciles (más lento, pero más preciso). El modelo está disponible en variantes instruct y base -- para uso en chat, usa siempre la versión instruct. Consulta la comparación de benchmarks Qwen vs Llama vs Mistral para datos detallados de benchmarks.

Especificación	Valor
Parámetros	8,2B
RAM requerida	~5,2 GB (Q4_K_M)
Tamaño de descarga	~5,2 GB
Ventana de contexto	32K tokens (131K con YaRN)
Puntuación HumanEval	57,3%
Velocidad CPU (portátil de 8 núcleos)	10-18 tok/s (modo sin pensamiento)
Comando Ollama	ollama run qwen3:8b

¿Qué modelo gana en RAM, velocidad y ventana de contexto?

Modelo	RAM	Velocidad (CPU)	Contexto	Mejor para
Llama 3.2 3B	2,5 GB	25-45 tok/s	128K	Uso general, primer modelo
Phi-4 Mini 3.8B	2,5 GB	30-50 tok/s	128K	Razonamiento, codificación, poca RAM
Gemma 3 2B	1,7 GB	40-60 tok/s	128K	Velocidad, muy poca RAM
Llama 3.3 8B	5,5 GB	10-18 tok/s	128K	Todoterreno general, 72% HumanEval
Qwen3 8B	5,2 GB	10-18 tok/s	32K (131K YaRN)	Multilingüe, codificación

Cinco modelos LLM locales para principiantes comparados por RAM, velocidad de inferencia CPU, ventana de contexto y caso de uso -- todos evaluados con cuantización Q4_K_M mediante Ollama. Llama 3.2 3B es el primer modelo recomendado; Gemma 3 2B es el más rápido con 1,7 GB de RAM.

¿Con qué modelo deberías empezar?

2 GB de RAM (extremo, gama muy baja): `ollama run llama3.2:1b` -- la opción utilizable más pequeña, descarga de ~1,3 GB. La calidad es notablemente inferior a los modelos de 3B+ pero funciona en hardware muy antiguo o limitado.
4 GB de RAM o menos: `ollama run gemma3:2b` -- descarga más rápida, menor uso de memoria, contexto de 128K. Calidad aceptable para tareas básicas.
8 GB de RAM, primer modelo: `ollama run llama3.2:3b` -- mejor equilibrio de calidad y RAM para una primera experiencia.
4-6 GB de RAM, razonamiento/codificación: `ollama run phi4-mini` -- 68% MMLU, 70% HumanEval con solo 2,5 GB de RAM. Mejor que Llama 3.2 3B en tareas estructuradas.
8 GB de RAM, uso serio: `ollama run llama3.3:8b-instruct` o `ollama run qwen3:8b` -- un paso adelante para documentos largos e instrucciones complejas.
Principalmente tareas de codificación: `ollama run qwen3:8b` -- mejor puntuación HumanEval de esta lista; excelente en Python, JavaScript y SQL.
Idioma distinto al inglés: `ollama run qwen3:8b` -- soporte nativo de más de 29 idiomas, sin sobrecarga de traducción.

Guía de selección de modelo según RAM -- Gemma 3 2B con ≤4 GB de RAM, Llama 3.2 3B con 8 GB (mejor primer modelo), Qwen3 8B con 8 GB+ para cargas de trabajo multilingüe y codificación. Todos se ejecutan con `ollama run` sin configuración manual.

¿Qué modelo elegir según tu región?

UE / RGPD: Para organizaciones europeas que procesan datos personales localmente, la procedencia del modelo importa para la documentación de cumplimiento. Las directrices alemanas del BSI requieren documentar el origen y el tipo de licencia del modelo para sistemas de IA usados en contextos profesionales. Llama (Meta/EE.UU.), Gemma (Google/EE.UU.) y Qwen (Alibaba/China) son técnicamente utilizables bajo el RGPD para inferencia local -- para la narrativa de procedencia europea más sencilla, Mistral AI (Francia) ofrece modelos con licencia Apache 2.0, aunque las versiones actuales de Mistral Small (24B+) superan el rango de RAM para principiantes de esta página (4-8 GB); consulta la guía de hardware para el nivel de GPU necesario para ejecutarlos.

Japón (METI): Para flujos de trabajo en japonés, Qwen3 8B es el primer modelo correcto -- la tokenización japonesa nativa produce una mejor eficiencia de tokens en textos japoneses que Llama. Ejecuta: `ollama run qwen3:8b`. Las directrices de gobernanza de IA del METI requieren documentar el nombre y la versión del modelo -- los cinco modelos aquí tienen etiquetas de Ollama versionadas que satisfacen este requisito.

China: Qwen3 8B (Alibaba) es el primer modelo natural para flujos de trabajo en chino. La tokenización nativa en chino y el soporte de más de 29 idiomas lo convierten en el estándar para flujos de trabajo en mandarín. Para el despliegue empresarial en China bajo la Ley de Seguridad de Datos de China (数据安全法), Qwen3 ejecutado localmente mediante Ollama cumple los requisitos de localización de datos.

Corea: Entre estas cinco opciones para principiantes, Qwen3 8B tiene la tokenización nativa coreana más sólida. Para modelos locales dedicados al idioma coreano más allá de este nivel de principiante, consulta Mejores modelos de idioma coreano para uso local.

¿Cómo descargar y ejecutar estos modelos?

Los cinco modelos se instalan con un solo comando de Ollama -- sin configuración manual necesaria. Consulta Cómo instalar Ollama para la configuración, luego Ejecuta tu primer LLM local para un paso a paso de la primera ejecución. Si ejecutas en un portátil con poca RAM, Cómo ejecutar LLMs locales en un portátil cubre la cuantización y el ajuste de rendimiento para hardware limitado.

Una vez que tu primer modelo esté en marcha, el siguiente paso es aprender a hacer prompts de forma efectiva. Empieza con los fundamentos de prompt engineering -- 16 guías que cubren los bloques básicos que todo prompt necesita, desde la configuración de temperatura hasta el formato de salida.

¿Qué errores cometen los principiantes al elegir un LLM local?

Elegir el tamaño del modelo basándose solo en el número de parámetros -- un 7B con cuantización de 4 bits puede superar a un 13B mal cuantizado.
No tener en cuenta la sobrecarga de cuantización de VRAM -- un modelo puede necesitar un 10-15% más de VRAM que el tamaño del archivo.
Usar cuantizaciones antiguas (Q3_K_S) cuando las nuevas (Q4_K_M) ofrecen mejor calidad con el mismo tamaño.
Elegir Mistral Small v0.3 como modelo 7B predeterminado: fue el estándar de la comunidad en 2023-2024 (7B, ~4,1 GB de descarga, `ollama run mistral`) pero ahora Qwen3 8B lo supera en codificación y Llama 3.3 8B lo supera en razonamiento en inglés con el mismo requisito de RAM. Si un tutorial o herramienta usa `ollama run mistral` por defecto, cambia a `ollama run qwen3:8b` o `ollama run llama3.3:8b-instruct` para mejores resultados sin aumentar la RAM. Nota: se trata de un modelo distinto, sin relación, con la línea actual de "Mistral Small 3.x" de 24B+, que necesita muchísima más RAM que cualquier modelo de esta página.
Descargar un modelo sin comprobar la RAM disponible primero: Si descargas un modelo que supera la RAM disponible, Ollama recurre a inferencia lenta en CPU con intercambio de disco parcial -- a veces por debajo de 1 tok/s. Siempre ejecuta `free -h` (Linux/macOS) o comprueba el Administrador de tareas (Windows) antes de descargar modelos superiores a 7B.

Preguntas frecuentes

¿Cuál es el mejor modelo LLM local para principiantes en 2026?

Llama 3.2 3B para la mayoría de usuarios -- funciona en cualquier máquina con 4 GB de RAM, se descarga en menos de 5 minutos y produce una salida con buen seguimiento de instrucciones. Con 8 GB de RAM, Qwen3 8B ofrece mejor rendimiento en codificación y multilingüe. Para la RAM más baja posible, Gemma 3 2B funciona con 1,7 GB a 40-60 tok/s en CPU, o Llama 3.2 1B con 2 GB o menos.

¿Cuál es la RAM mínima para ejecutar un LLM local?

El mínimo práctico para una salida útil es 4 GB de RAM con un modelo de 3B con cuantización Q4_K_M. Con 2 GB o menos, Llama 3.2 1B es la opción utilizable más pequeña, aunque la calidad baja notablemente. 8 GB de RAM da acceso a modelos de 7-8B que producen resultados notablemente mejores en tareas complejas.

¿Cuál es el mejor LLM local de 1B de parámetros?

Llama 3.2 1B es el modelo de 1B recomendado -- descarga de ~1,3 GB, funciona con 2 GB de RAM o menos mediante `ollama run llama3.2:1b`. Es útil para resúmenes básicos y preguntas y respuestas cortas, pero notablemente más débil que los modelos de 3B+ en razonamiento de varios pasos. Úsalo solo cuando el hardware realmente no pueda soportar un modelo de 3B.

¿Es Mistral Small 3.2 un buen LLM local para principiantes?

No -- Mistral Small 3.2 es un modelo de 24B de parámetros que necesita aproximadamente 14 GB o más de RAM/VRAM, muy por encima del rango de 4-8 GB para principiantes de esta página. Es un modelo diferente y más grande que el "Mistral Small v0.3" de 7B que antes se recomendaba aquí. Si tienes 8 GB de RAM, empieza mejor con Llama 3.3 8B o Qwen3 8B. Consulta la guía de hardware para el nivel de GPU de 16 GB+ necesario para ejecutar Mistral Small 3.2.

¿Cómo ejecuto estos modelos con Ollama?

Instala Ollama desde ollama.com, luego ejecuta: `ollama run llama3.2:3b` para el modelo recomendado para principiantes. Ollama descarga el modelo en la primera ejecución. Los cinco modelos listados aquí están en la biblioteca de Ollama.

¿Es Llama 3.2 3B suficientemente bueno para tareas cotidianas?

Sí para: resúmenes, preguntas y respuestas simples, explicación básica de código y chat conversacional. No para: razonamiento de varios pasos, codificación compleja y escritura estructurada larga. Para esas tareas, actualiza a Llama 3.3 8B o Qwen3 8B con 8 GB de RAM.

¿Cuál es la diferencia entre los modelos de 3B y 7B?

Un modelo de 7B produce una salida notablemente mejor en instrucciones complejas y razonamiento. Un modelo de 3B usa aproximadamente la mitad de RAM y funciona 2-3 veces más rápido. La elección casi siempre la determina la RAM disponible -- usa 3B en máquinas de 4-6 GB, 7B en máquinas de 8 GB.

¿Qué modelo es mejor para tareas de codificación?

Qwen3 8B lidera en HumanEval entre los cinco modelos. Para una codificación aún mejor, usa la variante de código dedicada: `ollama run qwen2.5-coder:7b`. Phi-4 Mini 3.8B es el mejor modelo de codificación si estás limitado a 4-6 GB de RAM (70% HumanEval con 2,5 GB de RAM).

¿Qué modelo debo usar para idiomas distintos al inglés?

Qwen3 8B soporta más de 29 idiomas de forma nativa, incluyendo chino, japonés, coreano, árabe y todos los principales idiomas europeos. Procesa texto en idiomas distintos al inglés de forma más eficiente que Llama.

¿Son seguros estos modelos para usar con datos privados?

Sí -- los cinco modelos se ejecutan completamente en tu hardware. Ningún texto de prompt, contexto o salida se transmite a servidores externos. La inferencia local es inherentemente más privada que las APIs en la nube para datos sensibles.

¿Cuánto tiempo lleva descargar estos modelos?

Con una conexión de 100 Mbps: Llama 3.2 1B (1,3 GB) ~2 minutos. Gemma 3 2B (1,6 GB) ~2 minutos. Llama 3.2 3B (2 GB) ~3 minutos. Phi-4 Mini (2,3 GB) ~3 minutos. Llama 3.3 8B (~5 GB) y Qwen3 8B (~5,2 GB) ~6-7 minutos cada uno. Los modelos se almacenan en caché tras la primera descarga -- las ejecuciones posteriores empiezan en segundos.

¿Puedo ejecutar varios modelos en la misma máquina?

Sí -- los cinco pueden coexistir en disco simultáneamente. Planifica 15-20 GB si instalas los cinco. Ollama carga un modelo a la vez y lo descarga tras 5 minutos de inactividad.

Fuentes

Meta AI. (2024). "Llama 3.2 Model Card." https://llama.meta.com/ -- Especificaciones y benchmarks oficiales para los modelos Llama 3.2 3B y 1B.
Microsoft. (2025). "Phi-4 Mini Technical Report." https://huggingface.co/microsoft/Phi-4-mini-instruct -- Datos de benchmark para Phi-4 Mini (68% MMLU, 70% HumanEval).
Google DeepMind. (2025). "Gemma 3 Model Card." https://ai.google.dev/gemma/docs/core -- Especificaciones y rendimiento de Gemma 3 2B, incluyendo la actualización a ventana de contexto de 128K.
Ollama. (2026). "Ollama Model Library." https://ollama.com/library -- Fuente canónica de etiquetas de modelos Ollama, tamaños y comandos pull.
Hugging Face. (2026). "Open LLM Leaderboard." https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard -- Puntuaciones de benchmarks MMLU, HumanEval y MATH para todos los modelos abiertos.
Mistral AI. (2024). "Mistral Small v0.3 Release Notes." https://mistral.ai/news/announcing-mistral-7b/ -- Especificaciones técnicas y detalles de la licencia Apache 2.0 del modelo 7B heredado referenciado en Errores comunes.
Alibaba Qwen Team. (2025). "Qwen3 Technical Report." arXiv:2505.09388. https://arxiv.org/abs/2505.09388 -- Datos de benchmark multilingüe y detalles de arquitectura para Qwen3 8B.
Meta AI. (2025). "Llama 3.3 Model Card." https://llama.meta.com/ -- Especificaciones y benchmarks oficiales para Llama 3.3 8B.

Nota sobre hechos de terceros

Este artículo hace referencia a modelos de IA, benchmarks, precios y licencias de terceros. El panorama de la IA cambia rápidamente. Las puntuaciones de benchmark, los términos de licencia, los nombres de modelos y los precios de API pueden cambiar entre el momento en que se escribió y cuando usted lo lee. Antes de tomar decisiones de despliegue o cumplimiento basadas en este artículo, verifique las cifras actuales en la fuente oficial de cada proveedor: tarjetas de modelos de Hugging Face para licencias y benchmarks, sitios web de proveedores para precios de API y EUR-Lex para el texto actualizado del RGPD y la Ley de IA de la UE. Este artículo refleja información públicamente disponible a mayo de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs