Home/Local LLMs/ALLaM, AceGPT y los mejores LLM locales en árabe saudí (2026)

Best Models

ALLaM, AceGPT y los mejores LLM locales en árabe saudí (2026)

Last updated: 14 de junio de 2026·11 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Para IA local en árabe en Arabia Saudí, ALLaM 7B (HUMAIN/NCAI, Apache 2.0) es el modelo líder disponible públicamente —puntúa 72–74% en AraLingBench frente al 40–62% de las variantes de Qwen— y se ejecuta en local mediante Ollama usando sus pesos GGUF. AceGPT 7B/13B (KAUST + CUHKSZ) es una alternativa, pero parece sin mantenimiento desde diciembre de 2023.

Las ambiciones AI-first de Arabia Saudí —incluidos los modelos ALLaM de HUMAIN y el Año de la Inteligencia Artificial oficial de 2026— están produciendo una nueva generación de LLM locales nativos en árabe. Pero elegir un modelo para cargas de trabajo en árabe no es solo una cuestión de número de parámetros: los modelos multilingües de proveedores globales puntúan significativamente más bajo que los modelos especializados en árabe en tareas culturales y dialectales, a pesar de ser gramaticalmente fluidos. Esta guía cubre ALLaM (HUMAIN/NCAI), AceGPT (KAUST + CUHKSZ) y las mejores alternativas multilingües, con datos de benchmark verificados, requisitos de VRAM y una guía paso a paso para ejecutar ALLaM en local con Ollama.

ALLaM, AceGPT y los mejores LLM locales en árabe saudí (2026)

Key Takeaways

ALLaM 7B es el mejor modelo en árabe autoalojable públicamente: creado por NCAI/SDAIA (ahora bajo HUMAIN), publicado bajo Apache 2.0, con pesos GGUF que se ejecutan directamente en Ollama y llama.cpp.
La diferencia en los benchmarks es real: ALLaM-7B puntúa 72–74% en AraLingBench, mientras que las variantes de Qwen puntúan 40–62%: una diferencia de 12–32 puntos porcentuales en tareas lingüísticas en árabe.
AceGPT (KAUST + CUHKSZ + SRIBD) es una alternativa 7B/13B con licencia Apache 2.0, pero su última actualización en GitHub fue de diciembre de 2023: trátalo como sin mantenimiento.
Fidelidad cultural ≠ fluidez gramatical. Los modelos entrenados de forma global pueden ser gramaticalmente correctos pero culturalmente erróneos; ajustar (fine-tuning) un modelo multilingüe con datos en árabe a menudo *mejora* la calidad del MSA mientras *reduce* la precisión dialectal: una paradoja documentada.
Referencia rápida de VRAM (Q4_K_M): 7B ≈ 6–8 GB, 13B ≈ 10–14 GB, 34B ≈ 20–24 GB, 70B ≈ 40–48 GB.
ALLaM 34B es propietario: impulsa HUMAIN Chat pero no tiene pesos públicos, por lo que hoy solo el 7B es autoalojable.
Impulso nacional: Arabia Saudí declaró 2026 el Año de la Inteligencia Artificial, acelerando el desarrollo de modelos en árabe.

ALLaM 7B (Apache 2.0, listo para Ollama) es el principal modelo en árabe autoalojable públicamente, con una puntuación de 72–74% en AraLingBench frente al 40–62% de las variantes de Qwen.

Si necesitas una IA en árabe que puedas ejecutar en tu propio ordenador, ALLaM 7B de Arabia Saudí es la mejor opción gratuita ahora mismo. Los grandes modelos globales como Qwen entienden la gramática árabe, pero a menudo se les escapan la cultura y el dialecto.

Por qué importa la fidelidad cultural en árabe para la IA local

Un modelo puede producir árabe gramaticalmente correcto y aun así ser culturalmente erróneo, y para el trabajo de cara al cliente o gubernamental en Arabia Saudí, lo que importa es la corrección cultural.

La evidencia de los benchmarks es consistente. En AraLingBench, que evalúa el razonamiento morfológico y sintáctico del árabe, los modelos de la familia Qwen puntúan 40–62% mientras que los modelos especializados en árabe como ALLaM-7B puntúan 72–74%. Esa diferencia de 12–32 puntos porcentuales se concentra exactamente en las áreas —morfología, sintaxis, registro— donde el árabe más difiere de las lenguas europeas para las que están optimizados los modelos globales.

El fine-tuning no es una solución gratuita. La investigación sobre el panorama de los LLM en árabe (arXiv 2506.01340, 2026) documenta una paradoja: ajustar un modelo multilingüe con datos en árabe a menudo mejora la calidad del árabe estándar moderno (MSA) mientras *reduce* la precisión dialectal. No puedes simplemente añadir competencia en árabe a un modelo global y esperar fidelidad dialectal.

El manejo del dialecto es donde los modelos globales fallan de forma más visible. Para modelos open-weight más pequeños, la precisión dialectal estricta por código ISO puede caer hasta 0.016–0.078, lo que significa que el modelo produce árabe fluido en el dialecto *equivocado*. El benchmark AraDiCE (COLING 2025) concluye que los modelos específicos de árabe superan a los multilingües en dialecto, aunque persisten desafíos significativos en la identificación y generación de dialectos en todos los modelos.

El contexto cultural y religioso es un punto débil documentado. La misma revisión señala que los datos de entrenamiento centrados en Occidente o multilingües "introducen sesgos culturales que pueden desalinear los modelos con los valores y expectativas de las comunidades de habla árabe", lo que afecta a cómo un modelo aborda temas islámicos, el tratamiento formal y las convenciones sociales.

La concordancia de género gramatical es un desafío conocido y persistente: el árabe aplica concordancia de género a verbos, adjetivos y pronombres de formas que difieren estructuralmente de las lenguas europeas, y los modelos entrenados de forma global se equivocan de forma sutil en esto de manera rutinaria.

La implicación de negocio para los despliegues en Arabia Saudí: si tu caso de uso es contenido en árabe de cara al cliente, correspondencia formal o cualquier cosa que toque el contexto cultural o religioso, un modelo especializado en árabe vale la pena el sacrificio, y la distinción entre MSA y dialecto del Golfo debería ser una parte explícita de tu selección de modelo.

Modelos locales saudíes y en árabe: ALLaM, AceGPT y alternativas multilingües

ALLaM 7B es el punto de partida recomendado para IA en árabe autoalojada; la tabla siguiente resume las opciones realistas.

ALLaM fue creado por el National Center for AI (NCAI) de SDAIA en colaboración con IBM, y ahora se comercializa a través de HUMAIN, una empresa de IA propiedad del Public Investment Fund lanzada en mayo de 2025. La familia abarca variantes de 7B, 13B, 34B y 70B, pero solo el 7B Instruct está disponible públicamente (Apache 2.0, con nueve cuantizaciones GGUF en Hugging Face). El 34B que impulsa HUMAIN Chat es propietario y no tiene pesos públicos.

AceGPT es un proyecto conjunto de KAUST, la Chinese University of Hong Kong Shenzhen (CUHKSZ) y el Shenzhen Research Institute of Big Data (SRIBD), no un modelo exclusivo de KAUST. Ofrece variantes de 7B y 13B (base y chat) construidas sobre LLaMA-2, bajo Apache 2.0. En su lanzamiento de 2023 superó a Jais en tareas en árabe, pero su última actualización en GitHub fue de diciembre de 2023, así que trátalo como sin mantenimiento.

Qwen2.5 es la alternativa multilingüe más sólida para una cobertura lingüística amplia, pero como muestran los benchmarks, queda por detrás de los modelos especializados en árabe en tareas culturales y dialectales pese a su mayor ecosistema.

Jais (13B/70B) se incluye para que la lista sea completa, pero ten en cuenta que es de origen emiratí (Core42/G42, Abu Dabi), no saudí. Sigue siendo competitivo en tareas de dialecto árabe y es Apache 2.0.

Modelo	Parámetros	VRAM (Q4_K_M)	Licencia	Ollama	Puntuación en árabe
ALLaM 7B	7B	6–8 GB	Apache 2.0	Sí (GGUF)	72–74% (AraLingBench)
ALLaM 34B	34B	~20 GB	Propietario	No (sin pesos públicos)	Sin benchmark público
AceGPT 7B	7B	6–8 GB	Apache 2.0	Port de la comunidad	Fuerte en su lanzamiento (2023)
AceGPT 13B	13B	10–14 GB	Apache 2.0	Port de la comunidad	Fuerte en su lanzamiento (2023)
Qwen2.5 7B	7B	6–8 GB	Apache 2.0	Sí	40–62% (AraLingBench)
Qwen2.5 72B	72B	40–48 GB	Apache 2.0	Sí	Mayor, pero persisten brechas culturales
Jais 13B (EAU)	13B	10–14 GB	Apache 2.0	Limitado	Competitivo en dialecto

Comparación de puntuaciones AraLingBench: ALLaM 7B obtiene 72–74 % frente al 40–62 % de Qwen2.5 7B, una brecha de hasta 32 puntos porcentuales en tareas lingüísticas árabes.

Ejecutar ALLaM 7B en local con Ollama

ALLaM 7B se distribuye como cuantizaciones GGUF en Hugging Face, así que puedes ejecutarlo en Ollama con un Modelfile de una sola línea. Sigue estos pasos.

Alternativa: llama.cpp directamente: llama-cli -m ALLaM-7B-Instruct-Q4_K_M.gguf --chat-template chatml -p "أكمل الجملة التالية:" para máximo control sobre la longitud de contexto y el muestreo.
AceGPT vía port de la comunidad: ollama run salmatrafi/acegpt descarga el port de AceGPT mantenido por la comunidad si quieres comparar.
Hardware mínimo: una GPU con 8 GB de VRAM (RTX 3070/4060 o superior) o Apple Silicon con 16 GB de memoria unificada. Dimensiona modelos más grandes con la Calculadora de VRAM.

1
Descarga el GGUF desde Hugging Face
Why it matters: Visita humain-ai/ALLaM-7B-Instruct-preview en Hugging Face, explora las cuantizaciones y descarga ALLaM-7B-Instruct-Q4_K_M.gguf (recomendado, ~4.5 GB): el mejor equilibrio calidad-tamaño para una GPU de 8 GB.
2
Instala Ollama
Why it matters: Descarga Ollama desde ollama.com para tu sistema operativo. Necesitas aproximadamente 8 GB de VRAM en una GPU NVIDIA, o 16 GB de memoria unificada en Apple Silicon, para ejecutar un modelo de 7B con comodidad.
3
Crea un Modelfile
Why it matters: Crea un archivo de texto plano llamado Modelfile que contenga una sola línea: FROM ./ALLaM-7B-Instruct-Q4_K_M.gguf: esto le indica a Ollama dónde encontrar los pesos.
4
Registra el modelo en Ollama
Why it matters: Ejecuta: ollama create allam-7b -f Modelfile. Ollama importa el GGUF y lo deja disponible como un modelo con nombre que puedes invocar repetidamente.
5
Ejecuta inferencia en árabe
Why it matters: Ejecuta: ollama run allam-7b "اشرح مفهوم الذكاء الاصطناعي المحلي" (Explica el concepto de IA local). El modelo responde en árabe estándar moderno.
6
Verifica y orienta la salida en árabe
Why it matters: Si el modelo responde en inglés, añade un system prompt como "أجب دائماً باللغة العربية الفصحى" (Responde siempre en árabe estándar moderno) para fijar el registro y el idioma.

Necesidades de VRAM de los LLM locales por tamaño con cuantización Q4_K_M: los modelos de 7B necesitan 6–8 GB, los de 13B 10–14 GB, los de 34B 20–24 GB y los de 70B 40–48 GB.

Cómo autoevaluar la calidad de un modelo en árabe

Los benchmarks son un punto de partida, pero deberías probar cualquier modelo en árabe contra tu propio dominio antes de desplegarlo. Usa estas comprobaciones.

Consistencia MSA vs. dialecto: envía el mismo prompt en árabe estándar moderno y en dialecto del Golfo, y comprueba si el modelo mantiene el registro y el significado en ambos.
Prueba de contexto cultural: pregunta sobre prácticas culturales saudíes, principios de finanzas islámicas o convenciones de tratamiento formal, y comprueba si el enfoque es apropiado, no solo gramaticalmente válido.
Prueba de concordancia de género: pide al modelo que describa a una médica y a un ingeniero, y verifica la correcta concordancia de género gramatical en árabe en verbos, adjetivos y pronombres.
Calibración de formalidad: solicita una carta formal y luego un mensaje informal: un buen modelo ajusta el registro; uno débil usa el mismo tono para ambos.
Proxies de benchmark: usa AraLingBench (razonamiento morfológico y sintáctico) y AraDiCE (conciencia cultural y dialecto) como puntos de referencia publicados al comparar modelos.
Señales de alerta: respuestas en alfabeto latino a prompts en árabe, el registro dialectal equivocado o un enfoque culturalmente inapropiado de temas religiosos indican un mal ajuste.
Regla práctica: para cualquier caso de uso en árabe de cara al cliente, prueba con al menos 20 prompts específicos de tu dominio antes de desplegar: las puntuaciones de los benchmarks no capturan tu contenido concreto.

Preguntas frecuentes: LLM locales en árabe

¿Qué es ALLaM y quién lo creó?

ALLaM es una familia de modelos de lenguaje en árabe creada por el National Center for AI (NCAI) de SDAIA en colaboración con IBM, y ahora comercializada a través de HUMAIN, una empresa de IA propiedad del Public Investment Fund. La versión 7B Instruct está disponible públicamente bajo Apache 2.0; existen variantes más grandes de 13B, 34B y 70B, pero solo el 7B tiene pesos abiertos.

¿Puedo ejecutar ALLaM en local?

Sí: el modelo ALLaM 7B Instruct tiene cuantizaciones GGUF en Hugging Face que se ejecutan directamente en Ollama y llama.cpp en una GPU con unos 8 GB de VRAM o Apple Silicon con 16 GB de memoria unificada. El 34B que impulsa HUMAIN Chat es propietario y no se puede autoalojar.

¿Qué es AceGPT y sigue manteniéndose?

AceGPT es un modelo en árabe desarrollado conjuntamente por KAUST, CUHKSZ y SRIBD, que ofrece variantes de 7B y 13B bajo Apache 2.0. Superó a Jais en su lanzamiento de 2023, pero su última actualización en GitHub fue de diciembre de 2023, así que parece sin mantenimiento: usable, pero sin mejoras activas.

¿Cómo se compara ALLaM con Qwen en árabe?

En AraLingBench, ALLaM-7B puntúa 72–74% frente al 40–62% de las variantes de Qwen: una diferencia de 12–32 puntos porcentuales en tareas lingüísticas en árabe. Qwen tiene un ecosistema más grande y una cobertura multilingüe más amplia, pero ALLaM es más sólido en morfología, sintaxis y tareas culturales específicas del árabe.

¿Por qué los modelos multilingües tienen dificultades con el árabe?

Suelen ser gramaticalmente fluidos pero débiles cultural y dialectalmente. La precisión dialectal estricta puede caer a 0.016–0.078 en modelos más pequeños, y ajustar un modelo multilingüe con datos en árabe a menudo mejora la calidad del MSA mientras reduce la precisión dialectal: una paradoja documentada. Los datos de entrenamiento centrados en Occidente también introducen sesgos culturales en cómo los modelos manejan el contexto islámico y social.

¿Qué VRAM necesito para un modelo de 7B en árabe?

Unos 6–8 GB de VRAM con cuantización Q4_K_M, con 8 GB o más recomendados para un rendimiento cómodo. Un modelo de 13B necesita 10–14 GB, uno de 34B unos 20–24 GB, y uno de 70B unos 40–48 GB.

¿Es Jais un modelo saudí?

No: Jais es de origen emiratí, desarrollado por Core42/G42 en Abu Dabi, no por una institución saudí. Se incluye aquí porque es un modelo en árabe capaz, con licencia Apache 2.0 y competitivo en tareas de dialecto, pero no forma parte del linaje saudí (ALLaM/AceGPT).

¿Debería usar ALLaM 34B o 7B?

Para despliegue local, usa el 7B: el 34B es propietario y no es autoalojable. Empieza con ALLaM 7B en tu propio hardware y, si necesitas la capacidad del 34B, accede a él a través del producto HUMAIN Chat en lugar de esperar pesos descargables.

¿Cómo pruebo si un modelo maneja correctamente el árabe saudí?

Ejecuta prompts de consistencia MSA frente a dialecto, pregunta sobre prácticas culturales saudíes y finanzas islámicas, y prueba la concordancia de género gramatical (por ejemplo, describiendo a una médica y a un ingeniero). Vigila las respuestas en alfabeto latino, el registro dialectal equivocado o un enfoque culturalmente inapropiado, y valida con al menos 20 prompts específicos de tu dominio antes de desplegar.

¿Qué es HUMAIN?

HUMAIN es una empresa saudí de IA propiedad en su totalidad del Public Investment Fund, lanzada en mayo de 2025. Comercializa ALLaM y opera HUMAIN Chat. Es independiente de SDAIA, pero heredó los modelos ALLaM del Centro Nacional de IA de SDAIA; Aramco adquirió después una participación minoritaria.

Fuentes

Hugging Face — humain-ai/ALLaM-7B-Instruct-preview (ficha del modelo, cuantizaciones GGUF) — huggingface.co
AraLingBench — benchmark lingüístico en árabe (arXiv 2511.14295) — arxiv.org
Landscape of Arabic LLMs — estudio (arXiv 2506.01340) — arxiv.org
AraDiCE — evaluación de dialecto y cultura en árabe, COLING 2025 (arXiv 2409.11404) — arxiv.org
Lanzamiento de HUMAIN Chat sobre ALLaM 34B — Middle East AI News — middleeastainews.com
Consejo de Ministros saudí — 2026 declarado el Año de la Inteligencia Artificial — spa.gov.sa

Nota sobre hechos de terceros

Este artículo hace referencia a modelos de IA, benchmarks, precios y licencias de terceros. El panorama de la IA cambia rápidamente. Las puntuaciones de benchmark, los términos de licencia, los nombres de modelos y los precios de API pueden cambiar entre el momento en que se escribió y cuando usted lo lee. Antes de tomar decisiones de despliegue o cumplimiento basadas en este artículo, verifique las cifras actuales en la fuente oficial de cada proveedor: tarjetas de modelos de Hugging Face para licencias y benchmarks, sitios web de proveedores para precios de API y EUR-Lex para el texto actualizado del RGPD y la Ley de IA de la UE. Este artículo refleja información públicamente disponible a mayo de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Download the PromptQuorum Beta →

← Back to Local LLMs