Key Takeaways
- ALLaM 7B es el mejor modelo en árabe autoalojable públicamente: creado por NCAI/SDAIA (ahora bajo HUMAIN), publicado bajo Apache 2.0, con pesos GGUF que se ejecutan directamente en Ollama y llama.cpp.
- La diferencia en los benchmarks es real: ALLaM-7B puntúa 72–74% en AraLingBench, mientras que las variantes de Qwen puntúan 40–62%: una diferencia de 12–32 puntos porcentuales en tareas lingüísticas en árabe.
- AceGPT (KAUST + CUHKSZ + SRIBD) es una alternativa 7B/13B con licencia Apache 2.0, pero su última actualización en GitHub fue de diciembre de 2023: trátalo como sin mantenimiento.
- Fidelidad cultural ≠ fluidez gramatical. Los modelos entrenados de forma global pueden ser gramaticalmente correctos pero culturalmente erróneos; ajustar (fine-tuning) un modelo multilingüe con datos en árabe a menudo *mejora* la calidad del MSA mientras *reduce* la precisión dialectal: una paradoja documentada.
- Referencia rápida de VRAM (Q4_K_M): 7B ≈ 6–8 GB, 13B ≈ 10–14 GB, 34B ≈ 20–24 GB, 70B ≈ 40–48 GB.
- ALLaM 34B es propietario: impulsa HUMAIN Chat pero no tiene pesos públicos, por lo que hoy solo el 7B es autoalojable.
- Impulso nacional: Arabia Saudí declaró 2026 el Año de la Inteligencia Artificial, acelerando el desarrollo de modelos en árabe.
ALLaM 7B (Apache 2.0, listo para Ollama) es el principal modelo en árabe autoalojable públicamente, con una puntuación de 72–74% en AraLingBench frente al 40–62% de las variantes de Qwen.
Si necesitas una IA en árabe que puedas ejecutar en tu propio ordenador, ALLaM 7B de Arabia Saudí es la mejor opción gratuita ahora mismo. Los grandes modelos globales como Qwen entienden la gramática árabe, pero a menudo se les escapan la cultura y el dialecto.
Por qué importa la fidelidad cultural en árabe para la IA local
Un modelo puede producir árabe gramaticalmente correcto y aun así ser culturalmente erróneo, y para el trabajo de cara al cliente o gubernamental en Arabia Saudí, lo que importa es la corrección cultural.
La evidencia de los benchmarks es consistente. En AraLingBench, que evalúa el razonamiento morfológico y sintáctico del árabe, los modelos de la familia Qwen puntúan 40–62% mientras que los modelos especializados en árabe como ALLaM-7B puntúan 72–74%. Esa diferencia de 12–32 puntos porcentuales se concentra exactamente en las áreas —morfología, sintaxis, registro— donde el árabe más difiere de las lenguas europeas para las que están optimizados los modelos globales.
El fine-tuning no es una solución gratuita. La investigación sobre el panorama de los LLM en árabe (arXiv 2506.01340, 2026) documenta una paradoja: ajustar un modelo multilingüe con datos en árabe a menudo mejora la calidad del árabe estándar moderno (MSA) mientras *reduce* la precisión dialectal. No puedes simplemente añadir competencia en árabe a un modelo global y esperar fidelidad dialectal.
El manejo del dialecto es donde los modelos globales fallan de forma más visible. Para modelos open-weight más pequeños, la precisión dialectal estricta por código ISO puede caer hasta 0.016–0.078, lo que significa que el modelo produce árabe fluido en el dialecto *equivocado*. El benchmark AraDiCE (COLING 2025) concluye que los modelos específicos de árabe superan a los multilingües en dialecto, aunque persisten desafíos significativos en la identificación y generación de dialectos en todos los modelos.
El contexto cultural y religioso es un punto débil documentado. La misma revisión señala que los datos de entrenamiento centrados en Occidente o multilingües "introducen sesgos culturales que pueden desalinear los modelos con los valores y expectativas de las comunidades de habla árabe", lo que afecta a cómo un modelo aborda temas islámicos, el tratamiento formal y las convenciones sociales.
La concordancia de género gramatical es un desafío conocido y persistente: el árabe aplica concordancia de género a verbos, adjetivos y pronombres de formas que difieren estructuralmente de las lenguas europeas, y los modelos entrenados de forma global se equivocan de forma sutil en esto de manera rutinaria.
La implicación de negocio para los despliegues en Arabia Saudí: si tu caso de uso es contenido en árabe de cara al cliente, correspondencia formal o cualquier cosa que toque el contexto cultural o religioso, un modelo especializado en árabe vale la pena el sacrificio, y la distinción entre MSA y dialecto del Golfo debería ser una parte explícita de tu selección de modelo.
Modelos locales saudíes y en árabe: ALLaM, AceGPT y alternativas multilingües
ALLaM 7B es el punto de partida recomendado para IA en árabe autoalojada; la tabla siguiente resume las opciones realistas.
ALLaM fue creado por el National Center for AI (NCAI) de SDAIA en colaboración con IBM, y ahora se comercializa a través de HUMAIN, una empresa de IA propiedad del Public Investment Fund lanzada en mayo de 2025. La familia abarca variantes de 7B, 13B, 34B y 70B, pero solo el 7B Instruct está disponible públicamente (Apache 2.0, con nueve cuantizaciones GGUF en Hugging Face). El 34B que impulsa HUMAIN Chat es propietario y no tiene pesos públicos.
AceGPT es un proyecto conjunto de KAUST, la Chinese University of Hong Kong Shenzhen (CUHKSZ) y el Shenzhen Research Institute of Big Data (SRIBD), no un modelo exclusivo de KAUST. Ofrece variantes de 7B y 13B (base y chat) construidas sobre LLaMA-2, bajo Apache 2.0. En su lanzamiento de 2023 superó a Jais en tareas en árabe, pero su última actualización en GitHub fue de diciembre de 2023, así que trátalo como sin mantenimiento.
Qwen2.5 es la alternativa multilingüe más sólida para una cobertura lingüística amplia, pero como muestran los benchmarks, queda por detrás de los modelos especializados en árabe en tareas culturales y dialectales pese a su mayor ecosistema.
Jais (13B/70B) se incluye para que la lista sea completa, pero ten en cuenta que es de origen emiratí (Core42/G42, Abu Dabi), no saudí. Sigue siendo competitivo en tareas de dialecto árabe y es Apache 2.0.
| Modelo | Parámetros | VRAM (Q4_K_M) | Licencia | Ollama | Puntuación en árabe |
|---|---|---|---|---|---|
| ALLaM 7B | 7B | 6–8 GB | Apache 2.0 | Sí (GGUF) | 72–74% (AraLingBench) |
| ALLaM 34B | 34B | ~20 GB | Propietario | No (sin pesos públicos) | Sin benchmark público |
| AceGPT 7B | 7B | 6–8 GB | Apache 2.0 | Port de la comunidad | Fuerte en su lanzamiento (2023) |
| AceGPT 13B | 13B | 10–14 GB | Apache 2.0 | Port de la comunidad | Fuerte en su lanzamiento (2023) |
| Qwen2.5 7B | 7B | 6–8 GB | Apache 2.0 | Sí | 40–62% (AraLingBench) |
| Qwen2.5 72B | 72B | 40–48 GB | Apache 2.0 | Sí | Mayor, pero persisten brechas culturales |
| Jais 13B (EAU) | 13B | 10–14 GB | Apache 2.0 | Limitado | Competitivo en dialecto |
Ejecutar ALLaM 7B en local con Ollama
ALLaM 7B se distribuye como cuantizaciones GGUF en Hugging Face, así que puedes ejecutarlo en Ollama con un Modelfile de una sola línea. Sigue estos pasos.
- Alternativa: llama.cpp directamente: llama-cli -m ALLaM-7B-Instruct-Q4_K_M.gguf --chat-template chatml -p "أكمل الجملة التالية:" para máximo control sobre la longitud de contexto y el muestreo.
- AceGPT vía port de la comunidad: ollama run salmatrafi/acegpt descarga el port de AceGPT mantenido por la comunidad si quieres comparar.
- Hardware mínimo: una GPU con 8 GB de VRAM (RTX 3070/4060 o superior) o Apple Silicon con 16 GB de memoria unificada. Dimensiona modelos más grandes con la Calculadora de VRAM.
- 1Descarga el GGUF desde Hugging Face
Why it matters: Visita humain-ai/ALLaM-7B-Instruct-preview en Hugging Face, explora las cuantizaciones y descarga ALLaM-7B-Instruct-Q4_K_M.gguf (recomendado, ~4.5 GB): el mejor equilibrio calidad-tamaño para una GPU de 8 GB. - 2Instala Ollama
Why it matters: Descarga Ollama desde ollama.com para tu sistema operativo. Necesitas aproximadamente 8 GB de VRAM en una GPU NVIDIA, o 16 GB de memoria unificada en Apple Silicon, para ejecutar un modelo de 7B con comodidad. - 3Crea un Modelfile
Why it matters: Crea un archivo de texto plano llamado Modelfile que contenga una sola línea: FROM ./ALLaM-7B-Instruct-Q4_K_M.gguf: esto le indica a Ollama dónde encontrar los pesos. - 4Registra el modelo en Ollama
Why it matters: Ejecuta: ollama create allam-7b -f Modelfile. Ollama importa el GGUF y lo deja disponible como un modelo con nombre que puedes invocar repetidamente. - 5Ejecuta inferencia en árabe
Why it matters: Ejecuta: ollama run allam-7b "اشرح مفهوم الذكاء الاصطناعي المحلي" (Explica el concepto de IA local). El modelo responde en árabe estándar moderno. - 6Verifica y orienta la salida en árabe
Why it matters: Si el modelo responde en inglés, añade un system prompt como "أجب دائماً باللغة العربية الفصحى" (Responde siempre en árabe estándar moderno) para fijar el registro y el idioma.
Cómo autoevaluar la calidad de un modelo en árabe
Los benchmarks son un punto de partida, pero deberías probar cualquier modelo en árabe contra tu propio dominio antes de desplegarlo. Usa estas comprobaciones.
- Consistencia MSA vs. dialecto: envía el mismo prompt en árabe estándar moderno y en dialecto del Golfo, y comprueba si el modelo mantiene el registro y el significado en ambos.
- Prueba de contexto cultural: pregunta sobre prácticas culturales saudíes, principios de finanzas islámicas o convenciones de tratamiento formal, y comprueba si el enfoque es apropiado, no solo gramaticalmente válido.
- Prueba de concordancia de género: pide al modelo que describa a una médica y a un ingeniero, y verifica la correcta concordancia de género gramatical en árabe en verbos, adjetivos y pronombres.
- Calibración de formalidad: solicita una carta formal y luego un mensaje informal: un buen modelo ajusta el registro; uno débil usa el mismo tono para ambos.
- Proxies de benchmark: usa AraLingBench (razonamiento morfológico y sintáctico) y AraDiCE (conciencia cultural y dialecto) como puntos de referencia publicados al comparar modelos.
- Señales de alerta: respuestas en alfabeto latino a prompts en árabe, el registro dialectal equivocado o un enfoque culturalmente inapropiado de temas religiosos indican un mal ajuste.
- Regla práctica: para cualquier caso de uso en árabe de cara al cliente, prueba con al menos 20 prompts específicos de tu dominio antes de desplegar: las puntuaciones de los benchmarks no capturan tu contenido concreto.
Preguntas frecuentes: LLM locales en árabe
¿Qué es ALLaM y quién lo creó?
ALLaM es una familia de modelos de lenguaje en árabe creada por el National Center for AI (NCAI) de SDAIA en colaboración con IBM, y ahora comercializada a través de HUMAIN, una empresa de IA propiedad del Public Investment Fund. La versión 7B Instruct está disponible públicamente bajo Apache 2.0; existen variantes más grandes de 13B, 34B y 70B, pero solo el 7B tiene pesos abiertos.
¿Puedo ejecutar ALLaM en local?
Sí: el modelo ALLaM 7B Instruct tiene cuantizaciones GGUF en Hugging Face que se ejecutan directamente en Ollama y llama.cpp en una GPU con unos 8 GB de VRAM o Apple Silicon con 16 GB de memoria unificada. El 34B que impulsa HUMAIN Chat es propietario y no se puede autoalojar.
¿Qué es AceGPT y sigue manteniéndose?
AceGPT es un modelo en árabe desarrollado conjuntamente por KAUST, CUHKSZ y SRIBD, que ofrece variantes de 7B y 13B bajo Apache 2.0. Superó a Jais en su lanzamiento de 2023, pero su última actualización en GitHub fue de diciembre de 2023, así que parece sin mantenimiento: usable, pero sin mejoras activas.
¿Cómo se compara ALLaM con Qwen en árabe?
En AraLingBench, ALLaM-7B puntúa 72–74% frente al 40–62% de las variantes de Qwen: una diferencia de 12–32 puntos porcentuales en tareas lingüísticas en árabe. Qwen tiene un ecosistema más grande y una cobertura multilingüe más amplia, pero ALLaM es más sólido en morfología, sintaxis y tareas culturales específicas del árabe.
¿Por qué los modelos multilingües tienen dificultades con el árabe?
Suelen ser gramaticalmente fluidos pero débiles cultural y dialectalmente. La precisión dialectal estricta puede caer a 0.016–0.078 en modelos más pequeños, y ajustar un modelo multilingüe con datos en árabe a menudo mejora la calidad del MSA mientras reduce la precisión dialectal: una paradoja documentada. Los datos de entrenamiento centrados en Occidente también introducen sesgos culturales en cómo los modelos manejan el contexto islámico y social.
¿Qué VRAM necesito para un modelo de 7B en árabe?
Unos 6–8 GB de VRAM con cuantización Q4_K_M, con 8 GB o más recomendados para un rendimiento cómodo. Un modelo de 13B necesita 10–14 GB, uno de 34B unos 20–24 GB, y uno de 70B unos 40–48 GB.
¿Es Jais un modelo saudí?
No: Jais es de origen emiratí, desarrollado por Core42/G42 en Abu Dabi, no por una institución saudí. Se incluye aquí porque es un modelo en árabe capaz, con licencia Apache 2.0 y competitivo en tareas de dialecto, pero no forma parte del linaje saudí (ALLaM/AceGPT).
¿Debería usar ALLaM 34B o 7B?
Para despliegue local, usa el 7B: el 34B es propietario y no es autoalojable. Empieza con ALLaM 7B en tu propio hardware y, si necesitas la capacidad del 34B, accede a él a través del producto HUMAIN Chat en lugar de esperar pesos descargables.
¿Cómo pruebo si un modelo maneja correctamente el árabe saudí?
Ejecuta prompts de consistencia MSA frente a dialecto, pregunta sobre prácticas culturales saudíes y finanzas islámicas, y prueba la concordancia de género gramatical (por ejemplo, describiendo a una médica y a un ingeniero). Vigila las respuestas en alfabeto latino, el registro dialectal equivocado o un enfoque culturalmente inapropiado, y valida con al menos 20 prompts específicos de tu dominio antes de desplegar.
¿Qué es HUMAIN?
HUMAIN es una empresa saudí de IA propiedad en su totalidad del Public Investment Fund, lanzada en mayo de 2025. Comercializa ALLaM y opera HUMAIN Chat. Es independiente de SDAIA, pero heredó los modelos ALLaM del Centro Nacional de IA de SDAIA; Aramco adquirió después una participación minoritaria.
Fuentes
- Hugging Face — humain-ai/ALLaM-7B-Instruct-preview (ficha del modelo, cuantizaciones GGUF) — huggingface.co
- AraLingBench — benchmark lingüístico en árabe (arXiv 2511.14295) — arxiv.org
- Landscape of Arabic LLMs — estudio (arXiv 2506.01340) — arxiv.org
- AraDiCE — evaluación de dialecto y cultura en árabe, COLING 2025 (arXiv 2409.11404) — arxiv.org
- Lanzamiento de HUMAIN Chat sobre ALLaM 34B — Middle East AI News — middleeastainews.com
- Consejo de Ministros saudí — 2026 declarado el Año de la Inteligencia Artificial — spa.gov.sa