Accueil/LLMs locaux/ALLaM, AceGPT et les meilleurs LLM locaux en arabe saoudien (2026)

Best Models

ALLaM, AceGPT et les meilleurs LLM locaux en arabe saoudien (2026)

Dernière mise à jour: 14 juin 2026·11 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Lire en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Pour l'IA locale en langue arabe en Arabie saoudite, ALLaM 7B (HUMAIN/NCAI, Apache 2.0) est le principal modèle disponible publiquement — avec un score de 72–74 % sur AraLingBench contre 40–62 % pour les variantes Qwen — et il s'exécute localement via Ollama à l'aide de ses poids GGUF. AceGPT 7B/13B (KAUST + CUHKSZ) est une alternative mais semble non maintenu depuis décembre 2023.

Les ambitions de l'Arabie saoudite axées sur l'IA — y compris les modèles ALLaM de HUMAIN et l'Année officielle de l'intelligence artificielle 2026 — produisent une nouvelle génération de LLM locaux nativement arabes. Mais choisir un modèle pour les charges de travail arabes n'est pas qu'une question de nombre de paramètres : les modèles multilingues des fournisseurs mondiaux obtiennent des scores nettement inférieurs à ceux des modèles spécialisés en arabe sur les tâches culturelles et dialectales, malgré une fluidité grammaticale. Ce guide couvre ALLaM (HUMAIN/NCAI), AceGPT (KAUST + CUHKSZ) et les meilleures alternatives multilingues — avec des données de benchmark vérifiées, les besoins en VRAM et un guide étape par étape pour exécuter ALLaM localement avec Ollama.

ALLaM, AceGPT et les meilleurs LLM locaux en arabe saoudien (2026)

Points clés

ALLaM 7B est le meilleur modèle arabe auto-hébergeable publiquement — conçu par NCAI/SDAIA (désormais sous HUMAIN), publié sous Apache 2.0, avec des poids GGUF qui s'exécutent directement dans Ollama et llama.cpp.
L'écart de benchmark est réel : ALLaM-7B obtient 72–74 % sur AraLingBench, tandis que les variantes Qwen obtiennent 40–62 % — un écart de 12 à 32 points de pourcentage sur les tâches linguistiques arabes.
AceGPT (KAUST + CUHKSZ + SRIBD) est une alternative 7B/13B sous Apache 2.0, mais sa dernière mise à jour GitHub date de décembre 2023 — considérez-le comme non maintenu.
Fidélité culturelle ≠ fluidité grammaticale. Les modèles entraînés à l'échelle mondiale peuvent être grammaticalement corrects mais culturellement erronés ; affiner un modèle multilingue sur l'arabe *améliore* souvent la qualité MSA tout en *diminuant* la précision dialectale — un paradoxe documenté.
Référence rapide VRAM (Q4_K_M) : 7B ≈ 6–8 GB, 13B ≈ 10–14 GB, 34B ≈ 20–24 GB, 70B ≈ 40–48 GB.
ALLaM 34B est propriétaire — il alimente HUMAIN Chat mais n'a pas de poids publics, donc seul le 7B est auto-hébergeable aujourd'hui.
Élan national : l'Arabie saoudite a déclaré 2026 Année de l'intelligence artificielle, accélérant le développement de modèles arabes.

📍 En une phrase

ALLaM 7B (Apache 2.0, compatible Ollama) est le principal modèle arabe auto-hébergeable publiquement, avec un score de 72–74 % sur AraLingBench contre 40–62 % pour les variantes Qwen.

💬 En termes simples

Si vous avez besoin d'une IA arabe que vous pouvez exécuter sur votre propre ordinateur, ALLaM 7B d'Arabie saoudite est la meilleure option gratuite actuellement. Les grands modèles mondiaux comme Qwen comprennent la grammaire arabe mais manquent souvent la culture et le dialecte.

Pourquoi la fidélité culturelle arabe compte pour l'IA locale

Un modèle peut produire un arabe grammaticalement correct tout en étant culturellement erroné — et pour le travail destiné aux clients ou gouvernemental en Arabie saoudite, c'est la justesse culturelle qui importe.

Les preuves des benchmarks sont cohérentes. Sur AraLingBench, qui teste le raisonnement morphologique et syntaxique arabe, les modèles de la famille Qwen obtiennent 40–62 % tandis que les modèles spécialisés en arabe comme ALLaM-7B obtiennent 72–74 %. Cet écart de 12 à 32 points de pourcentage se concentre précisément dans les domaines — morphologie, syntaxe, registre — où l'arabe diffère le plus des langues européennes pour lesquelles les modèles mondiaux sont optimisés.

L'affinage n'est pas une solution gratuite. Les recherches sur le paysage des LLM arabes (arXiv 2506.01340, 2026) documentent un paradoxe : affiner un modèle multilingue sur des données arabes améliore souvent la qualité de l'arabe standard moderne (MSA) tout en *diminuant* la précision dialectale. Vous ne pouvez pas simplement greffer une compétence arabe sur un modèle mondial et attendre une fidélité dialectale.

Le traitement du dialecte est l'endroit où les modèles mondiaux s'effondrent le plus visiblement. Pour les modèles à poids ouverts plus petits, la précision dialectale stricte par code ISO peut tomber aussi bas que 0,016–0,078 — ce qui signifie que le modèle produit un arabe fluide dans le *mauvais* dialecte. Le benchmark AraDiCE (COLING 2025) constate que les modèles spécifiques à l'arabe surpassent les modèles multilingues sur le dialecte, bien que des défis importants en matière d'identification et de génération de dialectes persistent dans tous les modèles.

Le contexte culturel et religieux est un point faible documenté. La même étude note que les données d'entraînement occidentalo-centrées ou multilingues « introduisent des biais culturels qui peuvent désaligner les modèles des valeurs et des attentes des communautés arabophones » — ce qui affecte la façon dont un modèle aborde les sujets islamiques, les formes d'adresse formelles et les conventions sociales.

L'accord grammatical de genre est un défi connu et persistant : l'arabe applique l'accord de genre aux verbes, aux adjectifs et aux pronoms d'une manière structurellement différente des langues européennes, et les modèles entraînés à l'échelle mondiale se trompent régulièrement de manière subtile.

L'implication commerciale pour les déploiements saoudiens : si votre cas d'usage concerne du contenu arabe destiné aux clients, de la correspondance formelle ou tout ce qui touche au contexte culturel ou religieux, un modèle spécialisé en arabe vaut le compromis — et la distinction entre MSA et dialecte du Golfe devrait faire explicitement partie de votre sélection de modèle.

Modèles locaux saoudiens et arabes : ALLaM, AceGPT et alternatives multilingues

ALLaM 7B est le point de départ recommandé pour une IA arabe auto-hébergée ; le tableau ci-dessous résume les options réalistes.

ALLaM a été conçu par le National Center for AI (NCAI) de SDAIA en partenariat avec IBM, et est désormais commercialisé via HUMAIN — une entreprise d'IA détenue par le Public Investment Fund, lancée en mai 2025. La famille comprend des variantes 7B, 13B, 34B et 70B, mais seul le 7B Instruct est disponible publiquement (Apache 2.0, avec neuf quantisations GGUF sur Hugging Face). Le 34B qui alimente HUMAIN Chat est propriétaire, sans poids publics.

AceGPT est un projet conjoint de KAUST, de la Chinese University of Hong Kong Shenzhen (CUHKSZ) et du Shenzhen Research Institute of Big Data (SRIBD) — pas un modèle uniquement de KAUST. Il offre des variantes 7B et 13B (base et chat) construites sur LLaMA-2, sous Apache 2.0. Lors de son lancement en 2023, il surpassait Jais sur les tâches arabes, mais sa dernière mise à jour GitHub date de décembre 2023, alors considérez-le comme non maintenu.

Qwen2.5 est l'alternative multilingue la plus solide pour une large couverture linguistique, mais comme le montrent les benchmarks, il est à la traîne des modèles spécialisés en arabe sur les tâches culturelles et dialectales malgré son écosystème plus important.

Jais (13B/70B) est inclus par souci d'exhaustivité, mais notez qu'il est d'origine émirienne (Core42/G42, Abu Dhabi), pas saoudien. Il reste compétitif sur les tâches dialectales arabes et est sous Apache 2.0.

Modèle	Paramètres	VRAM (Q4_K_M)	Licence	Ollama	Score arabe
ALLaM 7B	7B	6–8 GB	Apache 2.0	Oui (GGUF)	72–74% (AraLingBench)
ALLaM 34B	34B	~20 GB	Propriétaire	Non (pas de poids publics)	Pas de benchmark public
AceGPT 7B	7B	6–8 GB	Apache 2.0	Port communautaire	Solide au lancement (2023)
AceGPT 13B	13B	10–14 GB	Apache 2.0	Port communautaire	Solide au lancement (2023)
Qwen2.5 7B	7B	6–8 GB	Apache 2.0	Oui	40–62% (AraLingBench)
Qwen2.5 72B	72B	40–48 GB	Apache 2.0	Oui	Plus élevé, mais des écarts culturels subsistent
Jais 13B (EAU)	13B	10–14 GB	Apache 2.0	Limité	Compétitif sur le dialecte

Comparaison des scores AraLingBench : ALLaM 7B obtient 72–74 % contre 40–62 % pour Qwen2.5 7B, un écart pouvant atteindre 32 points de pourcentage sur les tâches linguistiques arabes.

Exécuter ALLaM 7B localement avec Ollama

ALLaM 7B est livré sous forme de quantisations GGUF sur Hugging Face, vous pouvez donc l'exécuter dans Ollama avec un Modelfile d'une seule ligne. Suivez ces étapes.

Alternative — llama.cpp directement : llama-cli -m ALLaM-7B-Instruct-Q4_K_M.gguf --chat-template chatml -p "أكمل الجملة التالية:" pour un contrôle maximal sur la longueur de contexte et l'échantillonnage.
AceGPT via port communautaire : ollama run salmatrafi/acegpt récupère le port AceGPT maintenu par la communauté si vous souhaitez comparer.
Matériel minimal : un GPU avec 8 GB de VRAM (RTX 3070/4060 ou mieux) ou Apple Silicon avec 16 GB de mémoire unifiée. Dimensionnez les modèles plus grands avec le Calculateur de VRAM.

1
Téléchargez le GGUF depuis Hugging Face
Why it matters: Rendez-vous sur humain-ai/ALLaM-7B-Instruct-preview sur Hugging Face, parcourez les quantisations et téléchargez ALLaM-7B-Instruct-Q4_K_M.gguf (recommandé, ~4,5 GB) — le meilleur équilibre qualité/taille pour un GPU de 8 GB.
2
Installez Ollama
Why it matters: Téléchargez Ollama depuis ollama.com pour votre système d'exploitation. Vous avez besoin d'environ 8 GB de VRAM sur un GPU NVIDIA, ou de 16 GB de mémoire unifiée sur Apple Silicon, pour exécuter confortablement un modèle 7B.
3
Créez un Modelfile
Why it matters: Créez un fichier texte brut nommé Modelfile contenant une seule ligne : FROM ./ALLaM-7B-Instruct-Q4_K_M.gguf — cela indique à Ollama où trouver les poids.
4
Enregistrez le modèle dans Ollama
Why it matters: Exécutez : ollama create allam-7b -f Modelfile. Ollama importe le GGUF et le rend disponible en tant que modèle nommé que vous pouvez appeler de façon répétée.
5
Lancez l'inférence en arabe
Why it matters: Exécutez : ollama run allam-7b "اشرح مفهوم الذكاء الاصطناعي المحلي" (Expliquez le concept d'IA locale). Le modèle répond en arabe standard moderne.
6
Vérifiez et orientez la sortie arabe
Why it matters: Si le modèle répond en anglais, ajoutez un prompt système tel que "أجب دائماً باللغة العربية الفصحى" (Répondez toujours en arabe standard moderne) pour verrouiller le registre et la langue.

Besoins en VRAM des LLM locaux par taille en quantisation Q4_K_M : les modèles 7B nécessitent 6–8 Go, les 13B 10–14 Go, les 34B 20–24 Go et les 70B 40–48 Go.

Comment auto-évaluer la qualité d'un modèle arabe

Les benchmarks sont un point de départ, mais vous devez tester tout modèle arabe sur votre propre domaine avant de le déployer. Utilisez ces vérifications.

Cohérence MSA vs dialecte : envoyez le même prompt en arabe standard moderne et en dialecte du Golfe, et vérifiez si le modèle maintient le registre et le sens dans les deux cas.
Test de contexte culturel : interrogez sur les pratiques culturelles saoudiennes, les principes de la finance islamique ou les conventions d'adresse formelles — et vérifiez si le cadrage est approprié, et pas seulement grammaticalement valide.
Test d'accord de genre : demandez au modèle de décrire une femme médecin et un homme ingénieur, et vérifiez l'accord grammatical de genre arabe correct sur les verbes, les adjectifs et les pronoms.
Calibrage de formalité : demandez une lettre formelle puis un message informel — un bon modèle ajuste le registre ; un modèle faible utilise le même ton pour les deux.
Proxies de benchmark : utilisez AraLingBench (raisonnement morphologique et syntaxique) et AraDiCE (conscience culturelle et dialecte) comme points de référence publiés lors de la comparaison des modèles.
Signaux d'alerte : des réponses en alphabet latin à des prompts arabes, un mauvais registre dialectal ou un cadrage culturellement inapproprié de sujets religieux signalent tous une mauvaise adéquation.
Règle pratique : pour tout cas d'usage arabe destiné aux clients, testez avec au moins 20 prompts spécifiques à votre domaine avant de déployer — les scores de benchmark ne capturent pas votre contenu spécifique.

Foire aux questions : LLM locaux arabes

Qu'est-ce qu'ALLaM et qui l'a créé ?

ALLaM est une famille de modèles de langue arabe conçue par le National Center for AI (NCAI) de SDAIA en partenariat avec IBM, et désormais commercialisée via HUMAIN, une entreprise d'IA détenue par le Public Investment Fund. La version 7B Instruct est disponible publiquement sous Apache 2.0 ; des variantes 13B, 34B et 70B plus grandes existent, mais seul le 7B dispose de poids ouverts.

Puis-je exécuter ALLaM localement ?

Oui — le modèle ALLaM 7B Instruct dispose de quantisations GGUF sur Hugging Face qui s'exécutent directement dans Ollama et llama.cpp sur un GPU avec environ 8 GB de VRAM ou Apple Silicon avec 16 GB de mémoire unifiée. Le 34B qui alimente HUMAIN Chat est propriétaire et ne peut pas être auto-hébergé.

Qu'est-ce qu'AceGPT et est-il toujours maintenu ?

AceGPT est un modèle arabe développé conjointement par KAUST, CUHKSZ et SRIBD, offrant des variantes 7B et 13B sous Apache 2.0. Il surpassait Jais lors de son lancement en 2023, mais sa dernière mise à jour GitHub date de décembre 2023, il semble donc non maintenu — utilisable, mais pas activement amélioré.

Comment ALLaM se compare-t-il à Qwen sur l'arabe ?

Sur AraLingBench, ALLaM-7B obtient 72–74 % contre 40–62 % pour les variantes Qwen — un écart de 12 à 32 points de pourcentage sur les tâches linguistiques arabes. Qwen dispose d'un écosystème plus important et d'une couverture multilingue plus large, mais ALLaM est plus solide sur la morphologie, la syntaxe et les tâches culturelles spécifiques à l'arabe.

Pourquoi les modèles multilingues ont-ils des difficultés avec l'arabe ?

Ils sont généralement grammaticalement fluides mais culturellement et dialectalement faibles. La précision dialectale stricte peut tomber à 0,016–0,078 pour les modèles plus petits, et affiner un modèle multilingue sur l'arabe améliore souvent la qualité MSA tout en diminuant la précision dialectale — un paradoxe documenté. Les données d'entraînement occidentalo-centrées introduisent également des biais culturels dans la façon dont les modèles gèrent le contexte islamique et social.

De quelle VRAM ai-je besoin pour un modèle arabe 7B ?

Environ 6–8 GB de VRAM en quantisation Q4_K_M, avec 8 GB ou plus recommandé pour des performances confortables. Un modèle 13B nécessite 10–14 GB, un 34B environ 20–24 GB, et un 70B environ 40–48 GB.

Jais est-il un modèle saoudien ?

Non — Jais est d'origine émirienne, développé par Core42/G42 à Abu Dhabi, et non par une institution saoudienne. Il est inclus ici parce qu'il s'agit d'un modèle arabe capable, sous Apache 2.0, compétitif sur les tâches dialectales, mais il ne fait pas partie de la lignée saoudienne (ALLaM/AceGPT).

Dois-je utiliser ALLaM 34B ou 7B ?

Pour un déploiement local, utilisez le 7B — le 34B est propriétaire et non auto-hébergeable. Commencez avec ALLaM 7B sur votre propre matériel, et si vous avez besoin de la capacité du 34B, accédez-y via le produit HUMAIN Chat plutôt que d'attendre des poids téléchargeables.

Comment tester si un modèle gère correctement l'arabe saoudien ?

Exécutez des prompts de cohérence MSA vs dialecte, interrogez sur les pratiques culturelles saoudiennes et la finance islamique, et testez l'accord grammatical de genre (par exemple, en décrivant une femme médecin et un homme ingénieur). Surveillez les réponses en alphabet latin, un mauvais registre dialectal ou un cadrage culturellement inapproprié, et validez avec au moins 20 prompts spécifiques à votre domaine avant de déployer.

Qu'est-ce que HUMAIN ?

HUMAIN est une entreprise saoudienne d'IA détenue intégralement par le Public Investment Fund, lancée en mai 2025. Elle commercialise ALLaM et exploite HUMAIN Chat. Elle est distincte de SDAIA, mais a hérité des modèles ALLaM du Centre national d'IA de SDAIA ; Aramco a ensuite pris une participation minoritaire.

Sources

Hugging Face — humain-ai/ALLaM-7B-Instruct-preview (fiche du modèle, quantisations GGUF) — huggingface.co
AraLingBench — benchmark linguistique arabe (arXiv 2511.14295) — arxiv.org
Landscape of Arabic LLMs — étude (arXiv 2506.01340) — arxiv.org
AraDiCE — évaluation du dialecte et de la culture arabes, COLING 2025 (arXiv 2409.11404) — arxiv.org
Lancement de HUMAIN Chat sur ALLaM 34B — Middle East AI News — middleeastainews.com
Conseil des ministres saoudien — 2026 déclarée Année de l'intelligence artificielle — spa.gov.sa

Note sur les faits tiers

Cet article fait référence à des modèles d’IA, des benchmarks, des prix et des licences de tiers. Le paysage de l’IA évolue rapidement. Les scores de benchmark, les conditions de licence, les noms de modèles et les prix des API peuvent changer entre le moment de la rédaction et le moment où vous lisez ceci. Avant de prendre des décisions de déploiement ou de conformité basées sur cet article, vérifiez les chiffres actuels auprès de la source officielle de chaque fournisseur : fiches de modèles Hugging Face pour les licences et benchmarks, sites web des fournisseurs pour les prix API, et EUR-Lex pour les textes RGPD et AI Act actuels. Cet article reflète les informations publiques disponibles en mai 2026.

Utilisez PromptQuorum avec un LLM local, vos propres clés API, ou les deux — vous choisissez le backend.

Télécharger la bêta PromptQuorum →

← Retour aux LLMs locaux