Wichtigste Erkenntnisse
- ALLaM 7B ist das beste öffentlich selbst-hostbare arabische Modell – entwickelt von NCAI/SDAIA (jetzt unter HUMAIN), veröffentlicht unter Apache 2.0, mit GGUF-Gewichten, die direkt in Ollama und llama.cpp laufen.
- Die Benchmark-Lücke ist real: ALLaM-7B erreicht 72–74% bei AraLingBench, während Qwen-Varianten 40–62% erreichen – eine Lücke von 12–32 Prozentpunkten bei arabischen linguistischen Aufgaben.
- AceGPT (KAUST + CUHKSZ + SRIBD) ist eine 7B/13B-Alternative unter Apache 2.0, aber das letzte GitHub-Update stammt von Dezember 2023 – betrachten Sie es als nicht gepflegt.
- Kulturelle Treue ≠ grammatikalische Flüssigkeit. Global trainierte Modelle können grammatikalisch korrekt, aber kulturell falsch sein; das Feinabstimmen eines mehrsprachigen Modells auf Arabisch *verbessert* oft die MSA-Qualität, *verringert* aber die Dialektgenauigkeit – ein dokumentiertes Paradox.
- VRAM-Schnellreferenz (Q4_K_M): 7B ≈ 6–8 GB, 13B ≈ 10–14 GB, 34B ≈ 20–24 GB, 70B ≈ 40–48 GB.
- ALLaM 34B ist proprietär – es treibt HUMAIN Chat an, hat aber keine öffentlichen Gewichte, sodass heute nur das 7B selbst-hostbar ist.
- Nationale Dynamik: Saudi-Arabien hat 2026 zum Jahr der künstlichen Intelligenz erklärt und beschleunigt damit die Entwicklung arabischer Modelle.
📍 In einem Satz
ALLaM 7B (Apache 2.0, Ollama-fähig) ist das führende öffentlich selbst-hostbare arabische Modell und erreicht 72–74% bei AraLingBench gegenüber 40–62% für Qwen-Varianten.
💬 In einfachen Worten
Wenn Sie eine arabische KI benötigen, die Sie auf Ihrem eigenen Computer betreiben können, ist ALLaM 7B aus Saudi-Arabien derzeit die beste kostenlose Option. Große globale Modelle wie Qwen verstehen die arabische Grammatik, verfehlen aber oft Kultur und Dialekt.
Warum arabische kulturelle Treue für lokale KI wichtig ist
Ein Modell kann grammatikalisch korrektes Arabisch erzeugen und dennoch kulturell falsch liegen – und für kundenorientierte oder behördliche Arbeit in Saudi-Arabien ist kulturelle Korrektheit das, worauf es ankommt.
Die Benchmark-Belege sind konsistent. Bei AraLingBench, das arabisches morphologisches und syntaktisches Denken testet, erreichen Modelle der Qwen-Familie 40–62%, während arabisch-spezialisierte Modelle wie ALLaM-7B 72–74% erreichen. Diese Lücke von 12–32 Prozentpunkten konzentriert sich genau auf jene Bereiche – Morphologie, Syntax, Register –, in denen sich Arabisch am stärksten von den europäischen Sprachen unterscheidet, auf die globale Modelle optimiert sind.
Feinabstimmung ist keine kostenlose Lösung. Forschung zur arabischen LLM-Landschaft (arXiv 2506.01340, 2026) dokumentiert ein Paradox: Das Feinabstimmen eines mehrsprachigen Modells auf arabischen Daten verbessert oft die Qualität des modernen Hocharabisch (MSA), *verringert* aber die Dialektgenauigkeit. Sie können arabische Kompetenz nicht einfach an ein globales Modell anflanschen und dialektale Treue erwarten.
Bei der Dialektbehandlung versagen globale Modelle am sichtbarsten. Bei kleineren Modellen mit offenen Gewichten kann die strikte Dialektgenauigkeit nach ISO-Code auf bis zu 0.016–0.078 fallen – das bedeutet, das Modell erzeugt flüssiges Arabisch im *falschen* Dialekt. Der AraDiCE-Benchmark (COLING 2025) stellt fest, dass arabisch-spezifische Modelle mehrsprachige bei Dialekten übertreffen, obwohl bei allen Modellen erhebliche Herausforderungen bei der Dialekterkennung und -generierung bestehen bleiben.
Kultureller und religiöser Kontext ist ein dokumentierter Schwachpunkt. Dieselbe Übersicht merkt an, dass westlich-zentrierte oder mehrsprachige Trainingsdaten „kulturelle Vorurteile einführen, die Modelle mit den Werten und Erwartungen arabischsprachiger Gemeinschaften in Widerspruch bringen können“ – was beeinflusst, wie ein Modell islamische Themen, formelle Anrede und gesellschaftliche Konventionen einrahmt.
Grammatikalische Genus-Kongruenz ist eine bekannte, anhaltende Herausforderung: Arabisch wendet Genus-Kongruenz auf Verben, Adjektive und Pronomen in einer Weise an, die sich strukturell von europäischen Sprachen unterscheidet, und global trainierte Modelle machen dies regelmäßig auf subtile Weise falsch.
Die geschäftliche Implikation für saudische Einsätze: Wenn Ihr Anwendungsfall kundenorientierte arabische Inhalte, formelle Korrespondenz oder etwas mit kulturellem oder religiösem Bezug ist, lohnt sich ein arabisch-spezialisiertes Modell trotz des Kompromisses – und die Unterscheidung zwischen MSA und Golf-Dialekt sollte ein expliziter Teil Ihrer Modellauswahl sein.
Saudische und arabische lokale Modelle: ALLaM, AceGPT und mehrsprachige Alternativen
ALLaM 7B ist der empfohlene Ausgangspunkt für selbst gehostete arabische KI; die folgende Tabelle fasst die realistischen Optionen zusammen.
ALLaM wurde vom National Center for AI (NCAI) bei SDAIA in Partnerschaft mit IBM entwickelt und wird nun über HUMAIN kommerzialisiert – ein im Mai 2025 gegründetes KI-Unternehmen im Besitz des Public Investment Fund. Die Familie umfasst Varianten mit 7B, 13B, 34B und 70B, aber nur das 7B Instruct ist öffentlich verfügbar (Apache 2.0, mit neun GGUF-Quantisierungen auf Hugging Face). Das 34B, das HUMAIN Chat antreibt, ist proprietär und hat keine öffentlichen Gewichte.
AceGPT ist ein Gemeinschaftsprojekt von KAUST, der Chinese University of Hong Kong Shenzhen (CUHKSZ) und dem Shenzhen Research Institute of Big Data (SRIBD) – kein reines KAUST-Modell. Es bietet 7B- und 13B-Varianten (Base und Chat) auf Basis von LLaMA-2 unter Apache 2.0. Bei seinem Start 2023 übertraf es Jais bei arabischen Aufgaben, aber sein letztes GitHub-Update stammt von Dezember 2023, betrachten Sie es daher als nicht gepflegt.
Qwen2.5 ist die stärkste mehrsprachige Alternative für breite Sprachabdeckung, aber wie die Benchmarks zeigen, hinkt es trotz seines größeren Ökosystems bei kulturellen und dialektalen Aufgaben hinter arabisch-spezialisierten Modellen her.
Jais (13B/70B) ist der Vollständigkeit halber aufgeführt, beachten Sie jedoch, dass es aus den VAE stammt (Core42/G42, Abu Dhabi), nicht aus Saudi-Arabien. Es bleibt bei arabischen Dialektaufgaben konkurrenzfähig und steht unter Apache 2.0.
| Modell | Parameter | VRAM (Q4_K_M) | Lizenz | Ollama | Arabische Bewertung |
|---|---|---|---|---|---|
| ALLaM 7B | 7B | 6–8 GB | Apache 2.0 | Ja (GGUF) | 72–74% (AraLingBench) |
| ALLaM 34B | 34B | ~20 GB | Proprietär | Nein (keine öffentlichen Gewichte) | Nicht öffentlich gebenchmarkt |
| AceGPT 7B | 7B | 6–8 GB | Apache 2.0 | Community-Port | Stark zum Start (2023) |
| AceGPT 13B | 13B | 10–14 GB | Apache 2.0 | Community-Port | Stark zum Start (2023) |
| Qwen2.5 7B | 7B | 6–8 GB | Apache 2.0 | Ja | 40–62% (AraLingBench) |
| Qwen2.5 72B | 72B | 40–48 GB | Apache 2.0 | Ja | Höher, aber kulturelle Lücken bleiben |
| Jais 13B (VAE) | 13B | 10–14 GB | Apache 2.0 | Eingeschränkt | Konkurrenzfähig beim Dialekt |
ALLaM 7B lokal mit Ollama betreiben
ALLaM 7B wird als GGUF-Quantisierungen auf Hugging Face ausgeliefert, sodass Sie es in Ollama mit einem einzeiligen Modelfile betreiben können. Folgen Sie diesen Schritten.
- Alternative – llama.cpp direkt: llama-cli -m ALLaM-7B-Instruct-Q4_K_M.gguf --chat-template chatml -p "أكمل الجملة التالية:" für maximale Kontrolle über Kontextlänge und Sampling.
- AceGPT über Community-Port: ollama run salmatrafi/acegpt ruft den von der Community gepflegten AceGPT-Port ab, falls Sie vergleichen möchten.
- Mindesthardware: eine GPU mit 8 GB VRAM (RTX 3070/4060 oder besser) oder Apple Silicon mit 16 GB Unified Memory. Dimensionieren Sie größere Modelle mit dem VRAM-Rechner.
- 1Laden Sie das GGUF von Hugging Face herunter
Why it matters: Besuchen Sie humain-ai/ALLaM-7B-Instruct-preview auf Hugging Face, durchsuchen Sie die Quantisierungen und laden Sie ALLaM-7B-Instruct-Q4_K_M.gguf herunter (empfohlen, ~4.5 GB) – die beste Balance zwischen Qualität und Größe für eine 8-GB-GPU. - 2Installieren Sie Ollama
Why it matters: Laden Sie Ollama von ollama.com für Ihr Betriebssystem herunter. Sie benötigen etwa 6–8 GB VRAM auf einer NVIDIA-GPU oder 16 GB Unified Memory auf Apple Silicon, um ein 7B-Modell komfortabel zu betreiben. - 3Erstellen Sie ein Modelfile
Why it matters: Erstellen Sie eine reine Textdatei namens Modelfile mit einer einzigen Zeile: FROM ./ALLaM-7B-Instruct-Q4_K_M.gguf – dies teilt Ollama mit, wo die Gewichte zu finden sind. - 4Registrieren Sie das Modell bei Ollama
Why it matters: Führen Sie aus: ollama create allam-7b -f Modelfile. Ollama importiert das GGUF und stellt es als benanntes Modell bereit, das Sie wiederholt aufrufen können. - 5Führen Sie die Inferenz auf Arabisch aus
Why it matters: Führen Sie aus: ollama run allam-7b "اشرح مفهوم الذكاء الاصطناعي المحلي" (Erklären Sie das Konzept der lokalen KI). Das Modell antwortet im modernen Hocharabisch. - 6Überprüfen und steuern Sie die arabische Ausgabe
Why it matters: Wenn das Modell auf Englisch antwortet, fügen Sie einen System-Prompt wie "أجب دائماً باللغة العربية الفصحى" (Antworte immer im modernen Hocharabisch) hinzu, um Register und Sprache festzulegen.
So bewerten Sie die Qualität arabischer Modelle selbst
Benchmarks sind ein Ausgangspunkt, aber Sie sollten jedes arabische Modell vor dem Einsatz gegen Ihre eigene Domäne testen. Verwenden Sie diese Prüfungen.
- MSA- vs. Dialekt-Konsistenz: Senden Sie denselben Prompt im modernen Hocharabisch und im Golf-Dialekt und prüfen Sie, ob das Modell Register und Bedeutung über beide hinweg beibehält.
- Test des kulturellen Kontexts: Fragen Sie nach saudischen kulturellen Praktiken, Prinzipien der islamischen Finanzwirtschaft oder formellen Anredekonventionen – und prüfen Sie, ob die Einrahmung angemessen ist, nicht nur grammatikalisch gültig.
- Genus-Kongruenz-Test: Bitten Sie das Modell, eine Ärztin und einen Ingenieur zu beschreiben, und überprüfen Sie die korrekte arabische grammatikalische Genus-Kongruenz bei Verben, Adjektiven und Pronomen.
- Formalitäts-Kalibrierung: Fordern Sie einen formellen Brief und dann eine lockere Nachricht an – ein gutes Modell passt das Register an; ein schwaches verwendet für beide denselben Tonfall.
- Benchmark-Proxys: Verwenden Sie AraLingBench (morphologisches und syntaktisches Denken) und AraDiCE (kulturelles Bewusstsein und Dialekt) als veröffentlichte Referenzpunkte beim Vergleich von Modellen.
- Warnsignale: Antworten in lateinischer Schrift auf arabische Prompts, das falsche Dialektregister oder eine kulturell unangemessene Einrahmung religiöser Themen signalisieren alle eine schlechte Eignung.
- Praktische Regel: Testen Sie für jeden kundenorientierten arabischen Anwendungsfall mit mindestens 20 domänenspezifischen Prompts, bevor Sie ihn einsetzen – Benchmark-Werte erfassen Ihre spezifischen Inhalte nicht.
Häufig gestellte Fragen: Arabische lokale LLMs
Was ist ALLaM und wer hat es entwickelt?
ALLaM ist eine Familie arabischer Sprachmodelle, die vom National Center for AI (NCAI) bei SDAIA in Partnerschaft mit IBM entwickelt wurde und nun über HUMAIN kommerzialisiert wird, ein KI-Unternehmen im Besitz des Public Investment Fund. Die 7B-Instruct-Version ist öffentlich unter Apache 2.0 verfügbar; größere Varianten mit 13B, 34B und 70B existieren, aber nur das 7B hat offene Gewichte.
Kann ich ALLaM lokal betreiben?
Ja – das Modell ALLaM 7B Instruct hat GGUF-Quantisierungen auf Hugging Face, die direkt in Ollama und llama.cpp auf einer GPU mit etwa 8 GB VRAM oder Apple Silicon mit 16 GB Unified Memory laufen. Das 34B, das HUMAIN Chat antreibt, ist proprietär und kann nicht selbst gehostet werden.
Was ist AceGPT und wird es noch gepflegt?
AceGPT ist ein arabisches Modell, das gemeinsam von KAUST, CUHKSZ und SRIBD entwickelt wurde und 7B- sowie 13B-Varianten unter Apache 2.0 bietet. Bei seinem Start 2023 übertraf es Jais, aber sein letztes GitHub-Update stammt von Dezember 2023, sodass es nicht mehr gepflegt erscheint – nutzbar, aber nicht aktiv weiterentwickelt.
Wie schneidet ALLaM im Vergleich zu Qwen beim Arabischen ab?
Bei AraLingBench erreicht ALLaM-7B 72–74% gegenüber 40–62% für Qwen-Varianten – eine Lücke von 12–32 Prozentpunkten bei arabischen linguistischen Aufgaben. Qwen hat ein größeres Ökosystem und eine breitere mehrsprachige Abdeckung, aber ALLaM ist stärker bei arabisch-spezifischer Morphologie, Syntax und kulturellen Aufgaben.
Warum haben mehrsprachige Modelle Schwierigkeiten mit Arabisch?
Sie sind typischerweise grammatikalisch flüssig, aber kulturell und dialektal schwach. Die strikte Dialektgenauigkeit kann bei kleineren Modellen auf 0.016–0.078 fallen, und das Feinabstimmen eines mehrsprachigen Modells auf Arabisch verbessert oft die MSA-Qualität, während es die Dialektgenauigkeit verringert – ein dokumentiertes Paradox. Westlich-zentrierte Trainingsdaten führen zudem kulturelle Vorurteile dabei ein, wie Modelle islamischen und gesellschaftlichen Kontext behandeln.
Wie viel VRAM benötige ich für ein arabisches 7B-Modell?
Etwa 6–8 GB VRAM bei Q4_K_M-Quantisierung, wobei 8 GB oder mehr für eine komfortable Leistung empfohlen werden. Ein 13B-Modell benötigt 10–14 GB, ein 34B etwa 20–24 GB und ein 70B etwa 40–48 GB.
Ist Jais ein saudisches Modell?
Nein – Jais stammt aus den VAE, entwickelt von Core42/G42 in Abu Dhabi, nicht von einer saudischen Institution. Es ist hier aufgeführt, weil es ein leistungsfähiges arabisches Modell unter Apache 2.0 ist, das bei Dialektaufgaben konkurrenzfähig ist, aber es gehört nicht zur saudischen (ALLaM/AceGPT) Linie.
Sollte ich ALLaM 34B oder 7B verwenden?
Für den lokalen Einsatz verwenden Sie das 7B – das 34B ist proprietär und nicht selbst-hostbar. Beginnen Sie mit ALLaM 7B auf Ihrer eigenen Hardware, und wenn Sie die Leistungsfähigkeit des 34B benötigen, greifen Sie über das Produkt HUMAIN Chat darauf zu, anstatt herunterladbare Gewichte zu erwarten.
Wie teste ich, ob ein Modell saudisches Arabisch korrekt behandelt?
Führen Sie MSA-versus-Dialekt-Konsistenz-Prompts aus, fragen Sie nach saudischen kulturellen Praktiken und islamischer Finanzwirtschaft und testen Sie die grammatikalische Genus-Kongruenz (z. B. die Beschreibung einer Ärztin und eines Ingenieurs). Achten Sie auf Antworten in lateinischer Schrift, das falsche Dialektregister oder eine kulturell unangemessene Einrahmung und validieren Sie mit mindestens 20 domänenspezifischen Prompts vor dem Einsatz.
Was ist HUMAIN?
HUMAIN ist ein saudisches KI-Unternehmen, das vollständig im Besitz des Public Investment Fund ist und im Mai 2025 gegründet wurde. Es kommerzialisiert ALLaM und betreibt HUMAIN Chat. Es ist eine von SDAIA getrennte Einheit, hat aber die ALLaM-Modelle vom National Center for AI von SDAIA übernommen; Aramco erwarb später eine Minderheitsbeteiligung.
Unterliegt die lokale Nutzung von ALLaM der DSGVO?
Wenn personenbezogene Daten aus Deutschland oder der EU verarbeitet werden, gilt die DSGVO unabhängig vom verwendeten Modell. Ein lokaler Einsatz hält die Daten auf Ihrer eigenen Infrastruktur, was die Compliance stärkt, da keine Daten an Drittanbieter-APIs abfließen. Für sensible Kontexte sollten Sie sich am BSI-Grundschutz orientieren, um technische und organisatorische Maßnahmen abzusichern.
Ist ALLaM für deutschsprachige Unternehmen mit Nahost-Präsenz geeignet?
Ja – insbesondere für Mittelstandsunternehmen mit Geschäftstätigkeit in Saudi-Arabien oder am Golf, mit arabischsprachigem Kundenkontakt und Bedarf an formeller arabischer Kommunikation. Eine arabische KI vor Ort (on-premises) bietet zudem Compliance-Vorteile, da sensible Daten das eigene Haus nicht verlassen.
Quellen
- Hugging Face – humain-ai/ALLaM-7B-Instruct-preview (Modellkarte, GGUF-Quantisierungen) – huggingface.co
- AraLingBench – arabischer linguistischer Benchmark (arXiv 2511.14295) – arxiv.org
- Landscape of Arabic LLMs – Übersichtsarbeit (arXiv 2506.01340) – arxiv.org
- AraDiCE – arabische Dialekt- und Kulturbewertung, COLING 2025 (arXiv 2409.11404) – arxiv.org
- HUMAIN-Chat-Start mit ALLaM 34B – Middle East AI News – middleeastainews.com
- Saudisches Kabinett – 2026 zum Jahr der künstlichen Intelligenz erklärt – spa.gov.sa