重要なポイント
- ALLaM 7Bは公開されている中で最良のセルフホスト可能なアラビア語モデルです — NCAI/SDAIA (現在はHUMAIN傘下) によって構築され、Apache 2.0でリリースされ、Ollamaとllama.cppで直接実行できるGGUFの重みを備えています。
- ベンチマークの差は本物です: ALLaM-7BはAraLingBenchで72〜74%を記録する一方、Qwenバリアントは40〜62%です — アラビア語の言語タスクにおいて12〜32パーセンテージポイントの差があります。
- AceGPT (KAUST + CUHKSZ + SRIBD) は7B/13BのApache 2.0の代替案ですが、 最後のGitHub更新は2023年12月でした — メンテナンスされていないものとして扱ってください。
- 文化的忠実性 ≠ 文法的流暢性。 グローバルに訓練されたモデルは文法的に正しくても文化的に誤っている場合があります。マルチリンガルモデルをアラビア語でファインチューニングすると、MSAの品質が *向上* する一方で方言の精度が *低下* することがよくあります — 文書化されたパラドックスです。
- VRAMクイックリファレンス (Q4_K_M): 7B ≈ 6〜8 GB、13B ≈ 10〜14 GB、34B ≈ 20〜24 GB、70B ≈ 40〜48 GB。
- ALLaM 34Bはプロプライエタリです — HUMAIN Chatを支えていますが公開された重みがないため、現在セルフホスト可能なのは7Bのみです。
- 国家的な勢い: サウジアラビアは2026年を人工知能の年と宣言し、アラビア語モデルの開発を加速させています。
📍 一文で説明
ALLaM 7B (Apache 2.0、Ollama対応) は、公開されている中で最良のセルフホスト可能なアラビア語モデルであり、AraLingBenchで72〜74%を記録し、Qwenバリアントの40〜62%を上回ります。
💬 簡潔に説明
自分のコンピュータで実行できるアラビア語AIが必要なら、サウジアラビア発のALLaM 7Bが現時点で最良の無料の選択肢です。Qwenのような大規模なグローバルモデルはアラビア語の文法を理解しますが、文化や方言を見落とすことがよくあります。
ローカルAIにとってアラビア語の文化的忠実性が重要な理由
モデルは文法的に正しいアラビア語を生成しても文化的に誤っている場合があります — そしてサウジアラビアでの顧客向けまたは政府関連の業務では、文化的な正しさこそが重要です。
ベンチマークの証拠は一貫しています。 アラビア語の形態論的・構文的推論をテストするAraLingBenchでは、Qwenファミリーのモデルは40〜62%を記録する一方、ALLaM-7Bのようなアラビア語特化モデルは72〜74%を記録します。その12〜32パーセンテージポイントの差は、まさにアラビア語がグローバルモデルが最適化されているヨーロッパ言語と最も異なる領域 — 形態論、構文、レジスター — に集中しています。
ファインチューニングは無料の解決策ではありません。 アラビア語LLMの状況に関する研究 (arXiv 2506.01340、2026年) は、あるパラドックスを文書化しています。マルチリンガルモデルをアラビア語データでファインチューニングすると、現代標準アラビア語 (MSA) の品質が向上する一方で方言の精度が *低下* することがよくあります。グローバルモデルに単純にアラビア語能力を後付けして方言の忠実性を期待することはできません。
方言の処理こそ、グローバルモデルが最も顕著に破綻する領域です。 より小規模なオープンウェイトモデルでは、厳密なISOコードの方言精度が0.016〜0.078まで低下することがあります — つまりモデルは流暢なアラビア語を *誤った* 方言で生成するということです。AraDiCEベンチマーク (COLING 2025) は、アラビア語特化モデルが方言においてマルチリンガルモデルを上回ることを発見していますが、方言の識別と生成における重大な課題はすべてのモデルにわたって残っています。
文化的・宗教的文脈は文書化された弱点です。 同じ調査は、西洋中心またはマルチリンガルの訓練データが「アラビア語話者コミュニティの価値観や期待とモデルを乖離させる文化的バイアスを導入する」ことを指摘しています — これはモデルがイスラムのトピック、敬称、社会的慣習をどのように枠付けするかに影響します。
文法的な性の一致 は既知の根強い課題です。アラビア語はヨーロッパ言語とは構造的に異なる形で動詞、形容詞、代名詞に性の一致を適用し、グローバルに訓練されたモデルは日常的にこれを微妙に間違えます。
サウジ展開におけるビジネス上の含意: ユースケースが顧客向けのアラビア語コンテンツ、公式な書簡、または文化的・宗教的文脈に触れるものであれば、アラビア語特化モデルはトレードオフに値します — そしてMSA対湾岸方言の区別は、モデル選定の明示的な一部であるべきです。
サウジおよびアラビア語ローカルモデル: ALLaM、AceGPT、マルチリンガルの代替案
ALLaM 7Bはセルフホスト型アラビア語AIの推奨される出発点です。以下の表は現実的な選択肢をまとめたものです。
ALLaM はSDAIA内の国立AIセンター (NCAI) によってIBMとの提携で構築され、現在はHUMAIN — 2025年5月に立ち上げられたPublic Investment Fund所有のAI企業 — を通じて商業化されています。このファミリーは7B、13B、34B、70Bのバリアントにわたりますが、公開されているのは 7B Instruct のみです (Apache 2.0、Hugging Faceに9つのGGUF量子化版あり)。HUMAIN Chatを支える34Bは公開された重みのないプロプライエタリです。
AceGPT はKAUST、香港中文大学深圳校 (CUHKSZ)、深圳ビッグデータ研究院 (SRIBD) の共同プロジェクトです — KAUST単独のモデルではありません。LLaMA-2上に構築された7Bおよび13Bのバリアント (baseとchat) をApache 2.0で提供します。2023年のリリース時にはアラビア語タスクでJaisを上回りましたが、最後のGitHub更新は2023年12月だったため、メンテナンスされていないものとして扱ってください。
Qwen2.5 は幅広い言語カバレッジを持つ最も強力なマルチリンガルの代替案ですが、ベンチマークが示すように、より大きなエコシステムを持つにもかかわらず、文化的・方言的タスクではアラビア語特化モデルに後れを取ります。
Jais (13B/70B) は完全性のために含めていますが、これは UAE発 (Core42/G42、アブダビ) であり、サウジ発ではない点に注意してください。アラビア語方言タスクでは依然として競争力があり、Apache 2.0です。
| モデル | パラメータ | VRAM (Q4_K_M) | ライセンス | Ollama | アラビア語スコア |
|---|---|---|---|---|---|
| ALLaM 7B | 7B | 6–8 GB | Apache 2.0 | はい (GGUF) | 72–74% (AraLingBench) |
| ALLaM 34B | 34B | ~20 GB | プロプライエタリ | いいえ (公開された重みなし) | 公開ベンチマークなし |
| AceGPT 7B | 7B | 6–8 GB | Apache 2.0 | コミュニティ移植版 | リリース時に高性能 (2023) |
| AceGPT 13B | 13B | 10–14 GB | Apache 2.0 | コミュニティ移植版 | リリース時に高性能 (2023) |
| Qwen2.5 7B | 7B | 6–8 GB | Apache 2.0 | はい | 40–62% (AraLingBench) |
| Qwen2.5 72B | 72B | 40–48 GB | Apache 2.0 | はい | より高いが、文化的なギャップは残る |
| Jais 13B (UAE) | 13B | 10–14 GB | Apache 2.0 | 限定的 | 方言で競争力あり |
OllamaでALLaM 7Bをローカル実行する
ALLaM 7BはHugging FaceでGGUF量子化版として提供されているため、1行のModelfileでOllamaで実行できます。 以下の手順に従ってください。
- 代替手段 — llama.cppを直接使用: コンテキスト長とサンプリングを最大限制御するには、llama-cli -m ALLaM-7B-Instruct-Q4_K_M.gguf --chat-template chatml -p "أكمل الجملة التالية:" を使用します。
- コミュニティ移植版経由のAceGPT: 比較したい場合は、ollama run salmatrafi/acegpt でコミュニティがメンテナンスするAceGPT移植版を取得します。
- 最小ハードウェア: 8 GB VRAMのGPU (RTX 3070/4060以上) またはApple Siliconで16 GBの統合メモリ。より大きなモデルのサイズはVRAM計算ツールで見積もってください。
- 1Hugging FaceからGGUFをダウンロードする
Why it matters: Hugging Faceでhumain-ai/ALLaM-7B-Instruct-previewにアクセスし、量子化版を閲覧して、ALLaM-7B-Instruct-Q4_K_M.gguf (推奨、約4.5 GB) をダウンロードします — 8 GBのGPUにとって品質とサイズの最良のバランスです。 - 2Ollamaをインストールする
Why it matters: お使いのOS向けにollama.comからOllamaをダウンロードします。7Bモデルを快適に実行するには、NVIDIA GPUで約8 GBのVRAM、またはApple Siliconで16 GBの統合メモリが必要です。 - 3Modelfileを作成する
Why it matters: 次の1行を含むModelfileという名前のプレーンテキストファイルを作成します: FROM ./ALLaM-7B-Instruct-Q4_K_M.gguf — これによりOllamaに重みの場所が伝わります。 - 4モデルをOllamaに登録する
Why it matters: 次を実行します: ollama create allam-7b -f Modelfile。OllamaはGGUFをインポートし、繰り返し呼び出せる名前付きモデルとして利用できるようにします。 - 5アラビア語で推論を実行する
Why it matters: 次を実行します: ollama run allam-7b "اشرح مفهوم الذكاء الاصطناعي المحلي" (ローカルAIの概念を説明してください)。モデルは現代標準アラビア語で応答します。 - 6アラビア語の出力を検証して調整する
Why it matters: モデルが英語で応答する場合は、"أجب دائماً باللغة العربية الفصحى" (常に現代標準アラビア語で応答してください) のようなシステムプロンプトを追加して、レジスターと言語を固定します。
アラビア語モデルの品質を自己評価する方法
ベンチマークは出発点ですが、展開する前に任意のアラビア語モデルを自分のドメインに対してテストすべきです。以下のチェックを使用してください。
- MSA対方言の一貫性: 同じプロンプトを現代標準アラビア語と湾岸方言の両方で送り、モデルが両方でレジスターと意味を保持するかどうかを確認します。
- 文化的文脈テスト: サウジの文化的慣習、イスラム金融の原則、または公式な敬称の慣習について尋ね、その枠付けが文法的に有効なだけでなく適切かどうかを確認します。
- 性の一致テスト: モデルに女性医師と男性エンジニアを描写するよう求め、動詞、形容詞、代名詞における正しいアラビア語の文法的な性の一致を検証します。
- フォーマリティの調整: 公式な手紙、次にカジュアルなメッセージを依頼します — 優れたモデルはレジスターを調整しますが、弱いモデルは両方に同じトーンを使用します。
- ベンチマークの代理指標: モデルを比較する際に、公開された参照点としてAraLingBench (形態論的・構文的推論) とAraDiCE (文化的認識と方言) を使用します。
- 危険信号: アラビア語プロンプトに対するラテン文字の応答、誤った方言レジスター、または宗教的トピックの文化的に不適切な枠付けは、すべて適合性が低いことを示します。
- 実践的なルール: 顧客向けのアラビア語ユースケースでは、展開する前に少なくとも20個のドメイン固有のプロンプトでテストしてください — ベンチマークスコアはあなたの特定のコンテンツを捉えていません。
よくある質問: アラビア語ローカルLLM
ALLaMとは何で、誰が作成しましたか?
ALLaMは、SDAIA内の国立AIセンター (NCAI) によってIBMとの提携で構築されたアラビア語モデルのファミリーであり、現在はPublic Investment Fund所有のAI企業HUMAINを通じて商業化されています。7B InstructバージョンはApache 2.0で公開されています。より大きな13B、34B、70Bのバリアントが存在しますが、オープンウェイトを持つのは7Bのみです。
ALLaMをローカルで実行できますか?
はい — ALLaM 7B InstructモデルはHugging FaceにGGUF量子化版があり、約8 GBのVRAMを持つGPUまたは16 GBの統合メモリを持つApple Silicon上で、Ollamaとllama.cppで直接実行できます。HUMAIN Chatを支える34Bはプロプライエタリでありセルフホストできません。
AceGPTとは何で、まだメンテナンスされていますか?
AceGPTはKAUST、CUHKSZ、SRIBDによって共同開発されたアラビア語モデルで、Apache 2.0で7Bおよび13Bのバリアントを提供します。2023年のリリース時にはJaisを上回りましたが、最後のGitHub更新は2023年12月だったため、メンテナンスされていないように見えます — 使用可能ですが、積極的には改善されていません。
アラビア語においてALLaMはQwenとどう比較されますか?
AraLingBenchでは、ALLaM-7Bは72〜74%を記録し、Qwenバリアントの40〜62%を上回ります — アラビア語の言語タスクにおいて12〜32パーセンテージポイントの差があります。Qwenはより大きなエコシステムとより広いマルチリンガルカバレッジを持ちますが、ALLaMはアラビア語特有の形態論、構文、文化的タスクでより強力です。
なぜマルチリンガルモデルはアラビア語に苦戦するのですか?
それらは通常、文法的には流暢ですが文化的・方言的に弱いです。厳密な方言精度は小規模モデルでは0.016〜0.078まで低下することがあり、マルチリンガルモデルをアラビア語でファインチューニングすると、MSAの品質が向上する一方で方言の精度が低下することがよくあります — 文書化されたパラドックスです。西洋中心の訓練データも、モデルがイスラムや社会的文脈をどのように扱うかに文化的バイアスを導入します。
7Bのアラビア語モデルにはどのくらいのVRAMが必要ですか?
Q4_K_M量子化で約6〜8 GBのVRAM、快適なパフォーマンスのためには8 GB以上が推奨されます。13Bモデルは10〜14 GB、34Bは約20〜24 GB、70Bは約40〜48 GBが必要です。
Jaisはサウジのモデルですか?
いいえ — JaisはUAE発で、サウジの機関ではなくアブダビのCore42/G42によって開発されました。方言タスクで競争力のある有能なApache 2.0のアラビア語モデルであるためここに含めていますが、サウジ (ALLaM/AceGPT) の系譜の一部ではありません。
ALLaM 34Bと7Bのどちらを使うべきですか?
ローカル展開には7Bを使用してください — 34Bはプロプライエタリでセルフホストできません。まず自分のハードウェアでALLaM 7Bから始め、34Bの能力が必要な場合は、ダウンロード可能な重みを期待するのではなく、HUMAIN Chat製品を通じてアクセスしてください。
モデルがサウジアラビア語を正しく処理するかをどうテストすればよいですか?
MSA対方言の一貫性プロンプトを実行し、サウジの文化的慣習とイスラム金融について尋ね、文法的な性の一致 (例えば女性医師と男性エンジニアの描写) をテストします。ラテン文字の応答、誤った方言レジスター、または文化的に不適切な枠付けに注意し、展開する前に少なくとも20個のドメイン固有のプロンプトで検証してください。
HUMAINとは何ですか?
HUMAINは、Public Investment Fundが完全所有するサウジアラビアのAI企業で、2025年5月に設立されました。ALLaMを商用化し、HUMAIN Chatを運営しています。SDAIAとは別組織ですが、SDAIAの国立AIセンター(NCAI)からALLaMモデルを引き継ぎました。その後、Aramcoが少数株式を取得しました。
出典
- Hugging Face — humain-ai/ALLaM-7B-Instruct-preview (モデルカード、GGUF量子化版) — huggingface.co
- AraLingBench — アラビア語の言語ベンチマーク (arXiv 2511.14295) — arxiv.org
- Landscape of Arabic LLMs — 調査 (arXiv 2506.01340) — arxiv.org
- AraDiCE — アラビア語の方言・文化評価、COLING 2025 (arXiv 2409.11404) — arxiv.org
- HUMAIN ChatのALLaM 34Bでのローンチ — Middle East AI News — middleeastainews.com
- サウジ内閣 — 2026年を人工知能の年と宣言 — spa.gov.sa