主页/本地LLM/ALLaM、AceGPT 及最佳沙特阿拉伯语本地大模型 (2026)

Best Models

ALLaM、AceGPT 及最佳沙特阿拉伯语本地大模型 (2026)

最后更新: 2026年6月14日·阅读约11分钟·Hans Kuepper 作者 · PromptQuorum创始人，多模型AI调度工具 · PromptQuorum

选择语言:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

对于沙特阿拉伯的阿拉伯语本地 AI，ALLaM 7B (HUMAIN/NCAI，Apache 2.0) 是领先的公开可用模型——在 AraLingBench 上得分 72–74%，而 Qwen 各变体仅为 40–62%——并且它可以使用其 GGUF 权重通过 Ollama 在本地运行。AceGPT 7B/13B (KAUST + CUHKSZ) 是一个替代方案，但自 2023 年 12 月以来似乎已无人维护。

沙特阿拉伯以 AI 为先的雄心——包括 HUMAIN 的 ALLaM 模型以及 2026 年官方的“人工智能年”——正在催生新一代阿拉伯语原生本地大模型。但为阿拉伯语工作负载选择模型不仅仅是参数量的问题：来自全球厂商的多语言模型尽管在语法上流畅，但在文化和方言任务上的得分却显著低于阿拉伯语专用模型。本指南涵盖 ALLaM (HUMAIN/NCAI)、AceGPT (KAUST + CUHKSZ) 以及顶级多语言替代方案——附有经过验证的基准测试数据、VRAM 需求，以及使用 Ollama 在本地运行 ALLaM 的分步指南。

关键要点

ALLaM 7B 是最佳的公开可自托管阿拉伯语模型——由 SDAIA 下属的 NCAI 构建 (现归 HUMAIN)，以 Apache 2.0 发布，其 GGUF 权重可直接在 Ollama 和 llama.cpp 中运行。
基准测试差距是真实存在的： ALLaM-7B 在 AraLingBench 上得分 72–74%，而 Qwen 各变体得分 40–62%——在阿拉伯语语言任务上存在 12–32 个百分点的差距。
AceGPT (KAUST + CUHKSZ + SRIBD) 是一个 7B/13B 的 Apache 2.0 替代方案， 但其最后一次 GitHub 更新是在 2023 年 12 月——应视为无人维护。
文化保真度 ≠ 语法流畅度。 全球训练的模型可能语法正确却在文化上有误；在阿拉伯语上微调多语言模型往往会*提升* MSA 质量，同时*降低*方言准确度——这是一个有据可查的悖论。
VRAM 速查 (Q4_K_M)： 7B ≈ 6–8 GB，13B ≈ 10–14 GB，34B ≈ 20–24 GB，70B ≈ 40–48 GB。
ALLaM 34B 是专有的——它为 HUMAIN Chat 提供支持，但没有公开权重，因此目前只有 7B 可自托管。
国家层面的势头： 沙特阿拉伯宣布 2026 年为人工智能年，加速了阿拉伯语模型的开发。

📍 简单一句话

ALLaM 7B (Apache 2.0，支持 Ollama) 是领先的公开可自托管阿拉伯语模型，在 AraLingBench 上得分 72–74%，而 Qwen 各变体仅为 40–62%。

💬 简单来说

如果你需要一个能在自己电脑上运行的阿拉伯语 AI，目前来自沙特阿拉伯的 ALLaM 7B 是最佳的免费选择。像 Qwen 这样的大型全球模型理解阿拉伯语语法，但往往会忽略文化和方言。

为何阿拉伯语文化保真度对本地 AI 至关重要

一个模型可以生成语法正确的阿拉伯语，但在文化上仍然有误——而对于沙特阿拉伯面向客户或政府的工作而言，文化正确性才是关键所在。

基准测试证据是一致的。 在测试阿拉伯语形态学和句法推理的 AraLingBench 上，Qwen 系列模型得分 40–62%，而像 ALLaM-7B 这样的阿拉伯语专用模型得分 72–74%。这 12–32 个百分点的差距恰恰集中在阿拉伯语与全球模型所优化的欧洲语言差异最大的领域——形态学、句法和语域。

微调并非免费的解决方案。 关于阿拉伯语大模型生态的研究 (arXiv 2506.01340，2026) 记录了一个悖论：在阿拉伯语数据上微调多语言模型往往会提升现代标准阿拉伯语 (MSA) 质量，同时*降低*方言准确度。你无法简单地把阿拉伯语能力嫁接到全球模型上并期望获得方言保真度。

方言处理是全球模型最明显崩溃的地方。 对于较小的开放权重模型，严格的 ISO 代码方言准确度可能低至 0.016–0.078——意味着模型生成的是*错误*方言的流畅阿拉伯语。AraDiCE 基准测试 (COLING 2025) 发现阿拉伯语专用模型在方言上优于多语言模型，尽管所有模型在方言识别和生成方面仍存在重大挑战。

文化和宗教语境是一个有据可查的薄弱环节。 同一项综述指出，以西方为中心或多语言的训练数据“引入了文化偏见，可能使模型与阿拉伯语社区的价值观和期望相背离”——影响模型对伊斯兰主题、正式称谓和社会惯例的处理方式。

语法性别一致 是一个已知且持续存在的挑战：阿拉伯语对动词、形容词和代词应用性别一致的方式在结构上不同于欧洲语言，而全球训练的模型常常在这方面犯下细微的错误。

对沙特部署的业务影响： 如果你的用例涉及面向客户的阿拉伯语内容、正式往来函件，或任何触及文化或宗教语境的事务，那么阿拉伯语专用模型值得这一权衡——并且 MSA 与海湾方言的区别应成为你模型选择中明确的一部分。

沙特与阿拉伯语本地模型：ALLaM、AceGPT 及多语言替代方案

ALLaM 7B 是自托管阿拉伯语 AI 推荐的起点；下表总结了实际可行的选项。

ALLaM 由 SDAIA 的国家人工智能中心 (NCAI) 与 IBM 合作构建，现通过 HUMAIN 进行商业化——HUMAIN 是一家由 Public Investment Fund 拥有、于 2025 年 5 月成立的 AI 公司。该系列涵盖 7B、13B、34B 和 70B 变体，但只有 7B Instruct 是公开可用的 (Apache 2.0，在 Hugging Face 上提供九种 GGUF 量化版本)。为 HUMAIN Chat 提供支持的 34B 是专有的，没有公开权重。

AceGPT 是 KAUST、香港中文大学 (深圳)(CUHKSZ) 和深圳市大数据研究院 (SRIBD) 的联合项目——并非仅由 KAUST 开发的模型。它提供基于 LLaMA-2 构建的 7B 和 13B 变体 (基础版和聊天版)，采用 Apache 2.0。在其 2023 年发布时，它在阿拉伯语任务上的表现优于 Jais，但其最后一次 GitHub 更新是在 2023 年 12 月，因此应视为无人维护。

Qwen2.5 是在广泛语言覆盖方面最强的多语言替代方案，但正如基准测试所示，尽管它拥有更大的生态系统，但在文化和方言任务上仍落后于阿拉伯语专用模型。

Jais (13B/70B) 为完整起见列入，但请注意它是 阿联酋出身 (Core42/G42，阿布扎比)，而非沙特。它在阿拉伯语方言任务上仍具竞争力，并采用 Apache 2.0。

模型	参数	VRAM (Q4_K_M)	许可证	Ollama	阿拉伯语得分
ALLaM 7B	7B	6–8 GB	Apache 2.0	是 (GGUF)	72–74% (AraLingBench)
ALLaM 34B	34B	~20 GB	专有	否 (无公开权重)	无公开基准测试
AceGPT 7B	7B	6–8 GB	Apache 2.0	社区移植版	发布时表现强劲 (2023)
AceGPT 13B	13B	10–14 GB	Apache 2.0	社区移植版	发布时表现强劲 (2023)
Qwen2.5 7B	7B	6–8 GB	Apache 2.0	是	40–62% (AraLingBench)
Qwen2.5 72B	72B	40–48 GB	Apache 2.0	是	更高，但文化差距仍存在
Jais 13B (阿联酋)	13B	10–14 GB	Apache 2.0	有限	方言上有竞争力

AraLingBench 得分对比：ALLaM 7B 得分 72–74%，而 Qwen2.5 7B 为 40–62%——在阿拉伯语语言任务上差距最高达 32 个百分点。

使用 Ollama 在本地运行 ALLaM 7B

ALLaM 7B 以 GGUF 量化版本的形式在 Hugging Face 上发布，因此你可以用一行 Modelfile 在 Ollama 中运行它。 请按照以下步骤操作。

替代方案——直接使用 llama.cpp： llama-cli -m ALLaM-7B-Instruct-Q4_K_M.gguf --chat-template chatml -p "أكمل الجملة التالية:"，可对上下文长度和采样进行最大程度的控制。
通过社区移植版使用 AceGPT： ollama run salmatrafi/acegpt 会拉取社区维护的 AceGPT 移植版，供你进行比较。
最低硬件要求： 8 GB VRAM 的 GPU (RTX 3070/4060 或更高) 或配备 16 GB 统一内存的 Apple Silicon。使用 VRAM 计算器来评估更大模型的需求。

1
从 Hugging Face 下载 GGUF
Why it matters: 访问 Hugging Face 上的 humain-ai/ALLaM-7B-Instruct-preview，浏览量化版本，并下载 ALLaM-7B-Instruct-Q4_K_M.gguf (推荐，~4.5 GB)——这是 8 GB GPU 上质量与体积的最佳平衡。
2
安装 Ollama
Why it matters: 从 ollama.com 下载适合你操作系统的 Ollama。要舒适地运行 7B 模型，你需要 NVIDIA GPU 上约 8 GB 的 VRAM，或 Apple Silicon 上 16 GB 的统一内存。
3
创建 Modelfile
Why it matters: 创建一个名为 Modelfile 的纯文本文件，其中包含一行：FROM ./ALLaM-7B-Instruct-Q4_K_M.gguf——这会告诉 Ollama 在哪里找到权重。
4
向 Ollama 注册模型
Why it matters: 运行：ollama create allam-7b -f Modelfile。Ollama 会导入该 GGUF，并将其作为一个可反复调用的命名模型提供。
5
用阿拉伯语运行推理
Why it matters: 运行：ollama run allam-7b "اشرح مفهوم الذكاء الاصطناعي المحلي" (解释本地 AI 的概念)。模型会以现代标准阿拉伯语回应。
6
验证并引导阿拉伯语输出
Why it matters: 如果模型用英语回复，请添加一个系统提示词，例如 "أجب دائماً باللغة العربية الفصحى" (始终用现代标准阿拉伯语回答)，以锁定语域和语言。

按规模划分的本地 LLM 在 Q4_K_M 量化下的 VRAM 需求：7B 模型需要 6–8 GB，13B 需要 10–14 GB，34B 需要 20–24 GB，70B 需要 40–48 GB。

如何自行评估阿拉伯语模型质量

基准测试是一个起点，但在部署之前，你应该针对自己的领域测试任何阿拉伯语模型。请使用以下检查项。

MSA 与方言一致性： 用现代标准阿拉伯语和海湾方言发送相同的提示词，检查模型是否能在两者间保持语域和含义。
文化语境测试： 询问有关沙特文化习俗、伊斯兰金融原则或正式称谓惯例的问题——并检查其表述是否得体，而不仅仅是语法上有效。
性别一致测试： 让模型描述一位女医生和一位男工程师，并验证动词、形容词和代词上的阿拉伯语语法性别一致是否正确。
正式度校准： 请求一封正式信函，然后请求一条随意的消息——好的模型会调整语域；差的模型对两者使用相同的语气。
基准代理指标： 在比较模型时，将 AraLingBench (形态学和句法推理) 和 AraDiCE (文化意识和方言) 作为已发布的参考点。
危险信号： 对阿拉伯语提示词的拉丁字母回应、错误的方言语域，或对宗教主题在文化上不得体的表述，都表明匹配不佳。
实用规则： 对于任何面向客户的阿拉伯语用例，在部署之前至少用 20 条特定领域的提示词进行测试——基准分数无法体现你的特定内容。

常见问题：阿拉伯语本地大模型

ALLaM 是什么，由谁创建？

ALLaM 是一个阿拉伯语语言模型系列，由 SDAIA 的国家人工智能中心 (NCAI) 与 IBM 合作构建，现通过由 Public Investment Fund 拥有的 AI 公司 HUMAIN 进行商业化。7B Instruct 版本以 Apache 2.0 公开可用；存在更大的 13B、34B 和 70B 变体，但只有 7B 拥有开放权重。

我可以在本地运行 ALLaM 吗？

可以——ALLaM 7B Instruct 模型在 Hugging Face 上有 GGUF 量化版本，可在配备约 8 GB VRAM 的 GPU 或 16 GB 统一内存的 Apple Silicon 上直接在 Ollama 和 llama.cpp 中运行。为 HUMAIN Chat 提供支持的 34B 是专有的，无法自托管。

AceGPT 是什么，它是否仍在维护？

AceGPT 是由 KAUST、CUHKSZ 和 SRIBD 联合开发的阿拉伯语模型，提供 Apache 2.0 下的 7B 和 13B 变体。它在 2023 年发布时表现优于 Jais，但其最后一次 GitHub 更新是在 2023 年 12 月，因此似乎已无人维护——可以使用，但未在积极改进。

ALLaM 在阿拉伯语方面与 Qwen 相比如何？

在 AraLingBench 上，ALLaM-7B 得分 72–74%，而 Qwen 各变体为 40–62%——在阿拉伯语语言任务上存在 12–32 个百分点的差距。Qwen 拥有更大的生态系统和更广泛的多语言覆盖，但 ALLaM 在阿拉伯语特定的形态学、句法和文化任务上更强。

为什么多语言模型在阿拉伯语上表现挣扎？

它们通常语法流畅，但在文化和方言上薄弱。对于较小的模型，严格的方言准确度可能低至 0.016–0.078，而在阿拉伯语上微调多语言模型往往会提升 MSA 质量同时降低方言准确度——这是一个有据可查的悖论。以西方为中心的训练数据还在模型处理伊斯兰和社会语境的方式上引入了文化偏见。

7B 阿拉伯语模型需要多少 VRAM？

在 Q4_K_M 量化下约需 6–8 GB VRAM，推荐 8 GB 或更多以获得舒适的性能。13B 模型需要 10–14 GB，34B 约 20–24 GB，70B 约 40–48 GB。

Jais 是沙特模型吗？

不是——Jais 是阿联酋出身，由阿布扎比的 Core42/G42 开发，而非由沙特机构开发。之所以列在这里，是因为它是一个能力出色、采用 Apache 2.0 且在方言任务上具竞争力的阿拉伯语模型，但它不属于沙特 (ALLaM/AceGPT) 谱系。

我应该使用 ALLaM 34B 还是 7B？

对于本地部署，请使用 7B——34B 是专有的，无法自托管。从在你自己硬件上运行的 ALLaM 7B 开始，如果你需要 34B 的能力，请通过 HUMAIN Chat 产品来访问它，而不要期望获得可下载的权重。

我如何测试一个模型是否正确处理沙特阿拉伯语？

运行 MSA 与方言一致性的提示词，询问有关沙特文化习俗和伊斯兰金融的问题，并测试语法性别一致 (例如，描述一位女医生和一位男工程师)。留意拉丁字母回复、错误的方言语域，或文化上不得体的表述，并在部署前用至少 20 条特定领域的提示词进行验证。

HUMAIN 是什么？

HUMAIN 是一家由 Public Investment Fund 全资拥有的沙特 AI 公司，于 2025 年 5 月成立。它将 ALLaM 商业化并运营 HUMAIN Chat。它独立于 SDAIA，但继承了 SDAIA 国家 AI 中心（NCAI）的 ALLaM 模型；Aramco 后来收购了少数股权。

来源

Hugging Face —— humain-ai/ALLaM-7B-Instruct-preview (模型卡，GGUF 量化版本) —— huggingface.co
AraLingBench —— 阿拉伯语语言学基准 (arXiv 2511.14295) —— arxiv.org
Landscape of Arabic LLMs —— 综述 (arXiv 2506.01340) —— arxiv.org
AraDiCE —— 阿拉伯语方言与文化评估，COLING 2025 (arXiv 2409.11404) —— arxiv.org
HUMAIN Chat 基于 ALLaM 34B 发布 —— Middle East AI News —— middleeastainews.com
Saudi Cabinet —— 2026 年被宣布为人工智能年 —— spa.gov.sa

关于第三方事实的说明

本文引用了第三方AI模型、基准测试、价格和许可证。AI领域变化迅速。基准分数、许可条款、模型名称和API价格可能在写作时间和您阅读时之间发生变化。在根据本文做出部署或合规决策之前，请在每个提供商的官方来源核实当前数据：Hugging Face模型卡用于许可证和基准测试，提供商网站用于API定价，EUR-Lex用于当前GDPR和EU AI法案文本。本文反映截至2026年5月的公开可用信息。

使用本地LLM、您自己的API密钥或两者运行PromptQuorum — 您来决定使用哪个后端。

下载 PromptQuorum 测试版 →

← 返回本地LLM