快速回答
在 Android 上运行本地 LLM 的最佳应用是 MLC Chat、Pocketpal 和 Termux + Ollama。MLC Chat 对初学者最简单。所有应用均可完全离线运行。
更新于: 2026-05
关键要点
截至 2026 年 5 月,在 Android 上运行本地 LLM 有三种实用方法:MLC Chat(Machine Learning Compilation)、Pocketpal AI 和 Termux + Ollama。 三种方式在初始模型下载后均可 100% 离线运行——无需 API 密钥或网络连接。
MLC Chat 使用 MLC-LLM 编译框架将模型权重预优化为适合移动硬件的格式。您从 Google Play 下载,选择支持的模型(Llama 3、Gemma、Phi),模型直接在设备上下载并运行。安装配置不到 10 分钟。
Pocketpal AI 由 Hugging Face 社区开发,支持直接从 Hugging Face 加载 GGUF 模型文件。这意味着您可以运行任何兼容 GGUF 的模型,而不仅仅是预定义列表。代价是需要手动选择和下载模型,配置稍微复杂一些。
| 应用 | 安装难度 | 模型灵活性 |
|---|---|---|
| MLC Chat | 简单(Play Store) | 仅预优化模型 |
| Pocketpal | 中等 | GGUF from Hugging Face |
| Termux + Ollama | 高级(CLI) | 完整Ollama库 |
如果这是您第一次配置 Android LLM,请从 MLC Chat 开始——它的首个 token 生成速度最快,配置最少。 Pocketpal 是想频繁切换模型的用户的进阶选择。Termux + Ollama 适合已熟悉 Ollama 并希望在移动端使用相同 CLI 工作流的开发者。
配备 8+ GB 内存的 Android 旗舰机在 CPU 上处理 2–3B 模型可达 4–8 tok/s。2023–2024 年的中端手机较慢(1–3 tok/s)——适合批量任务,但实时对话体验较差。内存低于 8 GB 的设备不要尝试运行 7B 模型。
Termux + Ollama 是最强大的选项,但安装难度最高。 您从 F-Droid 安装 Termux,然后在终端中运行 pkg install ollama。安装后,所有标准 Ollama 命令均可使用,包括 ollama pull 和 ollama run。这种方式最适合已在桌面使用 Ollama 的开发者。
电池消耗在 7B 及以上模型时需要关注。在旗舰手机上使用 Llama 3 8B Q4 进行 30 分钟对话平均消耗 8–12% 电量。频繁使用时请插电,或选择 Phi-3 Mini 和 Gemma 2B 等耗电更少的 2–3B 模型。
有关在 Android 上运行 LLM 的完整指南(包括硬件要求和模型推荐),请参阅Android最佳本地LLM应用指南。
pkg update && pkg install ollama。然后使用标准 Ollama 命令:ollama pull llama3 和 ollama run llama3。设备需要 8+ GB 内存才能稳定运行。