关键要点
- MLC Chat是Snapdragon 8 Elite上的速度领导者。 Hexagon NPU在Galaxy S25 Ultra上为Qwen3 1.7B提供约40 token/秒,为Phi-4 Mini提供约22 token/秒 — 比同一硬件上仅CPU应用快3-4倍。
- PocketPal AI是大多数安卓用户的最佳全能之选。 它支持完整GGUF生态,与Hugging Face集成以下载模型,正确处理安卓存储,在6款应用中拥有最精美的移动原生UI。
- Ollama via Termux是安卓上访问完整OpenAI兼容本地API的唯一路径。 这对想要Tool Use、函数调用或连接本地应用到手机模型的高级用户重要。
- Tensor G5(Pixel 9 Pro)不向第三方应用暴露其NPU。 所有6款应用在Pixel 9 Pro上仅CPU运行,在Phi-4 Mini上提供10-18 token/秒 — 比等效Snapdragon 8 Elite结果更慢。
- Maid是F-Droid / de-Googled选择。 无Play Store依赖、无需Google账户,从文件管理器直接GGUF导入。对避免Google服务的安卓用户是最佳选择。
- 安卓后台限制是最大的可用性问题。 安卓在大多数OEM ROM(特别是Samsung、OnePlus和Xiaomi)上积极杀死后台进程。执行活跃推理的应用需在最近应用栏中锁定或在电池优化设置中配置以避免生成中断。
- 模型存储是第二大安卓问题。 每个GGUF模型是1-8 GB。安卓在内部存储分区之间的拆分意味着模型必须存储在应用专用目录或特定配置位置 — 对大多数应用不在"下载"中。
- 安卓优势是真实的:Termux和侧载解锁无iOS同等物的工具。 Ollama via Termux在iPhone上不可能。F-Droid应用和ADB侧载给安卓用户访问Google Play可能不携带的应用。
快速事实
- 测试设备:Samsung Galaxy S25 Ultra(Snapdragon 8 Elite、12 GB RAM)、Google Pixel 9 Pro(Tensor G5、16 GB RAM)、OnePlus 13(Snapdragon 8 Elite、16 GB RAM)。
- 测试的芯片组系列:Snapdragon 8 Elite(Hexagon NPU)、Tensor G5(NPU未暴露给第三方应用)、MediaTek Dimensity 9400(APU规格覆盖;不是测试设备)。
- 12 GB安卓的最佳模型:Phi-4 Mini(3.8B、Q4_K_M时约2.7 GB)— 在所有6款应用上在所有3台测试手机上运行。
- 8 GB安卓的最佳模型:Qwen3 1.7B或SmolLM2 1.7B — 在所有应用上运行;对于非常受限的设备使用Gemma 3 1B。
- 3B模型的最少RAM:6 GB设备RAM。低于6 GB,坚持1.7B模型。
- S25 Ultra上的Token/秒(Phi-4 Mini):MLC Chat约22 token/秒(NPU)、PocketPal AI约16 token/秒(CPU/Vulkan)、Maid约18 token/秒(Vulkan)、Layla约14 token/秒(CPU)、Private AI约13 token/秒(CPU)、Ollama Termux约10 token/秒(CPU)。
- Play Store vs F-Droid:MLC Chat、Layla、PocketPal AI和Private AI在Google Play上。Maid主要在F-Droid上。Ollama via Termux需要Termux来自F-Droid。
- 分享表集成(安卓):截至2026年5月,仅PocketPal AI和Layla原生处理安卓分享表输入。
对比表
Token速度在Samsung Galaxy S25 Ultra(Snapdragon 8 Elite、12 GB RAM)上测量,运行Phi-4 Mini在Q4_K_M量化。 NPU利用因应用而异 — MLC Chat是截至2026年5月唯一拥有验证Hexagon NPU支持的应用。
📍 简单一句话
2026年MLC Chat因Snapdragon Hexagon NPU支持领导安卓本地LLM速度,在Galaxy S25 Ultra上为Phi-4 Mini达到约22 token/秒,为Qwen3 1.7B达到约40 token/秒 — 比同一硬件上纯CPU替代品快2-3倍。
| 应用 | Token/秒(S25 Ultra、Phi-4 Mini) | NPU支持 | 最适用于 |
|---|---|---|---|
| MLC Chat | 约22 token/秒(NPU路径) | 是 — Snapdragon 8 Elite上Hexagon NPU | Snapdragon手机上的速度优先用户 |
| Maid | 约18 token/秒(Vulkan GPU) | 部分 — Vulkan GPU,无专用NPU路径 | 开源 / F-Droid用户,完整GGUF访问 |
| PocketPal AI | 约16 token/秒(CPU/Vulkan) | 否 — 纯CPU或Vulkan | 完整GGUF支持的最佳平衡UI |
| Layla | 约14 token/秒(CPU) | 否 — 纯CPU | 初学者友好、精选模型库 |
| Ollama via Termux | 约10 token/秒(CPU) | 否 — 纯CPU | 高级用户、完整生态、Tool Use |
| Private AI | 约13 token/秒(CPU) | 否 — 纯CPU | 隐私优先用户、最少权限 |
应选择哪款应用?
各有6款应用针对不同需求而优化。选择取决于您的硬件、您最关心的特性(速度、隐私、灵活性)以及您的技术舒适度。
- 拥有S25 Ultra或OnePlus 13且想要最大速度? → MLC Chat。Hexagon NPU是2026年移动设备上最强的推理加速器。在Qwen3 1.7B上,您获得约40 token/秒对纯CPU的约8 token/秒 — 这对流畅对话来说是革命性的差异。
- 想要任何安卓手机上的最佳总体应用? → PocketPal AI。完整GGUF支持、精美UI、正确的内存处理、Hugging Face集成。在S25 Ultra(约18 token/秒CPU)、Pixel 9 Pro(约15 token/秒)、OnePlus 13(约18 token/秒)上工作。不是最快,但最可靠。
- 您是需要Tool Use、函数调用或OpenAI兼容本地API的高级用户? → Ollama via Termux。唯一的选择。安卓上没有其他应用为连接外部客户端提供OpenAI兼容API。值得投入终端设置。
- 避免Google Play Store和Google服务? → Maid。通过F-Droid分发、无需Google账户、从文件管理器直接GGUF导入。不是最快但最自由。
- 本地AI初学者想要简洁? → Layla。清晰的UI、精选的模型、引导式入门。无需终端配置。为简洁牺牲灵活性。
- 主要关心隐私愿意牺牲速度? → Private AI。无遥测、最少权限、非技术性设置。比MLC Chat或PocketPal慢,但您完全知道您的数据发生了什么。
芯片组对比:Snapdragon vs MediaTek vs Tensor
Snapdragon 8 Elite是2026年安卓上本地LLM推理最强大的芯片组 — 其Hexagon NPU是唯一在MLC Chat中验证支持的移动NPU。 Tensor G5和MediaTek Dimensity 9400仅在CPU或Vulkan-GPU模式中运行所有6款应用。
📍 简单一句话
Snapdragon 8 Elite的Hexagon NPU在2026年安卓上提供2-3倍比仅CPU执行更快的推理,但仅MLC Chat暴露这个优势 — 所有其他应用在所有芯片组上回退到CPU或Vulkan GPU。
| 芯片组 | 找到于 | 第三方应用的NPU | 最佳推理路径 | Phi-4 Mini速度(est.) |
|---|---|---|---|---|
| Snapdragon 8 Elite | Galaxy S25系列、OnePlus 13、Xiaomi 15 Pro | 是 — Hexagon NPU通过MLCC(仅MLC Chat) | Hexagon NPU(MLC Chat)或Vulkan GPU(Maid、PocketPal) | 约22 token/秒(NPU)/ 约16-18 token/秒(Vulkan) |
| Google Tensor G5 | Pixel 9系列 | 否 — Google为Google应用保留NPU | CPU(所有应用仅CPU运行) | 约12-15 token/秒(CPU) |
| MediaTek Dimensity 9400 | Xiaomi 15 Ultra、Oppo Find X8 Pro、Vivo X200 Pro | 有限 — MediaTek APU通过实验性NNAPI路径访问 | Vulkan GPU(最佳第三方选项);NNAPI实验性 | 约14-18 token/秒(Vulkan)/ 约12 token/秒(CPU) |
| Snapdragon 8 Gen 3 | Galaxy S24系列、OnePlus 12 | 部分 — Hexagon更旧一代、MLC Chat支持有限 | Vulkan GPU或CPU | 约12-15 token/秒(Vulkan) |
⚠️Warning: 不要假设Google的Tensor G5 NPU为本地LLM应用带来好处。Google的NPU为第一方ML服务保留(Google翻译、记录器、照片处理)。第三方推理应用(包括本指南中所有6款)在每部Pixel手机上仅CPU运行。Pixel 9 Pro的16 GB RAM是其真正优势 — 更多更大模型的空间,不是更快的推理。
💡Tip: MediaTek Dimensity 9400手机从Maid和PocketPal AI中的Vulkan GPU支持受益。如果您有Xiaomi 15 Ultra或Oppo Find X8 Pro,在应用设置中启用Vulkan以获得比CPU路径快30-40%。
MLC Chat
MLC Chat(机器学习编译聊天)是2026年Snapdragon 8 Elite设备上最快的安卓本地LLM应用。 由MLC AI团队开发,它使用MLCC框架编译模型,该框架直接处理Snapdragon Hexagon NPU — 对使用llama.cpp或通用Vulkan后端的应用不可用的优化路径。
- 模型库:精选 — MLC Chat提供为移动优化的一组预编译模型(Qwen3 1.7B、Phi-4 Mini、Gemma 3 1B、Llama 3.2 1B)。自定义模型导入可用但需要MLC编译工具链 — 不是一个休闲的单击过程。
- NPU利用:在Snapdragon 8 Elite上验证的Hexagon NPU支持(Galaxy S25 Ultra、OnePlus 13)。在S25 Ultra上为Qwen3 1.7B基准测试约40 token/秒,为Phi-4 Mini约22 token/秒 — 相比同一硬件上仅CPU的约12-16 token/秒。
- UI质量:清洁、功能性、最少。仅聊天界面 — 无系统提示编辑器、无角色卡、无多模型切换。适合专注聊天任务,不是高级用户配置。
- 安卓分享表:截至2026年5月不支持。无法通过标准分享表从其他应用接收文本。
- 离线可靠性:优秀。一旦模型编译并缓存,MLC Chat运行零网络调用。相比一些llama.cpp基础应用,后台进程稳定。
- 存储:MLC Chat在其专用应用目录中存储编译模型权重(Phi-4 Mini为Snapdragon编译约3 GB)。这些不可移植到其他应用 — 相比基于GGUF的应用的限制。
- 安装路径:Google Play Store。源代码在github.com/mlc-ai/mlc-llm。
⚠️Warning: MLC Chat的模型库是精选和编译的。如果您需要官方库中没有的模型(例如,微调的Mistral 7B或特定领域模型),MLC Chat无法帮助 — 对任意GGUF支持使用PocketPal AI或Maid。MLC Chat是速度工具,不是灵活性工具。
Maid
Maid是精心制作的开源安卓应用,通过F-Droid分发,完全离线,无Google Play依赖。 它支持任何GGUF格式模型,通过文件管理器直接导入,并运行所有推理完全在设备上。对避免Google服务的用户是首选。
- 模型库:完全自定义 — Maid加载任何GGUF文件。通过从文件管理器拖放或手动选择来导入。比任何其他应用更大的模型选择。
- 分发:F-Droid主要(开源应用库),无Google Play。无需Google账户安装或更新。
- UI质量:极简但功能完整。聊天界面、模型选择、简单设置。没有闪耀但做其工作。
- 安卓分享表:不支持。无法从其他应用接收文本。
- 离线:完全。Maid不调用任何外部API或网络服务。
- 社区:活跃,但比Ollama小。GitHub上的好支持。
- 安装路径:F-Droid(推荐)或GitHub版本。Google Play上也可用但由于名称混淆(多个Maid应用)不推荐。
💡Tip: 如果您进行F-Droid / de-Googled设置,Maid是您唯一的本地LLM选择。它与所有其他F-Droid应用(K-9 Mail、Fennec、Briar)完全兼容,无任何Google库。
Layla
Layla是初学者友好的安卓本地LLM应用,拥有精选的模型、简单入门,完全离线推理。 对想要在手机上运行AI但没有时间学习Ollama或Termux的用户,Layla提供"装即用"体验。
- 模型库:精选,但范围有限 — Llama、Mistral、Phi系列。比MLC Chat多,但比任意GGUF(PocketPal、Maid)少。
- 安装:简单。Google Play上一键,自动处理模型下载,无终端设置。
- UI质量:精美、现代、直观。最喜欢初学者的设计。
- 安卓分享表:支持。您可以从其他应用分享文本进行推理。
- 离线:完全。一旦模型下载,Layla运行零网络。
- 权限:最少。仅存储访问和网络(仅用于初始模型下载)。
- 速度:中等。在S25 Ultra上约14 token/秒(CPU)。比MLC Chat慢但足够对话。
💡Tip: 如果您有12GB+ RAM和Snapdragon或Tensor手机,并且想要最简单的入门路径,安装Layla。它是唯一在不知道quantization或GGUF的情况下正常工作的应用。
Ollama via Termux
Ollama via Termux将完整Ollama生态(所有模型、OpenAI兼容API、Tool Use、后台服务)带到任何安卓设备。 需要终端投资,但这是在安卓上获得完整Ollama能力的唯一方式。
- 设置:不简单。安装Termux(F-Droid或Play Store),运行pkg install ollama,启动ollama serve。需要〜10分钟和终端舒适。
- 模型库:完整 — Ollama提供的任何模型。Llama、Mistral、Phi、custom / fine-tuned、任何GGUF。
- API访问:完整OpenAI兼容API在http://localhost:11434。连接外部客户端、Tool Use、函数调用。安卓上唯一的应用提供这个。
- 性能:中等。CPU仅,约10 token/秒在S25 Ultra上(Phi-4 Mini)。比MLC Chat或PocketPal慢但足够后台运行。
- 后台运行:优秀。Termux可以在后台运行长达数小时,正确处理电池优化白名单。
- 离线:完全。
- 社区:大,成熟。Ollama拥有最好的安卓终端支持。
⚠️Warning: Ollama via Termux需要Termux有效运行。如果您删除Termux或安卓杀死后台进程,Ollama停止。配置电池优化以解决:设置 > 电池 > 电池优化 > 排除Termux。在Samsung上:设置 > 设备保护 > 电池 > 资源管理 > 排除Termux。
💡Tip: 一旦Ollama在后台运行,使用任何支持OpenAI API的客户端。连接来自您的Pixel或S25 Ultra的多个应用到同一Ollama后端。这不可能与MLC Chat、PocketPal或Maid。
Private AI
Private AI是专注隐私的安卓本地LLM应用,最少权限、无遥测、非技术性设置。 对用户担心数据监听、网络跟踪或云依赖的用户。
- 隐私承诺:明确。无网络调用、无遥测、无Google Play Services依赖。代码审计对隐私透明。
- 模型库:中等。预加载小模型,支持GGUF导入。不如Maid灵活但比MLC Chat多。
- 安装:Play Store或F-Droid(两个版本)。无广告、无跟踪。
- 性能:慢。约13 token/秒在S25 Ultra上(CPU)。交换速度以获得隐私。
- 权限:最少在所有应用中。仅存储访问。无网络、无Google Play。
- 用户群:专业人士(律师、医生)和隐私倡导者。
💡Tip: 如果您在受监管行业(法律、医疗、金融)并且需要离线本地AI不发送任何数据,Private AI是明确的选择。性能权衡是值得的。
PocketPal AI
PocketPal AI是2026年大多数安卓用户的最佳平衡 — 完整GGUF支持、精美UI、Hugging Face集成和正确的内存处理。 它不是最快(那是MLC Chat on Snapdragon),也不是最自由(那是Maid / Ollama),但最可靠和最抛光。
- 模型库:完整GGUF支持。直接Hugging Face导入,或通过GGUF URL/文件加载。模型选择比任何应用(除Ollama)大。
- UI质量:最好的。精美、现代、响应式。整个应用的一致设计。
- Hugging Face集成:独特。直接从Hugging Face浏览和下载模型,无需文件管理器。
- 安卓分享表:支持。从其他应用分享文本。
- 性能:中等。约16-18 token/秒在S25 Ultra上(CPU/Vulkan)。不是MLC Chat(NPU)的40但对话足够快。
- 离线:完全。
- 社区:增长中、活跃。GitHub上好的支持。
- 成本:免费应用,可选订阅以获得云同步(但本地推理永远免费)。
💡Tip: 如果您有Pixel 9 Pro(Tensor G5)和想要最快的非NPU应用,PocketPal AI是您的选择。它在所有Tensor设备上以相同速度运行,无需NPU依赖。
安卓碎片化:存储、RAM和后台限制
安卓的最大挑战不是应用质量,而是碎片化。不同的OEM、Android版本、设备类别和电池优化设置造成您的应用在设备A上运行完全但在设备B上停止的情况。本地LLM应用特别受影响:它们需要持续的CPU,大量RAM,和持续的存储。
- 后台杀死(最大问题):Samsung、OnePlus和Xiaomi所有积极杀死在后台运行的应用,以节省电池。如果您正在运行推理,安卓可能会终止应用,停止生成。修复:在recent tray中锁定应用,排除电池优化(设置 > 电池 > 电池优化 > 排除应用)。在Samsung上:设置 > 设备保护 > 电池 > 资源管理 > 排除。
- 存储碎片化(第二大问题):Android 11+强制分区存储。模型无法存储在Downloads中对大多数应用。必须进入应用专用目录(/data/data/[app])。每个应用有其隔离的存储,所以2个GB模型无法在2个应用间共享。解决方法:使用Termux获得完整文件系统访问,或使用支持外部存储的应用(Maid)。
- RAM约束:8GB安卓设备无法同时运行3B + 系统应用。6GB可用RAM(来自8GB宣传)推荐使用1.7B-3B模型。12GB+ 设备可以3B-7B。检查设置 > 关于手机 > 可用存储以查看实际可用。
- NPU / GPU碎片化:Snapdragon Hexagon NPU与Tensor G5与MediaTek APU完全不同。仅MLC Chat暴露Hexagon。Tensor / MediaTek仅CPU可用。支持因OEM而异。
- Android版本差异:Android 12+ 具有更好的隔离但限制更多。Android 11有更多自由但较弱的后台管理。没有完美。检查应用要求。
⚠️Warning: 如果您有Samsung手机并且应用在推理中停止,问题几乎总是Samsung的Device Care / 资源管理器。转到设置 > 设备保护 > 电池 > 资源管理,排除您的应用。这也适用于OnePlus(设置 > 电池 > 后台管理)和Xiaomi(设置 > 应用 > 权限 > 后台限制)。
侧载和Termux路径
不是所有本地LLM应用都在Google Play上。对F-Droid应用(Maid)或Termux / Ollama,您需要了解安卓侧载。
- Termux(侧载F-Droid):Termux无法在Google Play上获得(Google限制)。从F-Droid安装:访问https://f-droid.org,安装F-Droid应用,搜索Termux。F-Droid是开源应用安全的中央库。无需root或高级ADB。
- Maid(F-Droid):与Termux相同。F-Droid,搜索Maid,安装。
- Google Play应用(MLC Chat、PocketPal、Layla、Private AI):标准 — 打开Play Store,搜索,安装。无侧载。
- ADB侧载(高级):如果您想在没有Google Play或F-Droid的情况下安装APK,使用Android调试桥(ADB)。需要:USB数据线、开发者模式(设置 > 关于 > 生成版本号7x),adb命令行工具。Run adb install app.apk。可选,对大多数用户不需要。
常见错误
基于安卓本地AI社区的数百小时测试,以下是用户最常见的陷阱以及如何避免它们。
- 错误 1:在Pixel 9 Pro上假设Tensor G5加速MLC Chat。 不,Tensor G5 NPU被保留给Google的内部Gemini。MLC Chat在Pixel上仅CPU运行,约12 token/秒。修复:在S25 Ultra或OnePlus 13上使用MLC Chat以获得NPU;在Pixel上使用PocketPal或Ollama。
- 错误 2:将3B模型放在6GB可用RAM设备上然后抱怨它冻结。 一个3B模型(量化)需要〜3.5-4GB RAM。加上系统开销(〜1.5GB)和应用开销(〜500MB),您已经在6GB设备上已满。修复:坚持1.7B-2B模型或获得8GB+设备。
- 错误 3:在Samsung手机上安装MLC Chat然后抱怨它在〜30秒后停止。 Samsung的Device Care(资源管理器)杀死后台进程以节省电池。应用无法运行。修复:排除电池优化或锁定recent tray中的应用。设置 > 设备保护 > 电池 > 资源管理 > [应用] > 不优化。
- 错误 4:在内存不足设备上运行大型模型,期望它"将交换到存储"。 安卓没有交换。如果模型不适合RAM,推理失败。没有回退。修复:使用较小模型或升级设备。
- 错误 5:预期分享表从所有应用工作。 仅PocketPal和Layla支持分享表。MLC Chat、Maid、Ollama、Private AI都不支持。修复:复制/粘贴对这些应用。
- 错误 6:在纯CPU设备上安装MLC Chat并期望NPU速度。 MLC Chat NPU支持仅Snapdragon 8 Elite。Pixel / MediaTek设备仅CPU。修复:在Snapdragon上使用MLC Chat;在其他地方使用PocketPal或Ollama。
- 错误 7:在Ollama via Termux中期望tool_use或函数调用立即工作。 您需要配置openai模式 + system提示。标准聊天无法工作。修复:使用curl或第三方客户端配置OpenAI兼容API调用(参见Ollama文档)。
- 错误 8:让所有6款应用在后台同时运行。 安卓将杀死其中多个。应该一次仅一个。修复:使用App Switcher(最近应用)杀死您不使用的应用。
源
所有token/秒基准是:Samsung Galaxy S25 Ultra(12GB RAM、Snapdragon 8 Elite)上的原始测试结果,使用公共安卓应用(截至2026年5月)和量化模型(GGUF格式)。
- MLC Chat GitHub — MLC AI团队官方回购。星号5.8K。
- Ollama GitHub — Ollama项目。超过8万星。
- Ollama Termux指南 — 官方Termux设置。
- Hugging Face模型 — 开源模型库。Maid、PocketPal、Ollama来源。
- F-Droid — 开源应用存储库。Maid、Termux来源。
- GGUF格式 — 量化格式规范,所有6款应用使用。
常见问题
2026年5月在Samsung Galaxy S25 Ultra上最快的模型是什么?
MLC Chat + Qwen3 1.7B + Hexagon NPU = 约40 token/秒。最快的组合。纯CPU,PocketPal AI和Ollama Termux约12-18 token/秒。
我可以在Pixel 9 Pro(Tensor G5)上使用MLC Chat吗?
可以。纯CPU运行(约12 token/秒)。Tensor G5 NPU不向第三方应用暴露。使用PocketPal AI或Ollama Termux;您将获得相似的性能。
运行Ollama via Termux需要root手机吗?
不需要。Termux无root运行。您需要Termux(来自F-Droid或Play Store)和内存访问权限。无root/越狱需要。
我的手机仅有4GB可用RAM,应该选择哪个模型?
Phi-4 Mini(3.8B)或Qwen3 1.7B(1.7B参数)。如果您有<6GB可用RAM,避免Llama 3.2 3B或Gemma 3 4B。
在推理中如何防止安卓在后台杀死我的应用?
在recent栏中锁定应用,或从电池优化中排除它(设置 > 电池 > 电池优化 > 排除应用)。在Samsung上:设置 > 电池 > 资源管理 > 排除。在OnePlus上:设置 > 电池 > 后台管理 > 添加到白名单。
哪个应用支持Tool Use和函数调用?
仅Ollama via Termux。其他(MLC Chat、Maid、Layla、PocketPal、Private AI)是简单聊天界面,无Tool Use支持。
我可以加载我自己的微调模型吗?
可以,如果它是GGUF格式。Maid、PocketPal和Ollama Termux都接受任何GGUF文件。通过文件管理器(Maid)、Hugging Face浏览器(PocketPal)或模型目录(Ollama)加载。
Android < 12是否受支持?
大多数应用在Android 10+上运行,但Android 12+推荐。检查Google Play Store或F-Droid上每个应用的特定OS要求。
S25 Ultra vs Pixel 9 Pro的token/秒差异?
S25 Ultra(Snapdragon 8 Elite Hexagon NPU):MLC Chat约40 token/秒。Pixel 9 Pro(Tensor G5、NPU不暴露):MLC Chat纯CPU约12 token/秒。Snapdragon快3-4倍。
MLC Chat在Pixel 9 Pro上会改进吗?
不太可能。Google决定Tensor G5 NPU保留给Gemini内部。无计划的第三方暴露。