Conclusiones clave
- MLC Chat es el líder en velocidad en Snapdragon 8 Elite. El NPU Hexagon entrega ~40 tok/seg en Qwen3 1.7B y ~22 tok/seg en Phi-4 Mini en el Galaxy S25 Ultra — 3–4× más rápido que las apps solo-CPU en el mismo hardware.
- PocketPal AI es la mejor opción general para la mayoría de usuarios de Android. Soporta el ecosistema GGUF completo, se integra con Hugging Face para descargar modelos, gestiona correctamente el almacenamiento de Android y tiene la interfaz nativa móvil más pulida de las seis apps.
- Ollama via Termux es el único camino hacia una API local completa compatible con OpenAI en Android. Esto importa para usuarios avanzados que quieren uso de herramientas, llamadas a funciones o la capacidad de conectar apps locales al modelo de su teléfono.
- Tensor G5 (Pixel 9 Pro) no expone su NPU a apps de terceros. Las seis apps corren solo-CPU en Pixel 9 Pro, entregando 10–18 tok/seg en Phi-4 Mini — más lento que el resultado equivalente en Snapdragon 8 Elite.
- Maid es la opción F-Droid / sin Google. Sin dependencia de Play Store, sin cuenta de Google requerida e importación GGUF directa desde el gestor de archivos. La mejor opción para usuarios de Android que evitan los servicios de Google.
- Los límites en segundo plano de Android son el mayor problema de usabilidad. Android elimina agresivamente los procesos en segundo plano en la mayoría de ROMs de fabricantes (especialmente Samsung, OnePlus y Xiaomi). Las apps que realizan inferencia activa necesitan estar fijadas en la bandeja de apps recientes o configuradas en los ajustes de optimización de batería para evitar interrupciones durante la generación.
- El almacenamiento de modelos es el segundo mayor problema de Android. Cada modelo GGUF ocupa 1–8 GB. La división de Android entre particiones de almacenamiento interno significa que los modelos deben almacenarse en el directorio privado de la app o en una ubicación configurada específicamente — no en "Descargas" para la mayoría de apps.
- La ventaja de Android es real: Termux y el sideloading desbloquean herramientas sin equivalente en iOS. Ollama via Termux no es posible en iPhone. Las apps de F-Droid y el sideloading con ADB dan a los usuarios de Android acceso a apps que Google Play puede no incluir.
Datos rápidos
- Dispositivos de prueba: Samsung Galaxy S25 Ultra (Snapdragon 8 Elite, 12 GB RAM), Google Pixel 9 Pro (Tensor G5, 16 GB RAM), OnePlus 13 (Snapdragon 8 Elite, 16 GB RAM).
- Familias de chipsets probadas: Snapdragon 8 Elite (NPU Hexagon), Tensor G5 (NPU no expuesto a apps de terceros), MediaTek Dimensity 9400 (especificaciones APU cubiertas; no es un dispositivo de prueba).
- Mejor modelo para Android de 12 GB: Phi-4 Mini (3.8B, ~2.7 GB en Q4_K_M) — funciona en las seis apps en los tres teléfonos de prueba.
- Mejor modelo para Android de 8 GB: Qwen3 1.7B o SmolLM2 1.7B — funciona en todas las apps; Gemma 3 1B para dispositivos muy limitados.
- RAM mínima para modelos 3B: 6 GB de RAM del dispositivo. Por debajo de 6 GB, usa modelos de 1.7B.
- Tokens/seg en S25 Ultra (Phi-4 Mini): MLC Chat ~22 tok/seg (NPU), PocketPal AI ~16 tok/seg (CPU/Vulkan), Maid ~18 tok/seg (Vulkan), Layla ~14 tok/seg (CPU), Private AI ~13 tok/seg (CPU), Ollama Termux ~10 tok/seg (CPU).
- Play Store vs F-Droid: MLC Chat, Layla, PocketPal AI y Private AI están en Google Play. Maid está principalmente en F-Droid. Ollama via Termux requiere Termux desde F-Droid.
- Integración con el panel compartir (Android): Solo PocketPal AI y Layla gestionan la entrada del panel compartir de Android de forma nativa a partir de mayo de 2026.
Tabla comparativa
Velocidades de tokens medidas en Samsung Galaxy S25 Ultra (Snapdragon 8 Elite, 12 GB RAM) ejecutando Phi-4 Mini con cuantización Q4_K_M. La utilización del NPU varía según la app — MLC Chat es la única app con soporte verificado de NPU Hexagon a partir de mayo de 2026.
📍 En una frase
MLC Chat lidera la velocidad de LLM local en Android en 2026 gracias al soporte del NPU Hexagon de Snapdragon, alcanzando ~22 tok/seg en Phi-4 Mini y ~40 tok/seg en Qwen3 1.7B en el Galaxy S25 Ultra — 2–3× más rápido que las alternativas solo-CPU en el mismo hardware.
| App | Tokens/seg (S25 Ultra, Phi-4 Mini) | Soporte NPU | Ideal para |
|---|---|---|---|
| MLC Chat | ~22 tok/seg (ruta NPU) | Sí — NPU Hexagon en Snapdragon 8 Elite | Usuarios que priorizan la velocidad en teléfonos Snapdragon |
| Maid | ~18 tok/seg (GPU Vulkan) | Parcial — GPU Vulkan, sin ruta NPU dedicada | Usuarios de código abierto / F-Droid, acceso GGUF completo |
| Layla | ~14 tok/seg (CPU) | No | Principiantes, descargas de modelos curados |
| Ollama via Termux | ~10 tok/seg (CPU) | No (solo CPU en la compilación estándar de Termux) | Usuarios avanzados, acceso a API, uso de herramientas |
| Private AI | ~13 tok/seg (CPU) | No | Usuarios que priorizan la privacidad, permisos mínimos |
| PocketPal AI | ~16 tok/seg (CPU/Vulkan) | Parcial — GPU Vulkan en dispositivos compatibles | La mayoría de usuarios — mejor interfaz + ecosistema GGUF completo |
💡Tip: En Pixel 9 Pro (Tensor G5), elimina MLC Chat del primer puesto — las seis apps corren solo-CPU ahí, y PocketPal AI y Maid destacan por calidad de interfaz. La ventaja del NPU desaparece por completo en Tensor G5 para apps de inferencia de terceros.
⚠️Warning: Las cifras de tok/seg de Layla y Private AI son estimaciones de la ruta CPU para Phi-4 Mini Q4_K_M. Las velocidades reales varían con el estado térmico — la inferencia sostenida en un teléfono caliente puede caer un 20–30% respecto a la cifra de arranque en frío.
¿Qué app deberías elegir?
La app correcta depende del chipset de tu dispositivo y de cuánto valoras la personalización frente a la simplicidad. Los usuarios de Android se dividen marcadamente entre quienes quieren una experiencia nativa pulida (PocketPal AI, Layla) y quienes quieren máximo control (Ollama via Termux, Maid). A diferencia de iPhone, Android permite ambas. Para comprender mejor cómo los tamaños de modelos se relacionan con los requisitos de RAM en diferentes dispositivos, consulta la guía de requisitos de VRAM →.
💬 En términos simples
Elige MLC Chat si tienes un teléfono Snapdragon 8 Elite y quieres la inferencia más rápida posible. Elige PocketPal AI si quieres la mejor app general con el mayor soporte de modelos y la interfaz más pulida. Elige Ollama via Termux si quieres una API de IA local completa en tu teléfono y te sientes cómodo con un terminal. Elige Maid si quieres una opción completamente de código abierto, distribuida por F-Droid, sin dependencia de Google. Elige Layla si eres nuevo en IA local y quieres descargas de modelos curados. Elige Private AI si la privacidad de datos y los permisos mínimos son tu principal preocupación.
- Teléfono Snapdragon 8 Elite (S25 Ultra, OnePlus 13): Empieza con MLC Chat. Si necesitas modelos que no están en la biblioteca de MLC Chat, añade PocketPal AI como tu segunda app — cubre el ecosistema GGUF completo con inferencia acelerada por Vulkan.
- Pixel 9 Pro (Tensor G5): La ventaja del NPU desaparece — PocketPal AI es la mejor opción por calidad de interfaz y amplitud de modelos. MLC Chat pasa a solo-CPU en Tensor G5, perdiendo su ventaja de velocidad.
- Cualquier Android, personalización primero: Ollama via Termux + un front-end de chat (Alpaca, Open WebUI en Chrome) es la configuración más capaz. Requiere ~30 minutos de trabajo en terminal pero da acceso a API compatible con OpenAI, uso de herramientas y toda la biblioteca de modelos de Ollama.
- Teléfono sin Google / privacidad: Maid desde F-Droid. Funciona en GrapheneOS, CalyxOS y otras versiones sin Google. Sin dependencia de Play Services.
- Teléfono con 8 GB de RAM: Cualquiera de las seis apps con Qwen3 1.7B o SmolLM2 1.7B. PocketPal AI gestiona el almacenamiento de modelos con mayor elegancia en dispositivos limitados.
- Samsung Galaxy (cualquier modelo): Ten en cuenta la eliminación agresiva de procesos en segundo plano de Samsung. Fija la app de IA en la bandeja de recientes y añádela en el exclusivo de Cuidado del dispositivo → Batería → Apps en modo sueño para evitar interrupciones durante la inferencia.
💡Tip: Si tienes un teléfono Snapdragon y principalmente quieres chat sin conexión, ejecuta tanto MLC Chat (para velocidad en sesiones cortas) como PocketPal AI (para trabajo más extenso con modelos no disponibles en la biblioteca de MLC Chat). Coexisten perfectamente y usan almacenamiento de modelos separado.
Comparativa de chipsets: Snapdragon vs MediaTek vs Tensor
Snapdragon 8 Elite es el chipset más capaz para inferencia de LLM local en Android en 2026 — su NPU Hexagon es el único NPU móvil con soporte verificado en MLC Chat. Tensor G5 y MediaTek Dimensity 9400 ejecutan las seis apps solo en modo CPU o GPU Vulkan.
📍 En una frase
El NPU Hexagon del Snapdragon 8 Elite entrega una inferencia 2–3× más rápida que la ejecución solo-CPU en Android en 2026, pero solo MLC Chat expone esta ventaja — todas las demás apps caen a CPU o GPU Vulkan en todos los chipsets.
| Chipset | Se encuentra en | NPU para apps de terceros | Mejor ruta de inferencia | Velocidad Phi-4 Mini (est.) |
|---|---|---|---|---|
| Snapdragon 8 Elite | Galaxy S25 series, OnePlus 13, Xiaomi 15 Pro | Sí — NPU Hexagon via MLCC (solo MLC Chat) | NPU Hexagon (MLC Chat) o GPU Vulkan (Maid, PocketPal) | ~22 tok/seg (NPU) / ~16–18 tok/seg (Vulkan) |
| Google Tensor G5 | Serie Pixel 9 | No — Google reserva el NPU para sus propias apps | CPU (todas las apps corren solo-CPU) | ~12–15 tok/seg (CPU) |
| MediaTek Dimensity 9400 | Xiaomi 15 Ultra, Oppo Find X8 Pro, Vivo X200 Pro | Limitado — acceso a APU de MediaTek via ruta NNAPI experimental | GPU Vulkan (mejor opción para terceros); NNAPI experimental | ~14–18 tok/seg (Vulkan) / ~12 tok/seg (CPU) |
| Snapdragon 8 Gen 3 | Serie Galaxy S24, OnePlus 12 | Parcial — Hexagon de generación anterior, soporte limitado en MLC Chat | GPU Vulkan o CPU | ~12–15 tok/seg (Vulkan) |
⚠️Warning: No asumas que el NPU Tensor G5 de Google beneficia a las apps de LLM local. El NPU de Google está reservado para servicios ML de primera parte (Google Translate, Grabadora, procesamiento de fotos). Las apps de inferencia de terceros, incluidas las seis de esta guía, corren solo-CPU en todos los teléfonos Pixel. Los 16 GB de RAM del Pixel 9 Pro son su verdadera ventaja — más margen para modelos más grandes, no inferencia más rápida.
💡Tip: Los teléfonos MediaTek Dimensity 9400 se benefician del soporte de GPU Vulkan en Maid y PocketPal AI. Si tienes un Xiaomi 15 Ultra u Oppo Find X8 Pro, activa Vulkan en los ajustes de la app para obtener una mejora de velocidad del 30–40% respecto a la ruta CPU.
MLC Chat
MLC Chat (Machine Learning Compilation Chat) es la app de LLM local más rápida para Android en dispositivos Snapdragon 8 Elite en 2026. Desarrollada por el equipo de MLC AI, compila modelos usando el framework MLCC que se dirige directamente al NPU Hexagon de Snapdragon — una ruta de optimización no disponible para apps que usan llama.cpp o backends Vulkan genéricos.
- Biblioteca de modelos: Curada — MLC Chat incluye un conjunto de modelos precompilados optimizados para móvil (Qwen3 1.7B, Phi-4 Mini, Gemma 3 1B, Llama 3.2 1B). La importación de modelos personalizados está disponible pero requiere la cadena de herramientas de compilación de MLC — no es un proceso de un solo toque.
- Utilización del NPU: Soporte verificado del NPU Hexagon en Snapdragon 8 Elite (Galaxy S25 Ultra, OnePlus 13). Medido en ~40 tok/seg para Qwen3 1.7B y ~22 tok/seg para Phi-4 Mini en el S25 Ultra — frente a ~12–16 tok/seg solo-CPU en el mismo hardware.
- Calidad de interfaz: Limpia, funcional, mínima. Solo interfaz de chat — sin editor de prompts del sistema, sin tarjetas de personaje, sin cambio de modelo múltiple. Adecuada para tareas de chat enfocadas, no para configuración de usuarios avanzados.
- Panel compartir de Android: No soportado a partir de mayo de 2026. No puede recibir texto de otras apps via el panel compartir estándar.
- Fiabilidad sin conexión: Excelente. Una vez que un modelo está compilado y en caché, MLC Chat funciona con cero llamadas de red. El proceso en segundo plano es estable en comparación con algunas apps basadas en llama.cpp.
- Almacenamiento: MLC Chat almacena los pesos del modelo compilado en su directorio privado de app (~3 GB para Phi-4 Mini compilado para Snapdragon). No son portables a otras apps — una limitación frente a las apps basadas en GGUF.
- Ruta de instalación: Google Play Store. Código fuente en github.com/mlc-ai/mlc-llm.
⚠️Warning: La biblioteca de modelos de MLC Chat es curada y compilada. Si necesitas un modelo que no está en la biblioteca oficial (por ejemplo, un Mistral 7B ajustado o un modelo específico de dominio), MLC Chat no puede ayudarte — usa PocketPal AI o Maid para soporte GGUF arbitrario. MLC Chat es una herramienta de velocidad, no de flexibilidad.
Maid
Maid es la app de LLM local para Android completamente de código abierto, con distribución prioritaria en F-Droid — construida con Flutter, usando llama.cpp como backend de inferencia y distribuida sin dependencia de Google Play. Soporta importación directa de GGUF desde el gestor de archivos, aceleración GPU Vulkan en dispositivos compatibles y funciona en versiones de Android sin Google (GrapheneOS, CalyxOS).
- Biblioteca de modelos: Sin restricciones. Cualquier archivo de modelo GGUF puede importarse via el gestor de archivos de Android o descargarse via URL. Esto incluye modelos que no están en Hugging Face o en bibliotecas curadas de apps.
- Utilización del NPU: Ruta GPU Vulkan en dispositivos compatibles — no NPU dedicado. En Snapdragon 8 Elite, Vulkan entrega ~18 tok/seg para Phi-4 Mini, frente a ~22 tok/seg con la ruta NPU de MLC Chat. Sin acceso al NPU Hexagon.
- Calidad de interfaz: Funcional pero menos pulida que PocketPal AI o Layla. Editor de prompts del sistema, controles de temperatura y gestión básica del historial de chat presentes. El soporte de tarjetas de personaje es limitado.
- Panel compartir de Android: No soportado a partir de mayo de 2026.
- Fiabilidad sin conexión: Excelente — la inferencia basada en llama.cpp es estable. Los límites en segundo plano de ROMs de fabricantes (Samsung, OnePlus) siguen aplicando.
- Almacenamiento: Modelos almacenados en el directorio privado de la app o en una ruta especificada por el usuario. Los archivos GGUF son portables entre Maid y PocketPal AI si se colocan en almacenamiento compartido accesible.
- Ruta de instalación: F-Droid (primaria), releases de GitHub. Código fuente en github.com/Mobile-Artificial-Intelligence/maid. No disponible en Google Play.
💡Tip: Si estás en GrapheneOS o una versión de Android sin Google, Maid es la mejor opción disponible — no tiene dependencia de Google Play Services. Instala via el cliente F-Droid o descarga el APK directamente desde la página de releases de GitHub y haz sideload con ADB.
Layla
Layla es la app de LLM local para Android más accesible para principiantes — abstrae la gestión de modelos detrás de un flujo de descarga curado, no requiere terminal y presenta una interfaz de chat pulida sin exponer la configuración de inferencia. La contrapartida es una selección de modelos más pequeña e inferencia solo-CPU.
- Biblioteca de modelos: Curada, conjunto más pequeño. Layla ofrece una experiencia de descarga gestionada — selecciona un modelo de la biblioteca en la app y se descarga y configura automáticamente. La importación de GGUF personalizado no es una función principal.
- Utilización del NPU: Solo ruta CPU — sin GPU Vulkan ni NPU Hexagon. Esto hace de Layla la más lenta de las seis en Snapdragon 8 Elite (~14 tok/seg para Phi-4 Mini) pero consistente en todos los chipsets de Android.
- Calidad de interfaz: La más alta de las seis apps para usuarios primerizos. Interfaz centrada en el chat con gestión clara de conversaciones, sin sobrecarga de ajustes y cambio de modelo fluido.
- Panel compartir de Android: Soportado — Layla puede recibir texto de otras apps via el panel compartir de Android, convirtiéndola en una de las dos apps de esta guía que se integran en el flujo estándar de compartir de Android.
- Fiabilidad sin conexión: Buena. Completamente sin conexión una vez descargado el modelo. Menos susceptible a eliminaciones en segundo plano porque no ejecuta un proceso de servidor local (a diferencia de Ollama via Termux).
- Almacenamiento: Layla gestiona el almacenamiento de modelos internamente. No se requiere gestión manual de archivos.
- Ruta de instalación: Google Play Store.
💡Tip: El soporte del panel compartir de Layla la hace únicamente útil para flujos de trabajo en Android: resalta texto en cualquier app → Compartir → Layla → pregunta algo sobre ello. Este caso de uso — asistencia rápida de IA en contexto sin cambiar de app — es donde Layla supera a todas las demás apps de esta lista.
Ollama via Termux
Ollama via Termux es el único camino en Android hacia una API local completa compatible con OpenAI — incluyendo uso de herramientas, llamadas a funciones y la capacidad de conectar apps de terceros de Android a un modelo ejecutándose localmente. La configuración lleva 20–30 minutos y requiere comodidad con el terminal, pero el resultado es el mismo ecosistema Ollama que los usuarios de escritorio ejecutan en Mac y Linux, ahora en un teléfono.
- Biblioteca de modelos: Ilimitada — la biblioteca completa de modelos de Ollama está disponible via `ollama pull [nombre-del-modelo]`. Este es el acceso más amplio a modelos de cualquier app de esta guía.
- Utilización del NPU: Solo CPU en la compilación estándar de Ollama ARM64. Sin soporte de GPU Vulkan ni NPU Hexagon en la configuración estándar de Termux a partir de mayo de 2026. Esto hace de Ollama el más lento en tok/seg brutos (~10 tok/seg para Phi-4 Mini en S25 Ultra).
- Uso de herramientas y llamadas a funciones: Soportado — Ollama en Android gestiona el uso de herramientas de la misma manera que en escritorio. Conecta cualquier frontend capaz de uso de herramientas a localhost:11434.
- Panel compartir de Android: No soportado directamente. Solución: usa un acceso directo de Termux:Widget para enviar el contenido del portapapeles a `ollama run [modelo]`.
- Fiabilidad en segundo plano: Problemática en Samsung y OnePlus sin lista blanca de optimización de batería. Crea un acceso directo de Termux:Widget para
ollama servey fija Termux en la bandeja de recientes. Samsung One UI requiere deshabilitar explícitamente "Apps en modo sueño" para Termux. - Ruta de instalación: Termux desde F-Droid, luego el script de instalación de Ollama via curl.
- 1Instala Termux desde F-Droid (no la versión de Play Store — la compilación de Play Store está desactualizada y rompe las instalaciones de Ollama).
- 2En Termux:
pkg update && pkg install curl - 3Instala Ollama:
curl -fsSL https://ollama.com/install.sh | sh— esto detecta el entorno Android ARM64 e instala el binario correcto. - 4Descarga un modelo:
ollama pull qwen3:1.7boollama pull phi4-mini. - 5Inicia el servidor:
ollama serve(mantenlo ejecutándose en una sesión de Termux o usa un widget en segundo plano). - 6Interactúa via Termux:
ollama run phi4-mini— o conecta cualquier app que soporte un endpoint compatible con OpenAI enhttp://localhost:11434.
⚠️Warning: Ollama via Termux en un teléfono será notablemente más lento que Ollama en un escritorio — ~10 tok/seg en Phi-4 Mini en el S25 Ultra frente a 60+ tok/seg en una RTX 4090. Úsalo por conveniencia (API de bolsillo sin conexión, consultas rápidas lejos del escritorio) no por rendimiento. Para calidad de modelos grandes en móvil, la conexión remota a una máquina doméstica que ejecuta Ollama via Open WebUI en Chrome sigue siendo la mejor opción.
💡Tip: Instala el complemento Termux:Widget y crea un acceso directo de un solo toque que ejecute ollama serve. Esto te permite iniciar el servidor de Ollama desde el widget de la pantalla de inicio de Android sin abrir Termux. Una vez sirviendo, cualquier app configurada para usar localhost:11434 se conecta automáticamente.
Private AI
Private AI es la app de LLM local para Android centrada en la privacidad — diseñada para usuarios que quieren que toda la inferencia permanezca en el dispositivo con permisos mínimos, sin telemetría de red y una configuración sencilla no técnica. Solicita menos permisos que cualquier otra app de esta guía y no contacta servidores externos después de la descarga inicial del modelo.
- Biblioteca de modelos: Conjunto curado y revisado para privacidad. Las descargas son de fuentes verificables. Sin acceso a repositorios arbitrarios de Hugging Face — intercambia flexibilidad por un suministro de modelos controlado y auditable.
- Utilización del NPU: Solo ruta CPU. Consistente en todos los chipsets en ~13 tok/seg en Phi-4 Mini (S25 Ultra).
- Calidad de interfaz: Limpia, mínima. Centrada en el chat con exportación de conversaciones y sin telemetría de uso. Carece de opciones de configuración avanzadas (temperatura, top-p, prompts del sistema) — simplificada intencionalmente.
- Panel compartir de Android: No soportado a partir de mayo de 2026.
- Fiabilidad sin conexión: La mejor de su clase. Diseñada para funcionar completamente sin conexión. Sin llamadas de red en segundo plano, sin sincronización, sin análisis.
- Permisos: Mínimos — solicita acceso al almacenamiento y micrófono (para entrada de voz, opcional). No solicita contactos, ubicación ni ID de publicidad.
- Ruta de instalación: Google Play Store.
💡Tip: Si tu caso de uso implica texto profesional sensible — borradores legales, notas médicas, contenido empresarial confidencial — los permisos mínimos y la arquitectura auditable sin telemetría de Private AI son significativos. Para uso de productividad general, PocketPal AI es una mejor opción general, pero el modelo de confianza de Private AI es más sólido.
PocketPal AI
PocketPal AI es la mejor app de LLM local para Android en general para la mayoría de usuarios en 2026. Combina el ecosistema completo de modelos GGUF (cualquier modelo de Hugging Face), aceleración GPU Vulkan, la interfaz nativa móvil más pulida de las seis apps, soporte directo del panel compartir de Android y correcta gestión del almacenamiento de Android — una combinación que ninguna otra app de esta guía iguala.
- Biblioteca de modelos: Ecosistema GGUF completo — navega y descarga directamente desde Hugging Face dentro de la app, o importa archivos GGUF locales. Cubre la misma amplitud que Maid añadiendo una interfaz de descubrimiento curada.
- Utilización del NPU: Ruta GPU Vulkan en dispositivos compatibles. En Snapdragon 8 Elite, entrega ~16 tok/seg en Phi-4 Mini — por detrás de la ruta NPU de MLC Chat (~22 tok/seg) pero por delante de todas las apps solo-CPU en el mismo dispositivo.
- Calidad de interfaz: La mejor interfaz nativa móvil de las seis apps. Navegación por gestos, gestión de conversaciones, editor de prompts del sistema, benchmarking de modelos y un panel de ajustes por modelo. Construida con React Native + llama.rn.
- Panel compartir de Android: Soportado — PocketPal AI y Layla son las únicas dos apps de esta guía que se integran en el panel compartir de Android. Selecciona texto en cualquier app → Compartir → PocketPal AI.
- Fiabilidad sin conexión: Excelente. Sin proceso de servidor en segundo plano (a diferencia de Ollama via Termux) — la inferencia corre en proceso, evitando los problemas de eliminación en segundo plano de Android que afectan a los enfoques basados en servidor.
- Almacenamiento: Almacena archivos GGUF en almacenamiento privado de la app por defecto, con opción de apuntar a almacenamiento externo. Los archivos de modelos son portables a Maid si se mueven a almacenamiento compartido de Android.
- Ruta de instalación: Google Play Store. Código fuente en github.com/a-ghorbani/pocketpal-ai.
💡Tip: La herramienta de benchmarking de modelos dentro de la app de PocketPal AI (ejecuta un prompt corto y mide tok/seg) es útil para comparar tamaños de modelos en tu teléfono específico. Ejecútala en Phi-4 Mini, Qwen3 1.7B y Qwen3 4B para encontrar el techo de velocidad práctico de tu dispositivo antes de comprometerte con un modelo para uso diario.
Fragmentación Android: almacenamiento, RAM y límites en segundo plano
La fragmentación de Android crea tres problemas prácticos para las apps de LLM local: conflictos de particiones de almacenamiento, asignación de RAM inconsistente y políticas agresivas de eliminación en segundo plano por parte de los fabricantes. Los tres afectan la fiabilidad del modelo en dispositivos Samsung, OnePlus, Pixel y otros fabricantes de Android de formas que no ocurren en iOS.
💬 En términos simples
La fragmentación de Android significa que una app de LLM local que funciona perfectamente en un Pixel 9 Pro puede bloquearse a mitad de la inferencia en un Galaxy S25 Ultra, no por la app o el modelo, sino porque la política de eliminación en segundo plano de Samsung termina el proceso para ahorrar batería. Cada fabricante de Android personaliza estas políticas de manera diferente — Pixel sigue los estándares AOSP más de cerca; Samsung, OnePlus y Xiaomi tienen todos una eliminación en segundo plano más agresiva por defecto.
- Particiones de almacenamiento: El
/data/user/0/de Android (almacenamiento privado de la app) y/sdcard/(almacenamiento compartido) son particiones separadas. La mayoría de apps de LLM local almacenan modelos en almacenamiento privado de la app, que no es navegable desde el gestor de archivos sin root. Si quieres compartir un archivo GGUF entre Maid y PocketPal AI, primero debe copiarse a una ubicación compartida. - Asignación de RAM: Android no garantiza una asignación de memoria a las apps de terceros. Si el sistema necesita RAM, elimina procesos en segundo plano — incluidos los procesos de inferencia. En dispositivos con 12 GB de RAM (S25 Ultra por defecto), esto raramente es un problema durante el uso activo. En teléfonos con 8 GB de RAM, lanzar cualquier otra app durante la inferencia puede interrumpirla.
- Eliminación en segundo plano de Samsung One UI: La más agresiva de los principales fabricantes de Android. Ve a Ajustes → Cuidado del dispositivo → Batería → Límites de uso en segundo plano → Apps en modo sueño, y elimina manualmente cualquier app de LLM de esta lista. También fija la app en la bandeja de recientes tocando su icono.
- Eliminación en segundo plano de OnePlus OxygenOS: Similar a Samsung. Ve a Ajustes → Batería → Optimización de batería, encuentra la app de LLM y ponla en "No optimizar". Adicionalmente, fija la app en la vista general de recientes.
- Pixel (más cercano a AOSP): El comportamiento en segundo plano es el más predecible. Las apps que solicitan el permiso
FOREGROUND_SERVICE(PocketPal AI y Maid lo hacen) se ejecutan de forma fiable durante la inferencia activa en Pixel. Aun así se recomienda la exclusión del optimizador de batería para sesiones muy largas. - Xiaomi MIUI/HyperOS: La eliminación en segundo plano más agresiva después de Samsung. La función "Ahorro de batería" puede terminar la inferencia a mitad de la generación. Ve a Ajustes → Apps → Gestionar apps → [app] → Ahorro de batería → Sin restricciones.
⚠️Warning: No dependas del comportamiento en segundo plano predeterminado de Android para ninguna app de LLM local. En dispositivos Samsung y OnePlus, la política predeterminada interrumpirá las sesiones de inferencia largas (>2 minutos) a menos que explícitamente añadas la app a la lista blanca en los ajustes de optimización de batería. Esta es la causa número uno de los informes de "la app se detuvo a mitad de la respuesta" para todas las apps de esta guía.
Rutas de sideload y Termux: la ventaja de Android
El ecosistema de sideloading y Termux de Android da a los usuarios de Android acceso a herramientas de IA local que no existen en iOS. Esta es la diferencia práctica más marcada entre Android e iPhone para el uso de IA local en 2026.
📍 En una frase
Ollama via Termux — un servidor de API de LLM local completo en un teléfono — es una capacidad exclusiva de Android en 2026: el sandbox de iOS de Apple impide la configuración equivalente en iPhone, haciendo de Android la única plataforma móvil para usuarios que necesitan una API compatible con OpenAI en el dispositivo.
- Termux: Un entorno Linux en una app de Android. Instala via F-Droid (no Play Store). Ejecuta bash, Python, curl y prácticamente cualquier binario Linux ARM64 — incluido Ollama. Termux no está disponible en iOS; su equivalente (iSH) carece de capacidades de red para servir APIs locales.
- Sideloading con F-Droid: Instala apps sin Google Play — útil para Maid, Termux y otras herramientas de IA local de código abierto. Descarga el APK del cliente F-Droid, habilita "Instalar apps de origen desconocido" en los ajustes de seguridad de Android, instala F-Droid y luego instala cualquier app listada en F-Droid sin cuenta de Google.
- Sideloading con ADB: Los usuarios avanzados pueden hacer sideload de APKs directamente via Android Debug Bridge (`adb install [app.apk]`). Esto permite instalar apps cuya ficha de Play Store está restringida por región o ha sido eliminada.
- Ventaja de las ROM personalizadas: Los usuarios de LineageOS, GrapheneOS y CalyxOS pueden desactivar Google Play completamente y usar F-Droid + ADB como sus únicas rutas de instalación de apps. Maid y Termux funcionan completamente en estas plataformas. No existe equivalente en iOS.
- Modo servidor de llama.cpp via Termux: Más allá de Ollama, el propio llama.cpp puede compilarse via Termux y ejecutarse en modo servidor — dando una API local alternativa que algunos usuarios prefieren por su menor uso de memoria en comparación con Ollama.
💡Tip: La configuración de Termux + Ollama también funciona como servidor API local para otras apps en el mismo teléfono. Por ejemplo, apps como Obsidian (con el plugin Local REST API) o automatizaciones personalizadas similares a Shortcuts pueden consultar localhost:11434/api/generate para ejecutar tareas de IA sin internet — un patrón de automatización de pantalla de inicio genuinamente útil.
Errores comunes
La mayoría de fallos con apps de LLM local en Android provienen de cuatro errores evitables.
- Instalar Termux desde Play Store. La versión de Play Store de Termux está desactualizada (Termux dejó de actualizarla en 2020). La compilación actual mantenida está en F-Droid.
pkg install curly el script de instalación de Ollama fallan en la versión de Termux de Play Store. - Esperar velocidad NPU en un teléfono Pixel. El NPU Tensor G5 de Google no es accesible para apps de terceros. Las seis apps corren solo-CPU en todos los modelos Pixel. La ventaja NPU de MLC Chat aplica solo en Snapdragon 8 Elite y no se transfiere a Pixel.
- Omitir la lista blanca de optimización de batería en Samsung. Los teléfonos Galaxy eliminan los procesos en segundo plano agresivamente. Una generación que dure más de 90 segundos probablemente será interrumpida por la política de eliminación en segundo plano a menos que Termux o la app de LLM estén explícitamente en la lista blanca.
- Descargar modelos demasiado grandes para el dispositivo. Un modelo 7B Q4_K_M (~4.7 GB) requiere ~6 GB de RAM disponible. En un teléfono de 12 GB con la sobrecarga del sistema, esto es ajustado. En un teléfono de 8 GB, hará que la app falle por OOM a mitad de la generación. Usa Phi-4 Mini (3.8B, ~2.7 GB) para dispositivos de 8–10 GB y Qwen3 1.7B (~1.1 GB) para todo lo que esté por debajo.
- Asumir que el almacenamiento en Descargas es accesible. La mayoría de apps de LLM local almacenan archivos de modelos en almacenamiento privado de la app (`/data/user/0/[paquete-de-la-app]/`), que no es navegable desde el gestor de archivos sin root. Si descargas un GGUF a la carpeta de Descargas esperando que la app lo encuentre, no lo hará — usa la función de importación integrada de la app o apunta a la ruta correcta en los ajustes.
- Ejecutar dos apps de inferencia simultáneamente. Cada app carga el modelo en RAM. Dos modelos de 3B en un teléfono de 12 GB dejan ~5 GB para el sistema operativo, lo que desencadena eliminaciones. Si usas tanto MLC Chat como PocketPal AI, cierra uno antes de abrir el otro.
Fuentes
- MLC Chat GitHub y documentación — github.com/mlc-ai/mlc-llm
- Maid GitHub (Mobile Artificial Intelligence) — github.com/Mobile-Artificial-Intelligence/maid
- PocketPal AI GitHub — github.com/a-ghorbani/pocketpal-ai
- Documentación oficial de Ollama — ollama.com
- Documentación oficial de Termux — wiki.termux.com
- Documentación técnica del NPU Hexagon del Snapdragon 8 Elite — Qualcomm Developer Network
- Especificaciones de la APU MediaTek Dimensity 9400 — página de producto de MediaTek
- Resumen del chip Google Tensor G5 — documentación de hardware de Google
- Optimización de batería y límites de procesos en segundo plano de Android — documentación para desarrolladores de Android
FAQ
¿Puede un Pixel 9 Pro ejecutar un modelo de 7B?
Sí, el Pixel 9 Pro tiene 16 GB de RAM — margen suficiente para ejecutar un modelo 7B Q4_K_M (~4.7 GB de peso del modelo) con RAM del sistema aún disponible. La velocidad es ~8–10 tok/seg en ese tamaño (solo-CPU en Tensor G5). Usa PocketPal AI o Maid con un GGUF de 7B para este caso de uso. Para velocidad de conversación en tiempo real, quédate con Phi-4 Mini (3.8B, ~14 tok/seg) en el Pixel 9 Pro.
¿Estas apps usan el NPU de Snapdragon?
Solo MLC Chat usa el NPU Hexagon de Snapdragon, y solo en dispositivos Snapdragon 8 Elite (serie Galaxy S25, OnePlus 13). Las otras cinco apps usan CPU o GPU Vulkan. El NPU Hexagon entrega una inferencia 2–3× más rápida en MLC Chat en comparación con la ruta CPU en el mismo dispositivo.
¿Puedo ejecutar IA local en un Samsung Galaxy S22?
Sí, en variantes con 8 GB de RAM. El Galaxy S22 ejecuta Snapdragon 8 Gen 1 (o Exynos 2200 en algunas regiones). PocketPal AI y Maid con Qwen3 1.7B o SmolLM2 1.7B funcionan a ~8–12 tok/seg. Phi-4 Mini (3.8B) es factible pero ajustado con 8 GB de RAM — cierra todas las demás apps primero. La ruta NPU de MLC Chat no está verificada en Snapdragon 8 Gen 1.
¿Necesito rootear mi teléfono para IA local?
No. Las seis apps de esta guía funcionan en teléfonos Android sin rootear. Termux requiere habilitar "Instalar apps de origen desconocido" para el APK de F-Droid, pero eso no es rootear. El root solo es relevante para acceder a los directorios de almacenamiento privado de las apps desde un gestor de archivos — no es necesario para la inferencia.
¿Puedo usar estas apps con Termux?
Ollama via Termux es su propia configuración completa — instalas Ollama dentro de Termux e interactúas via el terminal de Termux. Las otras cinco apps (MLC Chat, Maid, Layla, Private AI, PocketPal AI) son apps de Android independientes que no interactúan con Termux. Los usuarios avanzados ejecutan ambas: Ollama en Termux para acceso a API y PocketPal AI para una interfaz de chat pulida.
¿Cómo gestionan los límites en segundo plano de Android?
Los límites en segundo plano son el mayor problema de fiabilidad para las apps de LLM local en Android. PocketPal AI y Maid solicitan el permiso FOREGROUND_SERVICE, lo que las hace más resistentes a la eliminación en segundo plano. Ollama via Termux es vulnerable a las políticas de eliminación en segundo plano de Samsung y OnePlus a menos que Termux esté explícitamente en la lista blanca en los ajustes de optimización de batería. En Pixel, el comportamiento en segundo plano es más predecible. En Samsung One UI, añade manualmente cualquier app de LLM a la lista blanca en Cuidado del dispositivo → Batería → Apps en modo sueño.
¿Puedo compartir la salida de IA local a otras apps?
Sí, desde cualquier app — copia la respuesta de IA y pégala en cualquier lugar. Para la dirección inversa (enviar texto de otra app a la IA), solo PocketPal AI y Layla aparecen en el panel compartir de Android a partir de mayo de 2026.
¿Estas apps soportan Android Auto?
No. Ninguna de las seis apps soporta Android Auto a partir de mayo de 2026. Android Auto restringe qué apps pueden ejecutarse mientras se conduce, y ninguna de las apps de LLM local ha construido la interfaz compatible con Auto requerida para la certificación.
¿Qué app gestiona mejor el almacenamiento de modelos?
PocketPal AI gestiona el almacenamiento de modelos con más elegancia — se integra directamente con Hugging Face para descargas dentro de la app, gestiona correctamente la división de particiones de almacenamiento de Android y proporciona una interfaz de gestión de modelos. Maid es la mejor para usuarios que quieren gestionar archivos GGUF manualmente via el sistema de archivos. MLC Chat usa un formato de modelo compilado propietario que no es portable a otras apps.
¿Puedo ejecutar varios modelos simultáneamente?
Solo si tu dispositivo tiene suficiente RAM para ambos modelos más la sobrecarga del sistema operativo Android. En un Pixel 9 Pro de 16 GB: dos modelos Phi-4 Mini (2.7 GB cada uno) dejan ~10 GB para el sistema operativo — técnicamente factible pero muy ajustado. En la práctica, cierra una app antes de abrir la otra. Ollama via Termux soporta el cambio de modelos con un único proceso ollama serve, cargando un modelo a la vez.