Points clés
- MLC Chat est le leader en vitesse sur Snapdragon 8 Elite. Le NPU Hexagon livre ~40 tokens/sec sur Qwen3 1.7B et ~22 tokens/sec sur Phi-4 Mini sur le Galaxy S25 Ultra — 3–4× plus rapide que les applications CPU seul sur le même matériel.
- PocketPal AI est le meilleur choix global pour la plupart des utilisateurs Android. Il supporte l'écosystème GGUF complet, s'intègre avec Hugging Face pour les téléchargements de modèles, gère correctement le stockage Android et possède l'interface utilisateur native la plus soignée parmi les six applications.
- Ollama via Termux est le seul chemin vers une API locale complète compatible OpenAI sur Android. Cela importe pour les utilisateurs avancés qui souhaitent l'utilisation d'outils, les appels de fonction ou la capacité à connecter les applications locales au modèle de leur téléphone.
- Tensor G5 (Pixel 9 Pro) n'expose pas son NPU aux applications tierces. Les six applications s'exécutent en CPU seul sur Pixel 9 Pro, livrant 10–18 tokens/sec sur Phi-4 Mini — plus lent que le résultat Snapdragon 8 Elite équivalent.
- Maid est le choix F-Droid / dé-googlifié. Pas de dépendance Play Store, pas de compte Google requis et importation GGUF directe depuis le gestionnaire de fichiers. Le meilleur choix pour les utilisateurs Android qui évitent les services Google.
- Les limites d'arrière-plan d'Android sont le plus grand problème d'utilisabilité. Android tue agressivement les processus d'arrière-plan sur la plupart des ROM OEM (particulièrement Samsung, OnePlus et Xiaomi). Les applications effectuant une inférence active doivent être verrouillées dans la barre d'applications récentes ou configurées dans les paramètres d'optimisation de batterie pour éviter les interruptions au milieu de la génération.
- Le stockage de modèle est le deuxième plus grand problème Android. Chaque modèle GGUF fait 1–8 GB. La division d'Android entre les partitions de stockage interne signifie que les modèles doivent être stockés dans le répertoire privé de l'application ou à un emplacement spécifiquement configuré — pas dans "Téléchargements" pour la plupart des applications.
- L'avantage Android est réel : Termux et sideloading déverrouillent des outils sans équivalent iOS. Ollama via Termux n'est pas possible sur iPhone. Les applications F-Droid et le sideloading ADB donnent aux utilisateurs Android un accès à des applications que Google Play ne peut pas proposer.
Faits rapides
- Appareils de test : Samsung Galaxy S25 Ultra (Snapdragon 8 Elite, 12 GB RAM), Google Pixel 9 Pro (Tensor G5, 16 GB RAM), OnePlus 13 (Snapdragon 8 Elite, 16 GB RAM).
- Familles de chipsets testées : Snapdragon 8 Elite (NPU Hexagon), Tensor G5 (NPU non exposé aux applications tierces), MediaTek Dimensity 9400 (spécifications APU couvertes ; pas d'appareil de test).
- Meilleur modèle pour Android 12 GB : Phi-4 Mini (3.8B, ~2.7 GB à Q4_K_M) — s'exécute sur les six applications sur les trois appareils de test.
- Meilleur modèle pour Android 8 GB : Qwen3 1.7B ou SmolLM2 1.7B — s'exécute sur tous ; Gemma 3 1B pour les appareils très contraints.
- RAM minimum pour modèles 3B : 6 GB RAM appareil. Au-dessous, restez à des modèles 1.7B.
- Tokens/sec sur S25 Ultra (Phi-4 Mini) : MLC Chat ~22 tok/sec (NPU), PocketPal AI ~16 tok/sec (CPU/Vulkan), Maid ~18 tok/sec (Vulkan), Layla ~14 tok/sec (CPU), Private AI ~13 tok/sec (CPU), Ollama Termux ~10 tok/sec (CPU).
- Play Store vs. F-Droid : MLC Chat, Layla, PocketPal AI et Private AI sont sur Google Play. Maid est principalement sur F-Droid. Ollama via Termux requiert Termux depuis F-Droid.
- Intégration feuille de partage (Android) : Seules PocketPal AI et Layla gèrent l'entrée native de la feuille de partage Android à partir de mai 2026.
Tableau de comparaison
Vitesses de tokens mesurées sur Samsung Galaxy S25 Ultra (Snapdragon 8 Elite, 12 GB RAM) exécutant Phi-4 Mini en quantisation Q4_K_M. L'utilisation du NPU varie selon l'application — MLC Chat est la seule application avec support NPU Hexagon vérifié à partir de mai 2026.
📍 En une phrase
MLC Chat mène la vitesse IA locale sur Android en 2026 grâce au support NPU Hexagon Snapdragon, atteignant ~22 tokens/sec sur Phi-4 Mini et ~40 tokens/sec sur Qwen3 1.7B sur le Galaxy S25 Ultra — 2–3× plus rapide que les alternatives CPU seul sur le même matériel.
| Application | Tokens/sec (S25 Ultra, Phi-4 Mini) | Support NPU | Meilleur pour |
|---|---|---|---|
| MLC Chat | ~22 tok/sec (chemin NPU) | Oui — NPU Hexagon sur Snapdragon 8 Elite | Utilisateurs orientés vitesse sur téléphones Snapdragon |
| Maid | ~18 tok/sec (GPU Vulkan) | Partiel — GPU Vulkan, pas de chemin NPU dédié | Utilisateurs open-source / F-Droid, accès GGUF complet |
| Layla | ~14 tok/sec (CPU) | Non | Débutants, téléchargements de modèles curés |
| Ollama via Termux | ~10 tok/sec (CPU) | Non (CPU seul dans le build Termux standard) | Utilisateurs avancés, accès API, utilisation d'outils |
| Private AI | ~13 tok/sec (CPU) | Non | Utilisateurs orientés confidentialité, permissions minimales |
| PocketPal AI | ~16 tok/sec (CPU/Vulkan) | Partiel — GPU Vulkan sur appareils compatibles | La plupart des utilisateurs — meilleure interface + écosystème GGUF complet |
💡Tip: Sur Pixel 9 Pro (Tensor G5), retirez MLC Chat de la première place — les six applications s'exécutent en CPU seul, et PocketPal AI et Maid avancent sur la qualité de l'interface. L'avantage NPU disparaît complètement sur Tensor G5 pour les applications d'inférence tierces.
⚠️Warning: Les chiffres tokens/sec de Layla et Private AI sont des estimations de chemin CPU pour Phi-4 Mini Q4_K_M. Les vitesses réelles varient selon l'état thermique — l'inférence soutenue sur un téléphone chaud peut chuter 20–30% de la figure de démarrage à froid.
Quelle application choisir ?
La bonne application dépend de votre chipset d'appareil et de la valeur que vous accordez à la personnalisation par rapport à la simplicité. Les utilisateurs Android se divisent fortement entre ceux qui veulent une expérience native soignée (PocketPal AI, Layla) et ceux qui veulent le contrôle maximum (Ollama via Termux, Maid). Contrairement à iPhone, Android permet les deux.
💬 En termes simples
Choisissez MLC Chat si vous avez un téléphone Snapdragon 8 Elite et souhaitez l'inférence la plus rapide possible. Choisissez PocketPal AI si vous voulez la meilleure application globale avec le support de modèles le plus large et l'interface utilisateur la plus soignée. Choisissez Ollama via Termux si vous voulez une API IA locale complète sur votre téléphone et êtes à l'aise avec un terminal. Choisissez Maid si vous voulez une option entièrement open-source distribuée via F-Droid sans dépendance Google. Choisissez Layla si vous êtes nouveau à l'IA locale et souhaitez des téléchargements de modèles curés. Choisissez Private AI si la confidentialité des données et les permissions minimales sont votre préoccupation principale.
- Téléphone Snapdragon 8 Elite (S25 Ultra, OnePlus 13) : Commencez avec MLC Chat. Si vous avez besoin de modèles pas dans la bibliothèque MLC Chat, ajoutez PocketPal AI comme votre deuxième application — elle couvre l'écosystème GGUF complet avec inférence accélérée Vulkan.
- Pixel 9 Pro (Tensor G5) : L'avantage NPU disparaît — PocketPal AI est le meilleur choix pour la qualité d'interface et la portée des modèles. MLC Chat bascule à CPU seul sur Tensor G5, perdant son avantage de vitesse.
- N'importe quel Android, personnalisation en premier : Ollama via Termux + un frontend de chat (Alpaca, Open WebUI dans Chrome) est la configuration la plus capable. Requiert ~30 minutes de travail terminal mais offre une API compatible OpenAI, utilisation d'outils et accès à la bibliothèque de modèles Ollama complète.
- Téléphone dé-googlifié / confidentialité : Maid depuis F-Droid. Fonctionne sur GrapheneOS, CalyxOS et autres builds dé-googlifiés. Pas de dépendance Play Services.
- Téléphone 8 GB RAM : N'importe quelle des six applications avec Qwen3 1.7B ou SmolLM2 1.7B. PocketPal AI gère le stockage de modèles le plus élégamment sur les appareils contraints.
- Samsung Galaxy (n'importe quel modèle) : Soyez conscient du tueur d'arrière-plan agressif de Samsung. Verrouillez l'application IA dans la barre d'applications récentes et ajoutez-la à Maintenance d'appareil → Batterie → Applications en veille pour éviter les interruptions au milieu d'une inférence.
💡Tip: Si vous avez un téléphone Snapdragon et souhaitez principalement un chat hors ligne, exécutez à la fois MLC Chat (pour la vitesse sur les sessions courtes) et PocketPal AI (pour les travaux plus longs avec des modèles non disponibles dans la bibliothèque MLC). Ils coexistent bien et utilisent un stockage de modèles séparé.
Comparaison des chipsets : Snapdragon vs. MediaTek vs. Tensor
Snapdragon 8 Elite est le chipset le plus capable pour l'inférence IA locale sur Android en 2026 — son NPU Hexagon est le seul NPU mobile avec support vérifié dans MLC Chat. Tensor G5 et MediaTek Dimensity 9400 exécutent les six applications en mode CPU ou GPU Vulkan uniquement.
📍 En une phrase
Le NPU Hexagon du Snapdragon 8 Elite livre 2–3× l'inférence plus rapide qu'l'exécution CPU seul sur Android en 2026, mais seul MLC Chat expose cet avantage — toutes les autres applications basculent vers CPU ou GPU Vulkan sur tous les chipsets.
| Chipset | Trouvé dans | NPU pour applications tierces | Meilleur chemin d'inférence | Vitesse Phi-4 Mini (estimée) |
|---|---|---|---|---|
| Snapdragon 8 Elite | Série Galaxy S25, OnePlus 13, Xiaomi 15 Pro | Oui — NPU Hexagon via MLCC (seul MLC Chat) | NPU Hexagon (MLC Chat) ou GPU Vulkan (Maid, PocketPal) | ~22 tok/sec (NPU) / ~16–18 tok/sec (Vulkan) |
| Google Tensor G5 | Série Pixel 9 | Non — Google réserve NPU pour les applications Google | CPU (toutes les applications s'exécutent en CPU seul) | ~12–15 tok/sec (CPU) |
| MediaTek Dimensity 9400 | Xiaomi 15 Ultra, Oppo Find X8 Pro, Vivo X200 Pro | Limité — Accès APU MediaTek via chemin NNAPI expérimental | GPU Vulkan (meilleure option tierce) ; NNAPI expérimental | ~14–18 tok/sec (Vulkan) / ~12 tok/sec (CPU) |
| Snapdragon 8 Gen 3 | Série Galaxy S24, OnePlus 12 | Partiel — Hexagon génération antérieure, support MLC Chat limité | GPU Vulkan ou CPU | ~12–15 tok/sec (Vulkan) |
⚠️Warning: Ne supposez pas que le NPU Google Tensor G5 bénéficie aux applications IA locales. Le NPU de Google est réservé aux services ML de première partie (Google Translate, Recorder, traitement de photos). Les applications d'inférence tierces incluant les six dans ce guide s'exécutent en CPU seul sur chaque téléphone Pixel. La RAM 16 GB du Pixel 9 Pro est son véritable avantage — plus d'espace pour les modèles plus grands, pas d'inférence plus rapide.
💡Tip: Les téléphones MediaTek Dimensity 9400 bénéficient du support GPU Vulkan dans Maid et PocketPal AI. Si vous avez un Xiaomi 15 Ultra ou Oppo Find X8 Pro, activez Vulkan dans les paramètres de l'application pour une amélioration de vitesse de 30–40% par rapport au chemin CPU.
MLC Chat
MLC Chat (Machine Learning Compilation Chat) est l'application IA locale la plus rapide sur les appareils Snapdragon 8 Elite en 2026. Développée par l'équipe MLC AI, elle compile les modèles en utilisant le framework MLCC qui adresse directement le NPU Hexagon Snapdragon — un chemin d'optimisation indisponible aux applications utilisant llama.cpp ou des backends Vulkan génériques.
- Bibliothèque de modèles : Curée — MLC Chat est livré avec un ensemble de modèles pré-compilés optimisés pour mobile (Qwen3 1.7B, Phi-4 Mini, Gemma 3 1B, Llama 3.2 1B). L'importation de modèles personnalisés est disponible mais requiert la toolchain de compilation MLC — pas un processus simple d'un clic.
- Utilisation du NPU : Support NPU Hexagon vérifié sur Snapdragon 8 Elite (Galaxy S25 Ultra, OnePlus 13). Évalué à ~40 tokens/sec pour Qwen3 1.7B et ~22 tokens/sec pour Phi-4 Mini sur le S25 Ultra — comparé à ~12–16 tokens/sec CPU seul sur le même matériel.
- Qualité de l'interface : Propre, fonctionnel, minimaliste. Interface de chat uniquement — pas d'éditeur de prompt système, pas de cartes de caractères, pas de commutation multi-modèles. Adapté pour des tâches de chat focalisées, pas pour la configuration utilisateur avancée.
- Feuille de partage Android : Non supportée à partir de mai 2026. Impossible de recevoir du texte d'autres applications via la feuille de partage standard.
- Fiabilité hors ligne : Excellente. Une fois un modèle compilé et mis en cache, MLC Chat s'exécute avec zéro appels réseau. Le processus d'arrière-plan est stable comparé à certaines applications basées sur llama.cpp.
- Stockage : MLC Chat stocke les poids de modèle compilés dans son répertoire d'application privé (~3 GB pour Phi-4 Mini compilé pour Snapdragon). Ceux-ci ne sont pas portables vers d'autres applications — une limitation par rapport aux applications basées sur GGUF.
- Chemin d'installation : Google Play Store. Code source à github.com/mlc-ai/mlc-llm.
⚠️Warning: La bibliothèque de modèles de MLC Chat est curée et compilée. Si vous avez besoin d'un modèle pas dans la bibliothèque officielle (par exemple, un Mistral 7B affiné ou un modèle spécifique au domaine), MLC Chat ne peut pas aider — utilisez PocketPal AI ou Maid pour le support GGUF arbitraire. MLC Chat est un outil de vitesse, pas un outil de flexibilité.
Maid
Maid est l'application IA locale entièrement open-source, F-Droid-d'abord pour Android — construite avec Flutter, utilisant llama.cpp comme backend d'inférence et distribuée sans dépendance Google Play. Elle supporte l'importation GGUF directe depuis le gestionnaire de fichiers, l'accélération GPU Vulkan sur appareils compatibles et fonctionne sur les builds Android dé-googlifiés (GrapheneOS, CalyxOS).
- Bibliothèque de modèles : Sans restriction. N'importe quel fichier de modèle GGUF peut être importé via le gestionnaire de fichiers Android ou téléchargé via URL. Cela inclut les modèles pas sur Hugging Face ou dans les bibliothèques d'applications curées.
- Utilisation du NPU : Chemin GPU Vulkan sur appareils compatibles — pas de NPU dédié. Sur Snapdragon 8 Elite, Vulkan livre ~18 tokens/sec pour Phi-4 Mini, comparé à ~22 tokens/sec avec le chemin NPU de MLC. Pas d'accès NPU Hexagon.
- Qualité de l'interface : Fonctionnel mais moins poli que PocketPal AI ou Layla. L'éditeur de prompt système, les contrôles de température et la gestion basique de l'historique de chat sont présents. Le support des cartes de caractères est limité.
- Feuille de partage Android : Non supportée à partir de mai 2026.
- Fiabilité hors ligne : Excellente — l'inférence basée sur llama.cpp est stable. Les limites d'arrière-plan des ROM OEM (Samsung, OnePlus) s'appliquent toujours.
- Stockage : Modèles stockés dans le répertoire privé de l'application ou un chemin spécifié par l'utilisateur. Les fichiers GGUF sont portables entre Maid et PocketPal AI s'ils sont placés dans un stockage accessible partagé.
- Chemin d'installation : F-Droid (principal), versions GitHub. Code source à github.com/Mobile-Artificial-Intelligence/maid. Pas sur Google Play.
💡Tip: Si vous êtes sur GrapheneOS ou un build Android dé-googlifié, Maid est la meilleure option disponible — elle n'a pas de dépendance Google Play Services. Installez via le client F-Droid ou téléchargez l'APK directement depuis la page des versions GitHub et installez avec ADB.
Layla
Layla est l'application IA locale Android la plus accessible pour débutants — elle abstrait la gestion de modèles derrière un flux de téléchargement curé, ne nécessite pas de terminal et présente une interface de chat soignée sans exposer les paramètres d'inférence. Le compromis est une sélection de modèles plus petite et l'inférence CPU seul.
- Bibliothèque de modèles : Curée, ensemble plus petit. Layla offre une expérience de téléchargement gérée — sélectionnez un modèle depuis la bibliothèque in-app et il est automatiquement téléchargé et configuré. L'importation GGUF personnalisée n'est pas une fonction principale.
- Utilisation du NPU : Chemin CPU seul — pas de GPU Vulkan ou NPU Hexagon. Cela rend Layla la plus lente des six sur Snapdragon 8 Elite (~14 tokens/sec pour Phi-4 Mini) mais cohérente sur tous les chipsets Android.
- Qualité de l'interface : Meilleure des six applications pour les nouveaux utilisateurs. Interface focalisée sur le chat avec gestion de conversation claire, pas de surcharge de paramètres et commutation de modèles souple.
- Feuille de partage Android : Supportée — Layla peut recevoir du texte d'autres applications via la feuille de partage Android, ce qui en fait l'une des deux applications dans ce guide qui s'intègrent au flux de partage Android standard.
- Fiabilité hors ligne : Bonne. Entièrement hors ligne après le téléchargement du modèle. Moins susceptible aux tueurs d'arrière-plan car aucun processus serveur local s'exécute (contrairement à Ollama via Termux).
- Stockage : Layla gère le stockage de modèles en interne. Aucune gestion manuelle de fichiers requise.
- Chemin d'installation : Google Play Store.
💡Tip: Le support de la feuille de partage de Layla la rend d'une utilité unique pour les flux de travail Android : surligner du texte dans n'importe quelle application → Partager → Layla → poser une question à ce sujet. Ce cas d'utilisation — aide IA rapide et contextuelle sans basculer d'application — est où Layla surpasse toute autre application dans cette liste.
Ollama via Termux
Ollama via Termux est le seul chemin Android vers une API locale complète compatible OpenAI — incluant l'utilisation d'outils, l'appel de fonction et la capacité de connecter les applications Android tierces à un modèle s'exécutant localement. La configuration prend 20–30 minutes et requiert une connaissance du terminal, mais le résultat est le même écosystème Ollama que les utilisateurs de bureau exécutent sur Mac et Linux, maintenant sur un téléphone.
- Bibliothèque de modèles : Illimitée — la bibliothèque de modèles Ollama complète est disponible via `ollama pull [nom-de-modèle]`. C'est l'accès au modèle le plus large de toute application dans ce guide.
- Utilisation du NPU : CPU seul dans le build Ollama ARM64 standard. Pas de support GPU Vulkan ou NPU Hexagon dans la configuration Termux standard à partir de mai 2026. Cela rend Ollama le plus lent en tokens/sec bruts (~10 tokens/sec pour Phi-4 Mini sur S25 Ultra).
- Utilisation d'outils et appel de fonction : Supporté — Ollama sur Android gère l'utilisation d'outils de la même manière que sur le bureau. Connectez n'importe quel frontend capable d'utilisation d'outils à localhost:11434.
- Feuille de partage Android : Non directement supportée. Workaround : utilisez un raccourci Termux:Widget pour rediriger le contenu du presse-papiers vers `ollama run [modèle]`.
- Fiabilité d'arrière-plan : Problématique sur Samsung et OnePlus sans whitelist d'optimisation de batterie. Créez un raccourci Termux:Widget pour
ollama serveet verrouillez Termux dans la barre d'applications récentes. Samsung One UI requiert de désactiver explicitement "Applications en veille" pour Termux. - Chemin d'installation : Termux depuis F-Droid, puis le script d'installation Ollama via curl.
- 1Installez Termux depuis F-Droid (pas la version Play Store — le build Play Store est obsolète et casse les installations Ollama).
- 2Dans Termux :
pkg update && pkg install curl - 3Installez Ollama :
curl -fsSL https://ollama.com/install.sh | sh— cela détecte l'environnement Android ARM64 et installe le bon binaire. - 4Tirez un modèle :
ollama pull qwen3:1.7bouollama pull phi4-mini. - 5Démarrez le serveur :
ollama serve(gardez cela actif dans une session Termux ou utilisez un widget d'arrière-plan). - 6Interagissez via Termux :
ollama run phi4-mini— ou connectez n'importe quelle application supportant un endpoint compatible OpenAI àhttp://localhost:11434.
⚠️Warning: Ollama via Termux sur un téléphone sera notablement plus lent qu'Ollama sur un bureau — ~10 tokens/sec sur Phi-4 Mini sur le S25 Ultra vs. 60+ tokens/sec sur un RTX 4090. Utilisez-le pour la commodité (API de poche hors ligne, requêtes rapides loin du bureau) pas pour la performance. Pour la qualité de modèle large sur mobile, la connexion à distance à une machine domestique exécutant Ollama via Open WebUI dans Chrome reste la meilleure option.
💡Tip: Installez le complément Termux:Widget et créez un raccourci d'un clic qui exécute ollama serve. Cela vous permet de démarrer le serveur Ollama depuis votre widget d'écran d'accueil Android sans ouvrir Termux. Une fois en service, n'importe quelle application configurée pour utiliser localhost:11434 se connecte automatiquement.
Private AI
Private AI est l'application IA locale Android orientée confidentialité — conçue pour les utilisateurs qui souhaitent que toute inférence reste sur l'appareil avec permissions minimales, aucune télémétrie réseau et une configuration simple non technique. Elle demande moins de permissions que n'importe quelle autre application dans ce guide et n'envoie à aucun serveur externe après le téléchargement initial du modèle.
- Bibliothèque de modèles : Curée, contrôlée pour la confidentialité. Les téléchargements proviennent de sources vérifiables. Pas d'accès aux repos Hugging Face arbitraires — échange la flexibilité pour un approvisionnement en modèles contrôlé et vérifiable.
- Utilisation du NPU : Chemin CPU seul. Cohérent sur tous les chipsets à ~13 tokens/sec sur Phi-4 Mini (S25 Ultra).
- Qualité de l'interface : Propre, minimaliste. Focalisée sur le chat avec exportation de conversation et aucune télémétrie d'utilisation. Manque les options de configuration avancée (température, top-p, prompts système) — volontairement simplifiée.
- Feuille de partage Android : Non supportée à partir de mai 2026.
- Fiabilité hors ligne : Best-in-class. Conçue pour s'exécuter entièrement hors ligne. Aucun appel réseau d'arrière-plan, aucune synchronisation, aucune analytique.
- Permissions : Minimales — demande l'accès au stockage et au microphone (pour l'entrée vocale, optionnel). Ne demande pas de contacts, de position ou d'ID publicitaire.
- Chemin d'installation : Google Play Store.
💡Tip: Si votre cas d'utilisation implique du texte professionnel sensible — brouillons juridiques, notes médicales, contenu commercial confidentiel — les permissions minimales et l'architecture vérifiable sans télémétrie de Private AI sont significatives. Pour l'utilisation générale de productivité, PocketPal AI est un meilleur choix global, mais le modèle de confiance de Private AI est plus fort.
PocketPal AI
PocketPal AI est la meilleure application IA locale Android tout-en-un pour la plupart des utilisateurs en 2026. Elle combine l'écosystème de modèles GGUF complet (n'importe quel modèle depuis Hugging Face), l'accélération GPU Vulkan, l'interface utilisateur native mobile la plus soignée des six applications, le support direct de la feuille de partage Android et la gestion correcte du stockage Android — une combinaison qu'aucune autre application unique dans ce guide ne correspond.
- Bibliothèque de modèles : Écosystème GGUF complet — parcourez et téléchargez directement depuis Hugging Face dans l'application, ou importez des fichiers GGUF locaux. Cela couvre la même portée que Maid tout en ajoutant une interface de découverte curée.
- Utilisation du NPU : Chemin GPU Vulkan sur appareils compatibles. Sur Snapdragon 8 Elite, livre ~16 tokens/sec sur Phi-4 Mini — derrière le chemin NPU de MLC (~22 tokens/sec) mais devant toutes les applications CPU seul sur le même matériel.
- Qualité de l'interface : Meilleure interface utilisateur native mobile des six applications. Navigation par gestes, gestion de conversation, éditeur de prompt système, benchmarking de modèles et un panneau d'paramètres par modèle. Construit avec React Native + llama.rn.
- Feuille de partage Android : Supportée — PocketPal AI et Layla sont les deux seules applications dans ce guide qui s'intègrent à la feuille de partage Android. Surligner du texte dans n'importe quelle application → Partager → PocketPal AI.
- Fiabilité hors ligne : Excellente. Pas de processus serveur d'arrière-plan (contrairement à Ollama via Termux) — l'inférence s'exécute in-process, évitant les problèmes de tueur d'arrière-plan Android que les approches basées sur serveur affectent.
- Stockage : Stocke les fichiers GGUF dans le stockage d'application privé par défaut, avec une option de pointer vers le stockage externe. Les fichiers de modèle sont portables vers Maid s'ils sont déplacés dans le stockage Android partagé.
- Chemin d'installation : Google Play Store. Code source à github.com/a-ghorbani/pocketpal-ai.
💡Tip: L'outil de benchmarking de modèle in-app de PocketPal AI (exécute un prompt court et mesure tokens/sec) est utile pour comparer les tailles de modèles sur votre téléphone spécifique. Exécutez-le sur Phi-4 Mini, Qwen3 1.7B et Qwen3 4B pour trouver le plafond de vitesse pratique de votre appareil avant d'engager un modèle pour l'utilisation quotidienne.
Fragmentation Android : Stockage, RAM et limites d'arrière-plan
La fragmentation Android crée trois problèmes pratiques pour les applications IA locales : conflits de partitions de stockage, allocation RAM incohérente et politiques de tueur d'arrière-plan OEM agressives. Les trois affectent la fiabilité des modèles sur Samsung, OnePlus, Pixel et d'autres appareils OEM Android de manière qui ne se produit pas sur iOS.
💬 En termes simples
La fragmentation Android signifie qu'une application IA locale qui fonctionne parfaitement sur un Pixel 9 Pro pourrait s'arrêter au milieu d'une inférence sur un Galaxy S25 Ultra — non pas à cause de l'application ou du modèle, mais parce que la politique de tueur d'arrière-plan de Samsung termine le processus pour économiser la batterie. Chaque OEM Android personnalise ces politiques différemment — Pixel suit les standards AOSP les plus proches ; Samsung, OnePlus et Xiaomi ont tous des tueurs d'arrière-plan plus agressifs par défaut.
- Partitions de stockage : Le
/data/user/0/(stockage privé d'application) d'Android et/sdcard/(stockage partagé) sont des partitions séparées. La plupart des applications IA locales stockent les modèles dans un stockage d'application privé, qui n'est pas consultable dans le gestionnaire de fichiers sans root. Si vous souhaitez partager un fichier GGUF entre Maid et PocketPal AI, il doit d'abord être copié à un emplacement partagé. - Allocation RAM : Android ne donne pas aux applications tierces une allocation mémoire garantie. Si le système a besoin de RAM, il tue les processus d'arrière-plan — incluant les processus d'inférence. Sur les appareils 12 GB RAM (standard S25 Ultra), c'est rarement un problème lors de l'utilisation active. Sur les téléphones 8 GB RAM, lancer n'importe quelle autre application pendant l'inférence peut l'interrompre.
- Samsung One UI tueur d'arrière-plan : Le plus agressif des grands OEM Android. Naviguer vers Paramètres → Maintenance d'appareil → Batterie → Limites d'utilisation d'arrière-plan → Applications en veille, et supprimer manuellement n'importe quelle application IA de cette liste. Aussi verrouillez l'application dans la barre d'applications récentes en tapant sur son icône.
- OnePlus OxygenOS tueur d'arrière-plan : Similaire à Samsung. Aller à Paramètres → Batterie → Optimisation de batterie, trouver l'application IA et la définir à "Ne pas optimiser". Aussi verrouillez l'application dans la barre d'aperçu des applications récentes.
- Pixel (AOSP-plus-proche) : Le comportement d'arrière-plan est le plus prévisible. Les applications demandant la permission
FOREGROUND_SERVICE(PocketPal AI et Maid le font) s'exécutent de manière fiable pendant l'inférence active sur Pixel. L'exclusion de l'optimiseur de batterie est toujours recommandée pour les très longues sessions. - Xiaomi MIUI/HyperOS : Tueur d'arrière-plan le plus agressif après Samsung. La fonction "Économiseur de batterie" peut terminer l'inférence au milieu de la génération. Aller à Paramètres → Applications → Gérer les applications → [application] → Économiseur de batterie → Pas de restrictions.
⚠️Warning: Ne vous fiez pas au comportement d'arrière-plan Android par défaut pour n'importe quelle application IA locale. Sur les appareils Samsung et OnePlus, la politique par défaut interrompra les longues sessions d'inférence (>2 minutes) à moins que vous ne whitelist explicitement l'application dans les paramètres d'optimisation de batterie. C'est la cause numéro un des rapports "l'application s'est arrêtée au milieu de la réponse" pour chaque application dans ce guide.
Chemins de sideload et Termux : L'avantage Android
Le sideloading d'Android et l'écosystème Termux donnent aux utilisateurs Android un accès aux outils IA locaux qui n'existent pas sur iOS. C'est la différence pratique la plus nette entre Android et iPhone pour l'utilisation d'IA locale en 2026.
📍 En une phrase
Ollama via Termux — un serveur API IA local complet sur un téléphone — est une capacité exclusive à Android en 2026 : le sandboxing iOS d'Apple empêche la configuration équivalente sur iPhone, ce qui rend Android la seule plateforme mobile pour les utilisateurs qui ont besoin d'une API locale compatible OpenAI sur l'appareil.
- Termux : Un environnement Linux dans une application Android. Installez via F-Droid (pas Play Store). Exécute bash, Python, curl et pratiquement n'importe quel binaire Linux ARM64 — incluant Ollama. Termux n'est pas disponible sur iOS ; son équivalent (iSH) manque les capacités réseau pour fournir les APIs locales.
- Sideloading F-Droid : Installez les applications sans Google Play — utile pour Maid, Termux et autres outils IA locaux open-source. Téléchargez l'APK client F-Droid, activez "Installer à partir de sources inconnues" dans les paramètres de sécurité Android, installez F-Droid, puis installez n'importe quelle application listée sur F-Droid sans compte Google.
- Sideloading ADB : Les utilisateurs avancés peuvent sideload les APK directement via Android Debug Bridge (`adb install [app.apk]`). Cela permet d'installer les applications dont la liste Play Store est restreinte régionalement ou supprimée.
- Avantage ROM personnalisée : Les utilisateurs LineageOS, GrapheneOS et CalyxOS peuvent désactiver complètement Google Play et utiliser F-Droid + ADB comme leurs seuls chemins d'installation d'application. Maid et Termux fonctionnent entièrement sur ces plateformes. Aucun équivalent iOS n'existe.
- Mode serveur Llama.cpp via Termux : Au-delà d'Ollama, llama.cpp lui-même peut être compilé via Termux et s'exécuter en mode serveur — fournissant une API locale alternative que certains utilisateurs préfèrent pour son surcharge mémoire inférieure comparé à Ollama.
💡Tip: La configuration Termux + Ollama fonctionne aussi comme serveur API local pour d'autres applications sur le même téléphone. Par exemple, les applications comme Obsidian (avec le plugin API REST Local) ou l'automatisation personnalisée peuvent interroger localhost:11434/api/generate pour exécuter les tâches IA sans Internet — un modèle d'automatisation d'écran d'accueil véritablement utile et pratique.
Erreurs courantes
La plupart des erreurs avec les applications IA locales Android proviennent de quatre erreurs évitables.
- Installation de Termux depuis le Play Store. La version Play Store de Termux est obsolète (Termux a cessé de la mettre à jour en 2020). Le build actuellement maintenu est sur F-Droid.
pkg install curlet le script d'installation Ollama échouent tous les deux dans la version Play Store de Termux. - S'attendre à une vitesse NPU sur un téléphone Pixel. Le NPU Tensor G5 de Google n'est pas accessible aux applications tierces. Les six applications s'exécutent en CPU seul sur tous les modèles Pixel. L'avantage NPU de MLC s'applique uniquement à Snapdragon 8 Elite et ne s'étend pas à Pixel.
- Ignorer la whitelist d'optimisation de batterie sur Samsung. Les téléphones Galaxy terminent les processus d'arrière-plan agressivement. Une génération durant plus de 90 secondes sera probablement interrompue par la politique de tueur d'arrière-plan à moins que Termux ou l'application IA soit explicitement whitelisté.
- Télécharger des modèles trop volumineux pour l'appareil. Un modèle 7B Q4_K_M (~4.7 GB) requiert ~6 GB de RAM disponible. Sur un téléphone 12 GB avec surcharge système, c'est serré. Sur un téléphone 8 GB, cela va OOM-kill l'application au milieu de la génération. Utilisez Phi-4 Mini (3.8B, ~2.7 GB) pour appareils 8–10 GB et Qwen3 1.7B (~1.1 GB) pour n'importe quoi en-dessous.
- Supposer que le stockage est accessible dans les Téléchargements. La plupart des applications IA locales stockent les fichiers de modèle dans un stockage d'application privé (`/data/user/0/[app-package]/`), que le gestionnaire de fichiers ne peut pas consulter sans root. Si vous téléchargez un GGUF dans le dossier Téléchargements et vous attendez à ce que l'application le trouve, elle ne le trouvera pas — utilisez la fonction d'importation in-app ou pointez vers le bon chemin dans les paramètres.
- Exécuter simultanément deux applications d'inférence. Chaque application charge le modèle en RAM. Deux modèles 3B sur un téléphone 12 GB laissent ~5 GB pour le système d'exploitation, ce qui déclenche les tueurs. Si vous utilisez MLC Chat et PocketPal AI, fermez l'une avant d'ouvrir l'autre.
Sources
- GitHub MLC Chat et documentation — github.com/mlc-ai/mlc-llm
- GitHub Maid (Mobile Artificial Intelligence) — github.com/Mobile-Artificial-Intelligence/maid
- GitHub PocketPal AI — github.com/a-ghorbani/pocketpal-ai
- Documentation officielle Ollama — ollama.com
- Documentation officielle Termux — wiki.termux.com
- Documentation technique NPU Hexagon Snapdragon 8 Elite — Réseau de développeurs Qualcomm
- Spécifications APU MediaTek Dimensity 9400 — Page produit MediaTek
- Vue d'ensemble du chipset Google Tensor G5 — Documentation matériel Google
- Limites de processus d'arrière-plan d'Android et optimisation de batterie — Documentation développeur Android
FAQ
Un Pixel 9 Pro peut-il exécuter un modèle 7B ?
Oui, le Pixel 9 Pro a 16 GB RAM — assez d'espace pour exécuter un modèle 7B Q4_K_M (~4.7 GB de poids de modèle) avec encore une RAM système disponible. La vitesse est ~8–10 tokens/sec à cette taille (CPU seul sur Tensor G5). Utilisez PocketPal AI ou Maid avec un GGUF 7B pour ce cas d'utilisation. Pour une vitesse de conversation en temps réel sur Pixel 9 Pro, restez à Phi-4 Mini (3.8B, ~14 tokens/sec).
Ces applications utilisent-elles le NPU Snapdragon ?
Seul MLC Chat utilise le NPU Hexagon Snapdragon et uniquement sur les appareils Snapdragon 8 Elite (série Galaxy S25, OnePlus 13). Les cinq autres applications utilisent CPU ou GPU Vulkan. Le NPU Hexagon offre 2–3× une inférence plus rapide dans MLC Chat comparé au chemin CPU sur le même appareil.
Puis-je exécuter l'IA locale sur un Samsung Galaxy S22 ?
Oui, sur les variantes 8 GB RAM. Le Galaxy S22 exécute Snapdragon 8 Gen 1 (ou Exynos 2200 dans certaines régions). PocketPal AI et Maid avec Qwen3 1.7B ou SmolLM2 1.7B fonctionnent à ~8–12 tokens/sec. Phi-4 Mini (3.8B) est possible mais serré sur 8 GB RAM — fermez d'abord les autres applications. Le chemin NPU de MLC n'est pas vérifié sur Snapdragon 8 Gen 1.
Ai-je besoin de rooter mon téléphone pour l'IA locale ?
Non. Les six applications dans ce guide fonctionnent sur les téléphones Android non rootés. Termux requiert d'activer "Installer à partir de sources inconnues" pour l'APK F-Droid, mais ce n'est pas du rootage. Root n'est pertinent que pour accéder aux répertoires de stockage d'application privée depuis un gestionnaire de fichiers — non requis pour l'inférence.
Puis-je utiliser ces applications avec Termux ?
Ollama via Termux est sa propre configuration complète — vous installez Ollama à l'intérieur de Termux et interagissez via le terminal Termux. Les cinq autres applications (MLC Chat, Maid, Layla, Private AI, PocketPal AI) sont des applications Android autonomes qui n'interagissent pas avec Termux. Les utilisateurs avancés exécutent les deux : Ollama dans Termux pour l'accès API et PocketPal AI pour l'interface de chat soignée.
Comment gérez-vous les limites d'arrière-plan d'Android ?
Les limites d'arrière-plan sont le plus grand problème de fiabilité pour les applications IA locales Android. PocketPal AI et Maid demandent la permission FOREGROUND_SERVICE, ce qui les rend plus résistants aux tueurs d'arrière-plan. Ollama via Termux est susceptible aux politiques de tueur d'arrière-plan de Samsung et OnePlus à moins que Termux ne soit explicitement whitelisté dans les paramètres d'optimisation de batterie. Sur Pixel, le comportement d'arrière-plan est le plus prévisible. Sur Samsung One UI, vous whitelistez manuellement n'importe quelle application IA dans Maintenance d'appareil → Batterie → Applications en veille.
Puis-je partager la sortie IA locale avec d'autres applications ?
Oui, à partir de n'importe quelle application — copiez la réponse IA et collez-la n'importe où. Pour la direction inverse (envoi de texte d'une autre application à l'IA), seules PocketPal AI et Layla apparaissent dans la feuille de partage Android à partir de mai 2026.
Ces applications supportent-elles Android Auto ?
Non. Aucune des six applications ne supporte Android Auto à partir de mai 2026. Android Auto restreint la fonctionnalité qui peut s'exécuter pendant la conduite, et aucune des applications IA locales n'ont construit l'interface compatible Auto requise pour la certification.
Quelle application gère le mieux le stockage de modèles ?
PocketPal AI gère le stockage de modèles le plus élégamment — elle s'intègre directement avec Hugging Face pour les téléchargements in-app, gère correctement la division de partition de stockage Android et offre une interface de gestion de modèles. Maid est meilleure pour les utilisateurs qui souhaitent gérer manuellement les fichiers GGUF via le système de fichiers. MLC Chat utilise un format de modèle compilé propriétaire non portable à d'autres applications.
Puis-je exécuter plusieurs modèles simultanément ?
Uniquement si votre appareil a assez de RAM pour les deux modèles plus le surcharge Android. Sur un Pixel 9 Pro 16 GB : deux modèles Phi-4 Mini (2.7 GB chacun) laissent ~10 GB pour le système d'exploitation — techniquement faisable mais très serré. En pratique, fermez une application avant d'ouvrir l'autre. Ollama via Termux supporte le changement de modèle avec un processus ollama serve unique, chargeant chaque modèle à la fois.
Dois-je considérer la CNIL avec les applications IA locales sur Android ?
Avec l'inférence locale sur Android, la question CNIL est limitée car les données ne quittent pas l'appareil. La CNIL s'applique au traitement des données — les modèles locaux sur votre téléphone Android n'envoyant rien en dehors de l'appareil satisfont déjà la recommandation CNIL de traitement local pour les données sensibles professionnelles (données financières, données de santé, données légales). Pas de transmission de données distante, pas d'accès tiers. Remarque : vous êtes toujours tenu de gérer les permissions (par exemple, si l'application lit la liste de contacts, vous devez le divulguer à l'utilisateur). Les applications comme Maid et Private AI avec des permissions minimales réduisent ce risque.