Réponse rapide
Les meilleures applications Android pour exécuter des LLMs localement sont MLC Chat, Pocketpal et Termux avec Ollama. MLC Chat est la plus facile pour les débutants. Toutes fonctionnent entièrement hors ligne.
Mis à jour : 2026-05
Points clés
En mai 2026, il existe trois méthodes pratiques pour exécuter un LLM local sur Android : MLC Chat (Machine Learning Compilation), Pocketpal AI et Termux avec Ollama. Les trois fonctionnent 100 % hors ligne après le téléchargement initial du modèle — aucune clé API ni connexion internet requise.
MLC Chat utilise le framework de compilation MLC-LLM pour préoptimiser les poids des modèles pour le matériel mobile. Vous le téléchargez depuis Google Play, sélectionnez un modèle pris en charge (Llama 3, Gemma, Phi), et le modèle se télécharge et s'exécute directement sur l'appareil. La configuration prend moins de 10 minutes.
Pocketpal AI est développée par la communauté Hugging Face et prend en charge le chargement de fichiers GGUF directement depuis Hugging Face. Cela signifie que vous pouvez exécuter n'importe quel modèle compatible GGUF, pas seulement une liste prédéfinie. La contrepartie est une configuration légèrement plus complexe nécessitant une sélection et un téléchargement manuel du modèle.
| Application | Effort de configuration | Flexibilité des modèles |
|---|---|---|
| MLC Chat | Facile (Play Store) | Modèles préoptimisés uniquement |
| Pocketpal | Moyen | GGUF from Hugging Face |
| Termux + Ollama | Avancé (CLI) | Bibliothèque Ollama complète |
Commencez par MLC Chat si c'est votre premier setup LLM Android — c'est le plus rapide jusqu'au premier token et le moins de configuration. Pocketpal est la voie d'évolution pour les utilisateurs qui veulent changer de modèles fréquemment. Termux + Ollama est destiné aux développeurs qui connaissent déjà Ollama et veulent le même workflow CLI sur mobile.
Un téléphone Android haut de gamme avec 8+ Go de RAM gère un modèle 2–3B à 4–8 tok/s sur CPU. Les téléphones milieu de gamme de 2023–2024 sont plus lents (1–3 tok/s) — utilisables pour les tâches en lot, frustrants pour le chat en direct. N'essayez pas les modèles 7B sur un appareil avec moins de 8 Go de RAM.
Termux + Ollama est l'option la plus puissante mais présente la courbe de configuration la plus abrupte. Vous installez Termux depuis F-Droid, puis exécutez pkg install ollama dans le terminal. Une fois installé, toutes les commandes Ollama standard fonctionnent, y compris ollama pull et ollama run. Cette approche convient mieux aux développeurs qui utilisent déjà Ollama sur desktop.
La consommation de batterie est importante à partir du niveau 7B. Une session de chat de 30 minutes avec Llama 3 8B Q4 sur un téléphone haut de gamme utilise en moyenne 8–12 % de batterie. Pour une utilisation fréquente, branchez l'appareil ou restez sur des modèles 2–3B comme Phi-3 Mini et Gemma 2B qui consomment moins.
Pour un guide complet sur l'exécution de LLMs sur Android incluant les exigences matérielles et les recommandations de modèles, consultez le guide des meilleures applis LLM locales pour Android.
pkg update && pkg install ollama. Utilisez ensuite les commandes Ollama standard : ollama pull llama3 et ollama run llama3. Votre appareil nécessite 8+ Go de RAM pour un fonctionnement fiable.