Points clés
- Ça fonctionne aujourd'hui — mais uniquement les petits modèles. iPhone exécute 1–3B, Android 3–7B, iPad gère 13B.
- Attendez 3–15 tok/sec — utilisable pour le chat et Q&R, pas pour la génération longue.
- Meilleur setup : iPad Pro M4 + PocketPal AI ou MLC Chat. Meilleur téléphone : Android Snapdragon X Elite.
- Pourquoi ? Chat hors ligne, notes privées, zéro coûts API, pas d'internet requis.
- À éviter si : vous avez besoin de la vitesse bureau, de modèles 70B ou d'une latence < 500ms.
Faits rapides
- iPhone 16 Pro (A18 Pro) : 3–4 tok/sec sur modèles 3B, 12 Go RAM partagée, pratique pour Q&R et résumés
- iPad Pro M4 : 15 tok/sec sur modèles 7B, gère les 13B, 16 Go mémoire unifiée — meilleur appareil Apple mobile pour LLM
- Android Snapdragon X Elite : 5 tok/sec sur modèles 7B, 8–12 Go RAM, meilleure option Android pour l'inférence locale
- Écart de bande passante : iPhone A18 ~68 Go/sec vs RTX 4090 1 008 Go/sec — explique la différence de vitesse 15–50×
- Autonomie : iPhone se décharge en 2–4 heures en inférence soutenue ; iPad tient 4–6 heures
Ce qui fonctionne vraiment sur mobile (2026)
iPhone (A18/A18 Pro) : Exécute uniquement les modèles 1–3B. Llama 3.2 1B et Phi-4 Mini 3.8B sont les choix pratiques. Vitesse : 3–4 tok/sec. Bon pour les Q&R rapides, résumés courts, consultations hors ligne. Pas utilisable pour les longues conversations ou la génération de code.
Android (Snapdragon X Elite) : Exécute les modèles 3–7B. Llama 3.2 7B et Mistral 7B fonctionnent à 5 tok/sec. Galaxy S25 Ultra et les appareils Snapdragon haut de gamme sont les meilleures options Android.
iPad Pro (M4) : Le seul appareil mobile où les LLM locaux sont vraiment utilisables. Exécute les modèles 7–13B à 15 tok/sec avec 16 Go de mémoire unifiée.
Ce qui NE fonctionne PAS : Les modèles 70B sur aucun mobile. Les 7B sur iPhone (crashs). Tout modèle sur les téléphones avec moins de 8 Go de RAM.
Quel matériel mobile pour les LLM locaux en 2026 ?
L'iPhone 16 Pro (A18 Pro) est le minimum pratique pour les LLM locaux — 12 Go de RAM partagée exécute Llama 3.2 3B à 4 tok/sec. L'iPhone 16 standard (8 Go) ne gère que les modèles 1B.
| Appareil | Taille max. modèle | Vitesse | Mémoire |
|---|---|---|---|
| iPhone 16 (A18) | 3B | 3 tok/sec | Partagée 8 Go |
| iPhone 16 Pro (A18 Pro) | 3B | 4 tok/sec | Partagée 12 Go |
| Android (Snapdragon X Elite) | 7B | 5 tok/sec | 8–12 Go |
| Pixel 9 Pro (Tensor G4) | 3B | 3 tok/sec | 16 Go |
| Samsung Galaxy S25 Ultra | 7B | 4 tok/sec | 12 Go |
| iPad Pro (M4) | 13B | 15 tok/sec | Partagée 16 Go |
Le Pixel 9 Pro exécute Gemini Nano nativement via l'API AICore de Google — l'accès n'est pas encore ouvert aux apps tierces. Le Samsung Galaxy S25 Ultra propose Samsung Galaxy AI (on-device + cloud hybride) — inférence purement locale via MLC Chat ou LLaMa Lite.
Meilleurs setups actuels : apps et frameworks
| App | Plateforme | Modèles supportés | Coût |
|---|---|---|---|
| PocketPal AI | iOS, Android | 1–3B GGUF | Gratuit |
| MLC Chat | iOS, Android | 1–7B | Gratuit (open source) |
| Ollama iOS | iPhone, iPad | 1–3B | Gratuit |
| Layla | iOS | 1–3B + RAG | Gratuit + Pro |
| Chatlize | iOS, Android | 1–3B | Gratuit + Pro |
| Private LLM | iOS (iPad Apple Silicon) | 3–13B | 5,99 $ (achat unique) |
| LLaMa Lite | Android | 3–7B | Gratuit |
| MLC LLM (dev) | Android | 1–7B via MLC | Gratuit (développeur) |
PocketPal AI (lancé en janvier 2025) est l'app LLM mobile locale la plus populaire avec plus de 500 000 téléchargements sur iOS et Android (avril 2026). MLC Chat de MLC-AI offre le support le plus large de modèles (Llama, Qwen, Gemma, Phi) avec des interfaces identiques sur iOS et Android.
Quels frameworks pour le développement LLM mobile ?
iOS : Core ML et Metal Performance Shaders gèrent l'optimisation des modèles. llama.cpp fournit le moteur d'inférence sous-jacent pour la plupart des apps LLM iOS.
Android : TensorFlow Lite, ONNX Runtime et Snapdragon Neural Processing Engine. MLC LLM offre l'inférence mobile multiplateforme.
Les développeurs peuvent convertir les modèles Llama, Qwen et Mistral aux formats GGUF ou Core ML optimisés pour mobile.
Mobile vs portable vs mini PC : que choisir ?
Les téléphones sont l'option la plus faible pour les LLM locaux — mais la seule qui tient dans votre poche.
| Facteur | Téléphone | Portable (M4 Pro) | Mini PC (M4 Pro) |
|---|---|---|---|
| Taille max. modèle | 3–7B | 70B | 70B |
| Vitesse (7B) | 3–5 tok/sec | 30–40 tok/sec | 35–45 tok/sec |
| RAM disponible | 6–12 Go utilisables | 24–48 Go | 24–64 Go |
| Portabilité | Poche | Sac | Bureau uniquement |
| Autonomie (inférence) | 2–5 heures | 6–10 heures | Branché |
| Coût | 0 € (téléphone existant) | 1 999 €+ | 799 €+ |
| Idéal pour | Q&R rapides hors ligne | Développement portable | Serveur permanent |
Pour la plupart : téléphone pour les requêtes rapides, portable pour le travail sérieux, mini PC comme serveur LLM local via Wi-Fi.
Quelle vitesse : LLM mobiles vs bureau ?
Le mobile est 15–50× plus lent que le bureau en raison de la bande passante mémoire. Un iPhone A18 dispose de ~68 Go/sec ; une RTX 4090 atteint 1 008 Go/sec. La vitesse d'inférence LLM est directement proportionnelle à la bande passante.
| Appareil | Modèle | Tokens/sec |
|---|---|---|
| Desktop RTX 4090 | Llama 7B | 150 tok/sec |
| iPad M4 | Llama 7B | 15 tok/sec |
| Android (Snapdragon X) | Llama 7B | 5 tok/sec |
| iPhone 16 Pro | Llama 3B | 4 tok/sec |
Considérations régionales
UE/France : La conformité RGPD (Article 5) est un moteur clé pour les LLM locaux mobiles — l'inférence on-device conserve les données personnelles sur le téléphone de l'utilisateur sans transfert transfrontalier. La CNIL recommande le traitement local de l'IA pour les données professionnelles sensibles (financières, médicales, juridiques). Les politiques MDM d'entreprise en France exigent de plus en plus l'IA on-device pour les applications de santé et juridiques.
Japon : Les exigences APPI favorisent l'inférence on-device pour les applications mobiles professionnelles. Les opérateurs japonais coopèrent avec les fabricants de puces pour optimiser l'IA on-device.
Chine : Les LLM locaux mobiles avec Qwen2.5 sont conformes à la loi chinoise sur la sécurité des données de 2021. Huawei Kirin 9000S et MediaTek Dimensity 9300 supportent l'inférence on-device pour les modèles en chinois.
Meilleurs cas d'usage pour les LLM mobiles
Les LLM mobiles ne remplacent pas l'IA de bureau. Ils excellent quand l'offline, la confidentialité ou le coût zéro comptent plus que la vitesse.
- Assistant chat hors ligne — Q&R en avion, métro, zones rurales sans internet.
- Notes privées — Résumer des notes de réunion, reformuler des brouillons sans envoyer de données. Conforme RGPD par conception.
- Aide au code — Phi-4 Mini 3.8B sur iPad : complétion Python, JavaScript et SQL.
- Apprentissage des langues — Conversations hors ligne dans toute langue.
- Travail de terrain — Professionnels de santé, inspecteurs, juristes : documents locaux.
- Journal personnel — Réflexion assistée par IA avec confidentialité totale.
Limitations à connaître
- Contraintes RAM : Un iPhone « 12 Go RAM » n'a que 6–8 Go utilisables après l'overhead iOS. Fermez les autres apps.
- Autonomie : Inférence soutenue : iPhone 2–4 heures, iPad 4–6 heures. Limitez les réponses à 200 tokens max.
- Throttling thermique : Les téléphones réduisent CPU/GPU après 5–10 min. Vitesse baisse de 20–40%.
- Qualité des modèles : Les 1–3B sont nettement inférieurs à GPT-4o ou Claude. Erreurs factuelles, contexte court (2K–4K tokens).
- Pas de 7B sur iPhone : Le max pratique est 3B. Le 7B provoque des crashs.
- Mémoire partagée : Les appareils partagent la RAM entre OS, apps et LLM.
Quand les LLM mobiles deviendront-ils pratiques ?
Fin 2027 est le point d'inflexion. Apple A19 Pro et Snapdragon X2 apporteront les 7–13B à 15–25 tok/sec sur téléphones.
Téléphones 2027 : 7–13B à 15–25 tok/sec. Pratique pour la plupart des tâches de chat.
2028+ : Modèles 13–24B attendus. Qualité approchant GPT-3.5.
Meilleure option aujourd'hui : Téléphone pour requêtes rapides et un Mac mini M4 Pro ou GPU bureau comme serveur local via Wi-Fi.
Questions fréquentes
Peut-on exécuter un LLM local sur iPhone ?
Oui, mais uniquement les petits modèles (1–3B paramètres). L'iPhone 16 avec puce A18 exécute Llama 3.2 1B à ~3 tokens/sec. Les modèles supérieurs à 3B provoquent des crashs. Utilisez PocketPal AI, MLC Chat ou Ollama iOS.
Quels appareils Android peuvent exécuter des LLM locaux ?
Les appareils Android avec Snapdragon X Elite/Plus exécutent les modèles 7B à ~5 tokens/sec. Les Android de milieu de gamme (Snapdragon 8 Gen 3) gèrent les 3B à ~3 tokens/sec. Pixel 9 Pro et Galaxy S25 Ultra supportent 3–7B via MLC Chat. Moins de 8 Go de RAM est insuffisant.
Comment l'iPad se compare-t-il à l'iPhone pour les LLM locaux ?
L'iPad Pro M4 surpasse largement l'iPhone : 15 tokens/sec sur Llama 7B vs 3–4 tokens/sec sur iPhone 16 Pro. L'iPad M4 gère les modèles 13B (16 Go de mémoire unifiée). Pour l'IA mobile, l'iPad est l'appareil Apple recommandé.
Quelle est la meilleure app pour les LLM sur mobile ?
PocketPal AI est la plus populaire en avril 2026 (500K+ téléchargements, iOS + Android). MLC Chat offre le support le plus large (Llama, Qwen, Gemma, Phi). Pour iOS : Ollama iOS ou Layla. Pour Android : LLaMa Lite ou MLC Chat. Toutes gratuites.
Pourquoi l'inférence LLM mobile est-elle beaucoup plus lente que le bureau ?
La bande passante mémoire. L'iPhone A18 a ~68 Go/sec ; la RTX 4090 a 1 008 Go/sec — près de 15× plus. La vitesse d'inférence LLM est proportionnelle à la bande passante. Le mobile excelle en efficacité (1–5 W vs 300–600 W), pas en débit.
L'inférence LLM mobile draine-t-elle la batterie ?
Oui — l'inférence soutenue décharge l'iPhone en 2–4 heures. Limitez la longueur des réponses (max 200 tokens). L'iPad M4 tient 4–6 heures. Apple Silicon est plus efficace que Snapdragon X en inférence soutenue.
Peut-on utiliser Gemini Nano sur Pixel ?
Indirectement. Gemini Nano tourne nativement sur Pixel 9 Pro via l'API AICore, mais n'est pas accessible aux apps tierces (avril 2026). Gemini Nano alimente les fonctions système (Magic Compose, résumés). Pour un LLM local contrôlé : PocketPal AI ou MLC Chat avec Llama 3.2 3B ou Phi-4 Mini.
Les smartphones de 2027 pourront-ils exécuter des modèles 70B ?
Non. Les feuilles de route actuelles (Apple A19 Pro, Snapdragon X2, Tensor G5) indiquent 7–13B à 15–25 tok/sec — pas 70B. La bande passante et les contraintes thermiques limitent la taille des modèles. Pour le 70B en format mobile, l'iPad Pro M6 ou un Mac mini M5 Pro (serveur local via Wi-Fi) reste l'option pratique pour 2027.
Sources
- Spécifications Apple A18 — Spécifications matérielles officielles de l'iPhone 16
- Plateforme Qualcomm Snapdragon X Elite — Capacités d'inférence IA pour appareils Android et Windows
- Ollama iOS (SwiftUI) — Client iOS open source pour LLM locaux sur iPhone et iPad
- TensorFlow Lite — Framework Google pour l'inférence machine learning on-device