Quelle est la meilleure application LLM locale pour iPhone en 2026 ?

PocketPal AI est la meilleure option gratuite pour la plupart des utilisateurs — open source, disponible sur l'App Store, compatible avec n'importe quel modèle GGUF depuis Hugging Face, et fait tourner Phi-4 Mini (3,8B) à ~10–15 tokens/sec sur iPhone 16 Pro. Private LLM est la meilleure option payante (~11 € en achat unique) avec l'intégration iOS Shortcuts et Siri. MLC Chat est le plus rapide sur Apple Silicon grâce à l'accélération Metal. LLM Farm est le plus configurable pour les utilisateurs avancés. Apple Intelligence exécute également des modèles on-device mais est intégré au système et complète ces applications.

Accueil/LLM locaux avancés/Meilleures applications LLM locales pour iPhone en 2026 (IA sans WiFi)

Mobile & Edge LLMs

Meilleures applications LLM locales pour iPhone en 2026 (IA sans WiFi)

Dernière mise à jour: 2026-06-19·12 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Lire en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Pour la plupart des utilisateurs iPhone en 2026, installez PocketPal AI depuis l'App Store et téléchargez Phi-4 Mini (3,8B Q4_K_M, ~2,7 Go). Gratuit, open source, compatible avec iPhone 14 Pro et les modèles plus récents (tout iPhone avec 6 Go+ de RAM), il génère ~10–15 tokens/sec sur iPhone 16 Pro pour un usage quotidien. Pour l'intégration payante avec Shortcuts et Siri, Private LLM est la meilleure option payante (~11 € en achat unique). Pour les tokens/sec les plus rapides sur Apple Silicon, MLC Chat utilise MLC LLM avec accélération Metal. LLM Farm est le plus configurable pour les utilisateurs avancés. Apple Intelligence exécute également des modèles on-device mais est intégré au système — il complète ces applications plutôt qu'il ne les remplace.

Cinq applications iPhone font tourner de vrais LLM entièrement sur l'appareil en 2026 : PocketPal AI, Private LLM, MLC Chat, LLM Farm et Apple Intelligence (intégrée au système). Toutes fonctionnent sans WiFi une fois le modèle téléchargé. Ce guide les classe selon les tokens par seconde sur iPhone 16 Pro et iPhone 17 Pro, la bibliothèque de modèles, la gestion de la RAM, la posture de confidentialité et l'intégration iOS.

Points clés

PocketPal AI est la meilleure option gratuite par défaut. Open source, disponible sur l'App Store, compatible avec n'importe quel modèle GGUF depuis Hugging Face. Fait tourner Phi-4 Mini à ~10–15 tokens/sec sur iPhone 16 Pro. Point de départ recommandé pour la plupart des utilisateurs.
Private LLM est la meilleure option payante (~11 €, sans abonnement). Bibliothèque de modèles sélectionnés, intégration iOS Shortcuts et commande vocale Siri "Dis Siri, demande à Private LLM". Vaut l'investissement si vous souhaitez un accès vocal mains libres ou une automatisation de vos flux de travail.
MLC Chat est le plus rapide sur Apple Silicon. Utilise MLC LLM avec accélération GPU Metal, générant des tokens 25–35 % plus rapidement que les applications basées sur llama.cpp sur le même matériel. Sélection de modèles plus restreinte que PocketPal AI.
LLM Farm est le plus configurable. Expose les paramètres d'échantillonnage (température, top-p, mirostat), les instructions système par modèle et les modèles de chat. Idéal pour les utilisateurs souhaitant affiner les modèles pour des cas d'usage spécifiques.
Apple Intelligence est on-device mais pas une application distincte. Le modèle de fondation 3B d'Apple tourne dans iOS 18+ sur iPhone 15 Pro et les modèles plus récents. Il alimente des fonctionnalités système (Outils d'écriture, Réponse intelligente, Résumés de notifications) mais n'est pas directement accessible via une interface de chat.
Modèle recommandé pour iPhone 16 Pro / 17 Pro : Phi-4 Mini (3,8B Q4_K_M, ~2,7 Go). Meilleur équilibre qualité/vitesse pour le niveau 8 Go de RAM. Anciens iPhone avec 6 Go de RAM (iPhone 14 Pro) : Qwen3 1.7B ou SmolLM 2 1.7B.
Aucune application ne nécessite de jailbreak. Les cinq fonctionnent sur iOS standard. PocketPal AI, Private LLM, MLC Chat et LLM Farm sont sur l'App Store ; Apple Intelligence est intégré à iOS.

Données rapides

Applications testées : PocketPal AI, Private LLM, MLC Chat, LLM Farm, Apple Intelligence (système).
Appareils de test : iPhone 16 Pro (A18 Pro, 8 Go de RAM) et iPhone 17 Pro (A19 Pro).
Moteurs d'inférence : llama.cpp (PocketPal AI, LLM Farm), MLC LLM avec Metal (MLC Chat), runtime on-device propriétaire (Private LLM, Apple Intelligence).
iPhone minimum pour les modèles 3B+ : iPhone 14 Pro (A16, 6 Go de RAM) pour 1,7B ; iPhone 15 Pro / 16 Pro / 17 Pro (8 Go+) pour 3B–4B.
Meilleure application gratuite : PocketPal AI — App Store, open source, flexibilité des modèles.
Meilleure application payante : Private LLM — ~11 € en achat unique, support Shortcuts + Siri.
Hors ligne : Les cinq fonctionnent entièrement hors ligne une fois le modèle téléchargé ; aucun appel cloud.

Quelle application iPhone installer en premier ?

Pour la plupart des utilisateurs : PocketPal AI depuis l'App Store, puis téléchargez Phi-4 Mini (3,8B Q4_K_M). Cette combinaison fonctionne sur iPhone 14 Pro et les modèles plus récents, ne coûte rien et produit des résultats utilisables pour le chat quotidien, la synthèse et la rédaction rapide. Choisissez une autre application uniquement si vous avez un besoin spécifique qu'elle ne couvre pas.

📍 En une phrase

Pour la plupart des utilisateurs iPhone en 2026, installez PocketPal AI (gratuit, App Store) et téléchargez Phi-4 Mini — il couvre le chat quotidien, la synthèse et la rédaction sur tout iPhone avec 6 Go+ de RAM.

💬 En termes simples

Cinq applications font tourner l'IA entièrement sur votre iPhone en 2026. PocketPal AI est le meilleur point de départ gratuit — installez-le, téléchargez un fichier modèle de 2,7 Go une seule fois, et vous disposez d'un assistant de chat privé qui fonctionne dans le train sans WiFi. Private LLM est l'option payante si vous souhaitez que Siri parle au modèle local. MLC Chat est le plus rapide. LLM Farm est le plus flexible. Apple Intelligence est intégré à iOS mais n'est pas une application de chat. PocketPal AI couvre 90 % des cas d'usage.

Décision : quelle application IA locale pour iPhone ?

Use a local LLM if:

•Vous souhaitez un assistant IA gratuit fonctionnant hors ligne → PocketPal AI
•Vous souhaitez que Siri parle à votre modèle local → Private LLM
•Vous souhaitez la vitesse de génération maximale sur Apple Silicon → MLC Chat
•Vous souhaitez régler les paramètres d'échantillonnage et les modèles de chat → LLM Farm
•Vous n'avez besoin que d'aide à la rédaction dans Mail / Messages / Notes → Apple Intelligence (intégré)

Use a cloud model if:

•Vous avez besoin de la qualité d'un modèle 70B+ (Llama 3.3 70B, niveau GPT-5.5) → utilisez le cloud ou connectez-vous à distance à une machine domestique
•Vous avez besoin d'accès à GPT-5.5, Claude Opus ou Gemini spécifiquement → applications cloud (non disponibles en local)
•Vous avez besoin de vision en temps réel ou de sorties multimodales au-delà du texte → cloud (le multimodal on-device est limité en 2026)

Quick decision:

→Gratuit + couvre 90 % des cas : PocketPal AI
→Payant + intégration native iOS : Private LLM
→Le plus rapide sur puce : MLC Chat

Quelle app IA locale pour iPhone : PocketPal AI (défaut gratuit), Private LLM (Siri + Raccourcis), MLC Chat (la plus rapide sur Apple Silicon), LLM Farm (configurable), Apple Intelligence (intégré à iOS 18+).

💡Tip: Installez PocketPal AI en premier, même si vous envisagez de payer Private LLM plus tard. Utilisez PocketPal AI pour tester si l'inférence on-device sur votre iPhone est suffisamment rapide pour votre usage. Si oui, décidez si l'intégration iOS Shortcuts et Siri de Private LLM vaut ~11 €. Si non, vous avez économisé 11 € en le découvrant avant de payer.

Tableau comparatif des applications iPhone

Les cinq applications se différencient sur trois axes importants pour la plupart des utilisateurs : le coût, la flexibilité des modèles et l'intégration avec iOS. Les différences de vitesse existent mais sont moins importantes que l'écart entre n'importe laquelle de ces applications et un LLM cloud.

📍 En une phrase

PocketPal AI est la meilleure option gratuite par défaut, Private LLM est la meilleure option payante, MLC Chat est le plus rapide, LLM Farm est le plus configurable, Apple Intelligence est intégré au système.

💬 En termes simples

Le choix se résume généralement à trois critères : souhaitez-vous payer (Private LLM), voulez-vous la vitesse maximale (MLC Chat) ou la flexibilité pour ajuster les paramètres (LLM Farm) ? Pour tout le reste, PocketPal AI est le choix par défaut. Les chiffres du tableau supposent une quantisation Q4_K_M — le standard pour l'inférence mobile en 2026.

Application	Prix	Tokens/sec (Phi-4 Mini, 16 Pro)	Confidentialité	Idéal pour
PocketPal AI	Gratuit (open source)	~10–15	Local uniquement, sans télémétrie	Option gratuite par défaut pour la plupart
Private LLM	~11 € achat unique	~10–14	Local uniquement, analyses opt-in	iOS Shortcuts + intégration Siri
MLC Chat	Gratuit (open source)	~14–20 (accélération Metal)	Local uniquement, sans télémétrie	Le plus rapide sur Apple Silicon
LLM Farm	Gratuit (open source)	~10–15	Local uniquement, sans télémétrie	Utilisateurs avancés réglant l'échantillonnage
Apple Intelligence	Gratuit (intégré à iOS 18+)	N/A (fonctionnalité système)	Local + Private Cloud Compute opt-in	Assistance Mail, Messages, Notes

Note sur Apple Neural Engine (ANE) vs Metal : PocketPal AI et LLM Farm utilisent llama.cpp avec Metal Performance Shaders pour l'inférence, qui s'exécute sur le GPU. MLC Chat utilise MLC LLM avec une optimisation Metal plus poussée, atteignant 25–35 % de tokens/sec de plus sur le même matériel. Apple Intelligence utilise l'ANE spécifiquement pour le modèle système 3B, plus économe en énergie mais moins flexible que l'inférence basée sur Metal. L'A18 Pro (iPhone 16 Pro) et l'A19 Pro (iPhone 17 Pro) disposent tous deux d'ANE améliorés, mais les applications tierces ne peuvent pas cibler directement l'ANE — c'est réservé à Apple Intelligence et aux API Apple.

Comparatif apps LLM locaux iPhone : PocketPal AI et LLM Farm (gratuit, ~10–15 tok/s), MLC Chat (gratuit, ~14–20 tok/s, Metal), Private LLM (~10€ unique, Siri + Raccourcis), Apple Intelligence (système, iOS 18+).

💡Tip: Les chiffres de tokens/sec supposent une quantisation Q4_K_M (le standard pour l'inférence mobile en 2026) et un iPhone inactif sans autre application lourde en cours. Les applications en arrière-plan réduisent le débit de 10–30 %. Les tokens/sec sur iPhone 17 Pro sont environ 20–30 % plus élevés que sur iPhone 16 Pro grâce aux améliorations de l'A19 Pro.

PocketPal AI : option gratuite open source

PocketPal AI est le point de départ recommandé pour la plupart des utilisateurs iPhone en 2026. Gratuit, open source (GitHub : a-ghorbani/pocketpal-ai), disponible sur l'App Store et compatible avec n'importe quel modèle GGUF depuis Hugging Face. L'application utilise llama.cpp en coulisses avec des optimisations Apple Silicon.

Qu'est-ce que c'est : une application iOS qui exécute des modèles GGUF en local avec llama.cpp. Sans abonnement, sans télémétrie, sans compte requis.
Installation : App Store → "PocketPal AI". Téléchargement gratuit.
Ajouter un modèle : dans l'application, appuyez sur Modèles → "Ajouter depuis Hugging Face" → recherchez (ex. "phi-4-mini-instruct-Q4_K_M") → appuyez pour télécharger. Le modèle est stocké dans l'espace de stockage local de l'application (~2,7 Go pour Phi-4 Mini Q4).
Vitesse de génération (iPhone 16 Pro) : Phi-4 Mini ~10–15 tok/sec, Llama 3.2 3B ~12–18 tok/sec, Gemma 3 4B ~7–10 tok/sec, Qwen3 1.7B ~18–24 tok/sec.
Idéal pour : les utilisateurs souhaitant une application de chat gratuite, installable depuis l'App Store, sans compte, compatible avec tout modèle GGUF communautaire.

💡Tip: Le sélecteur de modèles de PocketPal AI dispose d'un filtre "Recommandés" affichant les modèles vérifiés comme tenant dans la RAM de votre appareil. Pour un iPhone 16 Pro (8 Go de RAM), le sélecteur recommande des variantes Q4_K_M de modèles jusqu'à ~4B paramètres. Faites confiance à ce filtre — l'utilisation d'un modèle trop grand entraîne l'arrêt de l'application par iOS en cours de réponse.

Private LLM : option payante avec intégration iOS

Private LLM est la meilleure option iPhone payante en 2026 (~11 €, sans abonnement). Disponible uniquement sur l'App Store, il est livré avec une bibliothèque de modèles optimisés sélectionnés. Sa différenciation réside dans l'intégration iOS : actions Shortcuts et commande vocale "Dis Siri, demande à Private LLM".

Qu'est-ce que c'est : une application iOS payante avec une bibliothèque de modèles sélectionnés et une intégration iOS poussée. Utilise un runtime on-device propriétaire optimisé pour Apple Silicon.
Installation : App Store → "Private LLM". Achat unique ~11 € (sans abonnement).
Bibliothèque de modèles sélectionnés : ~30 modèles pré-testés et optimisés pour iPhone, dont Llama 3.2 3B, Phi-4 Mini, Mistral Small Instruct et plusieurs variantes non censurées. Moins de flexibilité que PocketPal AI mais aucun risque d'installer un modèle qui plante.
iOS Shortcuts : Private LLM expose une action "Générer du texte avec Private LLM" que vous pouvez enchaîner dans des automatisations Shortcuts. Utile pour déclencher l'IA locale depuis un bouton sur votre écran d'accueil ou via des étiquettes NFC.
Intégration Siri : "Dis Siri, demande à Private LLM [votre question]" achemine l'invite vers le modèle on-device et lit la réponse à voix haute. Fonctionne sans connexion internet. La latence est plus élevée que dans l'interface de chat (~3–5 secondes avant le démarrage de l'audio).

⚠️Warning: Le prix de ~11 € de Private LLM couvre uniquement l'application iPhone. La version macOS est un achat séparé, et la version iPad est universelle avec iPhone (un seul achat couvre les deux). Vérifiez la plateforme dont vous avez besoin avant de payer. Le partage familial Apple couvre l'application pour les membres de la famille.

MLC Chat : optimisé pour Apple Silicon

MLC Chat (du projet MLC LLM) est l'application LLM locale la plus rapide sur iPhone en 2026 grâce à l'accélération GPU Metal. Gratuit, open source, il exécute des modèles compilés par la chaîne d'outils MLC LLM plutôt que des GGUF standard.

Qu'est-ce que c'est : l'application iOS de référence du projet MLC LLM, démontrant l'inférence accélérée par Metal de MLC LLM sur Apple Silicon.
Installation : App Store → "MLC Chat". Gratuit.
Avantage de vitesse : ~25–35 % plus rapide que les applications basées sur llama.cpp sur le même iPhone pour le même modèle. Sur iPhone 16 Pro : Phi-4 Mini ~14–20 tok/sec (contre ~10–15 dans PocketPal AI).
Bibliothèque de modèles : plus restreinte que PocketPal AI — limitée aux modèles compilés pour iOS par le projet MLC LLM. Inclut actuellement Llama 3.2 3B, Phi-4 Mini, Gemma 3 4B, RedPajama et quelques autres. Tous les GGUF Hugging Face ne fonctionnent pas.
Idéal pour : les utilisateurs qui privilégient la vitesse à la flexibilité des modèles. Si votre modèle cible est dans la bibliothèque MLC, MLC Chat sera l'option la plus rapide sur votre iPhone.

💡Tip: L'accélération Metal de MLC LLM est la plus utile sur les anciens iPhone avec des Neural Engines moins puissants. Sur iPhone 17 Pro, l'écart entre MLC Chat et PocketPal AI se réduit car le Neural Engine amélioré de l'A19 Pro réduit le désavantage relatif de llama.cpp. Sur iPhone 14 Pro et 15 Pro, l'avance de MLC Chat est la plus grande.

LLM Farm : la plus configurable

LLM Farm est l'application LLM locale iPhone la plus configurable en 2026. Gratuite, open source (GitHub : guinmoon/LLMFarm), elle expose des paramètres d'échantillonnage que les autres applications cachent. Idéale pour les utilisateurs souhaitant affiner le comportement des modèles plutôt que d'accepter les valeurs par défaut.

Qu'est-ce que c'est : une application iOS du développeur @guinmoon qui exécute des modèles GGUF avec de nombreuses options de configuration.
Installation : App Store → "LLM Farm". Gratuit.
Ajouter un modèle : appuyez sur l'icône de bibliothèque de modèles → "Ajouter un modèle depuis une URL" → collez un lien de téléchargement direct Hugging Face pour un fichier GGUF. Vous pouvez également transférer un GGUF via Fichiers Apple.
Configuration exposée : température, top-p, top-k, échantillonnage mirostat, pénalité de répétition, instruction système par modèle, sélection du modèle de chat, longueur de la fenêtre de contexte. Tous les paramètres que la plupart des applications cachent sont modifiables ici.
Vitesse de génération : comparable à PocketPal AI (les deux utilisent llama.cpp). Sur iPhone 16 Pro : Phi-4 Mini ~10–15 tok/sec.
Idéal pour : développeurs, ingénieurs en prompt et utilisateurs souhaitant comparer des paramètres d'échantillonnage ou tester différents modèles de chat sans naviguer dans trois menus de paramètres.

💡Tip: L'échantillonnage mirostat exposé par LLM Farm est utile pour les tâches d'écriture créative où l'échantillonnage température/top-p standard produit des sorties répétitives. Définissez mirostat en mode 2 avec une entropie cible ~5,0 et un taux d'apprentissage 0,1 comme point de départ. PocketPal AI et Private LLM n'exposent pas du tout mirostat.

Apple Intelligence : IA on-device intégrée au système

Apple Intelligence exécute le propre modèle de fondation ~3B d'Apple on-device sur iPhone 15 Pro et les modèles plus récents (puce A17 Pro avec 8 Go de RAM minimum). Ce n'est pas une application de chat — il alimente des fonctionnalités système dans Mail (Réponse intelligente), Messages (outils d'écriture), Notes (synthèse) et les résumés de notifications. Le modèle n'est pas directement accessible aux invites des utilisateurs comme PocketPal AI ou Private LLM.

Où il se trouve : intégré à iOS 18+. Activez dans Réglages → Apple Intelligence et Siri.
Configuration matérielle requise : iPhone 15 Pro / 15 Pro Max, iPhone 16, iPhone 17. Les anciens iPhone (14 et inférieurs) ne prennent pas en charge Apple Intelligence.
Fonctionnalités on-device : Outils d'écriture (réécrire, résumer, relire) dans tout champ de texte, Réponse intelligente dans Mail et Messages, Résumés de notifications, génération de Genmoji.
Private Cloud Compute : pour les tâches dépassant les capacités du modèle on-device, Apple Intelligence bascule vers Private Cloud Compute (PCC) — des serveurs Apple exécutant des modèles plus grands avec des garanties cryptographiques qu'aucune donnée utilisateur n'est conservée. PCC est opt-in et peut être désactivé.
Relation avec les applications de chat : Apple Intelligence est un complément, pas un remplacement. Il gère la réécriture et la synthèse de texte dans les applications iOS ; PocketPal AI / Private LLM / MLC Chat / LLM Farm fournissent une interface de chat dédiée pour les questions arbitraires.

💡Tip: Si Apple Intelligence est votre seul besoin (réécrire des e-mails, résumer des notifications), vous n'avez pas besoin d'une application de chat séparée. Si vous souhaitez poser des questions au modèle comme "explique la physique quantique en termes simples" ou "rédige un plan de projet pour X", installez l'une des quatre applications de chat — Apple Intelligence n'expose pas cette interface.

Modèles recommandés par génération d'iPhone

La RAM de l'iPhone détermine la limite de taille du modèle — pas la génération de puce. Un iPhone 6 Go (14 Pro, 15) peut exécuter confortablement des modèles 1,7B ; un iPhone 8 Go (15 Pro, 16 Pro, 17 Pro) exécute confortablement des modèles 3B–4B et lentement des modèles 7B. Pour le panorama plus large des modèles sur tout le matériel (pas seulement mobile), voir Meilleurs LLM locaux en 2026.

Niveau iPhone (Année, RAM)	Modèle recommandé	Taille de téléchargement	Vitesse estimée
iPhone 17 Pro (2025, 8–12 Go)	Phi-4 Mini ou Llama 3.2 3B (Q4_K_M)	~2,5–2,7 Go	~13–20 tok/sec
iPhone 16 Pro / 16 Pro Max (2024, 8 Go)	Phi-4 Mini (3,8B Q4_K_M)	~2,7 Go	~10–15 tok/sec
iPhone 15 Pro / Pro Max (2023, 8 Go)	Phi-4 Mini (3,8B Q4_K_M)	~2,7 Go	~8–12 tok/sec
iPhone 14 Pro / Pro Max (2022, 6 Go)	Qwen3 1.7B ou SmolLM 2 1.7B (Q4_K_M)	~1,1 Go	~15–20 tok/sec
iPhone 14 / 15 / 16 (non Pro, 6 Go)	Qwen3 1.7B ou SmolLM 2 1.7B (Q4_K_M)	~1,1 Go	~12–18 tok/sec
iPhone SE / anciens modèles (4 Go)	Non recommandé pour LLM on-device	—	—

Recommandations de modèles LLM par RAM iPhone : Phi-4 Mini 3,8B Q4_K_M pour les iPhones 8 Go (15 Pro–17 Pro) à 8–20 tok/s ; Qwen3 1,7B Q4_K_M pour les iPhones 6 Go (14 Pro, non-Pro) à 12–20 tok/s ; iPhone SE (4 Go) déconseillé.

💡Tip: Pour les anciens iPhone 6 Go, Qwen3 1.7B offre le meilleur équilibre taille/qualité en 2026. SmolLM 2 1.7B (HuggingFace) est comparable. Les deux produisent des réponses courtes cohérentes (1–3 paragraphes) mais peinent avec le raisonnement multi-étapes. N'installez pas Phi-4 Mini sur un iPhone 6 Go — il tient nominalement mais iOS arrêtera l'application sous toute pression mémoire.

Autonomie et surchauffe

L'inférence LLM on-device sur iPhone est intensive en CPU/GPU et génère de la chaleur. L'inférence active (modèle générant des tokens) consomme ~3–5 W ; une génération soutenue fera ralentir la puce et drainera la batterie d'environ 20–30 % par heure sur iPhone 16 Pro.

Consommation de batterie (chat actif) : ~20–30 % par heure sur iPhone 16 Pro avec Phi-4 Mini. L'iPhone 17 Pro se décharge légèrement plus vite en raison d'une puissance de pointe plus élevée, mais compense en terminant la charge de travail plus tôt.
La limitation thermique intervient après ~10–15 minutes de génération continue. Lorsque la température de surface de la puce atteint ~38 °C, iOS réduit les fréquences d'horloge, faisant chuter les tokens/sec de 30–50 %. Laisser le téléphone refroidir restaure la pleine vitesse.
Atténuation : gardez l'iPhone face vers le haut sur une surface dure (pas dans la main ou la poche) lors des longues sessions d'inférence pour permettre la dissipation de chaleur. Un étui dissipateur passif aide mais est rarement nécessaire pour les courtes interactions.
Consommation fantôme : si vous laissez une application de chat ouverte en arrière-plan après la génération, la RAM reste allouée mais aucune inférence ne tourne — l'impact sur la batterie est minimal. Fermer complètement l'application libère les ~3 Go de RAM.
Charge MagSafe pendant l'inférence : acceptable sur iPhone 17 Pro et 16 Pro (tous deux ont des conceptions thermiques améliorées). Sur iPhone 15 Pro, la combinaison charge + inférence peut atteindre les limites thermiques plus rapidement — préférez charger après.

Guide thermique LLM on-device iPhone : l'inférence active consomme 3–5W (~20–30% batterie/h sur iPhone 16 Pro) ; la bride thermique réduit la vitesse de 30–50% après 10–15 min — posez l'écran vers le haut sur une surface dure.

⚠️Warning: N'exécutez pas d'inférence LLM on-device sur un iPhone exposé au soleil direct ou dans une voiture chaude. La combinaison de la chaleur ambiante et de la charge d'inférence pousse la puce au-delà des limites thermiques en quelques minutes, déclenchant une limitation agressive et potentiellement l'avertissement "L'iPhone doit refroidir". L'application de chat ne plante pas, mais la génération ralentit à une vitesse d'exploration.

Raccourcis iOS, Siri et chargement latéral

L'intégration iOS varie considérablement selon les applications. Private LLM dispose de l'intégration la plus poussée (Shortcuts + Siri) ; PocketPal AI, MLC Chat et LLM Farm sont des applications de chat autonomes sans actions Shortcuts en 2026.

Raccourci Private LLM : résumer le texte sélectionné

“1. Action : "Obtenir le texte sélectionné" (entrée Share Sheet iOS). 2. Action : "Générer du texte avec Private LLM" → Invite : "Résume le texte suivant en trois points clés : [Texte sélectionné]" → Modèle : Phi-4 Mini. 3. Action : "Afficher le résultat" ou "Copier dans le presse-papiers". Ajoutez à Share Sheet pour l'exécuter sur tout texte sélectionné dans n'importe quelle application, entièrement hors ligne.”

Raccourci Apple Intelligence : réécrire sur un ton professionnel

“1. Action : "Obtenir le presse-papiers". 2. Action : "Utiliser le modèle" → Modèle : On-device → Invite : "Réécris ceci sur un ton professionnel et concis : [Presse-papiers]". 3. Action : "Copier dans le presse-papiers". Assignez à un widget de l'écran de verrouillage pour réécrire en un tap tout ce que vous copiez.”

Private LLM expose une action Shortcuts "Générer du texte avec Private LLM" et un déclencheur vocal "Dis Siri, demande à Private LLM [question]". La plus intégrée nativement à iOS des quatre applications de chat.
PocketPal AI est une application de chat autonome — pas d'action Shortcuts, pas d'intégration Siri. Vous ouvrez l'application et chatez. Des plans pour le support Shortcuts sont suivis dans les issues GitHub mais non livrés en mai 2026.
MLC Chat est une application de référence pour le projet MLC LLM — intégration iOS minimale. Pas d'action Shortcuts.
LLM Farm est une application de chat autonome — pas d'action Shortcuts.
Apple Intelligence s'intègre avec iOS Shortcuts via l'action "Utiliser le modèle" (iOS 18.4+). Cette action achemine une invite vers le modèle 3B on-device ou vers Private Cloud Compute (configurable). La sortie on-device peut être enchaînée dans d'autres actions Shortcuts.
Chargement latéral : aucune de ces applications ne nécessite de chargement latéral ou de jailbreak. Les quatre applications de chat sont sur l'App Store ; Apple Intelligence est intégré à iOS. Les utilisateurs UE peuvent également installer via des marketplaces alternatives en vertu du DMA en 2026, mais l'application est identique à la version App Store.

Intégration iOS par app LLM locale : Private LLM et Apple Intelligence prennent en charge Raccourcis et Siri ; PocketPal AI, MLC Chat et LLM Farm sont des apps de chat autonomes sans actions Raccourcis en 2026. PocketPal AI, MLC Chat et LLM Farm sont open-source.

💡Tip: Pour une utilisation mains libres en conduisant ou en cuisinant, le "Dis Siri, demande à Private LLM" de Private LLM est la seule option on-device fonctionnant sans toucher le téléphone. Apple Intelligence prend en charge la voix via Siri mais uniquement pour les tâches système (écriture, synthèse, actions d'application) — il n'expose pas le Q&A général comme les applications de chat.

Erreurs fréquentes

Installer un modèle plus grand que ce que la RAM de votre iPhone permet. Un modèle 7B sur un iPhone 8 Go génère à ~3–5 tokens/sec — frustrant pour le chat. iOS tend également à arrêter l'application quand d'autres applications ont besoin de mémoire. Tenez-vous-en aux modèles recommandés pour votre niveau iPhone (3B–4B pour les appareils 8 Go, 1,7B pour les appareils 6 Go).
S'attendre à une qualité d'IA cloud avec des modèles on-device. Phi-4 Mini (3,8B) est impressionnant pour sa taille mais pas au niveau de GPT-5.5. Utilisez-le pour le chat, la synthèse, la rédaction et les Q&A rapides — pas pour le raisonnement multi-étapes, la génération de code complexe ou l'écriture créative nuancée.
Exécuter l'inférence en plein soleil ou dans une voiture chaude. La limitation thermique intervient en quelques minutes. La génération ralentit de 30–50 %, et vous pouvez voir l'avertissement "L'iPhone doit refroidir". Exécutez l'inférence à température ambiante.
Laisser 3+ applications de chat installées avec des modèles de 3 Go dans chacune. Vous consommerez ~10 Go de stockage en modèles dupliqués. Choisissez une application et un modèle ; désinstallez les autres jusqu'à être sûr d'en avoir besoin.
Confondre Apple Intelligence avec une application de chat. Apple Intelligence n'a pas d'interface de chat — il alimente des fonctionnalités système. Si vous souhaitez poser des questions au modèle, installez PocketPal AI, Private LLM, MLC Chat ou LLM Farm séparément.

Sources

PocketPal AI — github.com/a-ghorbani/pocketpal-ai (application iOS open source).
Private LLM — fiche App Store et documentation développeur.
MLC Chat / Projet MLC LLM — llm.mlc.ai (déploiement iOS accéléré par Metal).
LLM Farm — github.com/guinmoon/LLMFarm (application iOS open source).
Apple Intelligence et modèles de fondation on-device — Apple Machine Learning Research et documentation Apple Developer.

Questions fréquemment posées

L'iPhone peut-il vraiment faire tourner un modèle 7B ?

Techniquement oui sur iPhone 15 Pro et les modèles plus récents (8 Go de RAM), mais pas à une vitesse utilisable. Un modèle 7B Q4 sur iPhone 16 Pro génère à ~3–5 tokens/sec — frustrant pour le chat. iOS tend également à arrêter l'application quand d'autres applications ont besoin de mémoire. Utilisez des modèles 3B–4B (Phi-4 Mini, Llama 3.2 3B, Gemma 3 4B) pour le chat on-device quotidien. Pour une qualité 7B+, connectez-vous à distance à un Mac ou PC domestique exécutant Ollama.

L'IA locale drainera-t-elle la batterie de mon iPhone ?

Oui — l'inférence active consomme ~3–5 W et draine la batterie d'environ 20–30 % par heure sur iPhone 16 Pro. Pour un usage occasionnel (quelques invites), l'impact est faible. Pour un usage soutenu (longue conversation, plusieurs tâches de synthèse), gardez l'iPhone branché. Le modèle lui-même restant en RAM sans inférence active a un impact négligeable sur la batterie.

Mon iPhone chauffera-t-il en utilisant l'IA locale ?

Oui, après environ 10–15 minutes de génération continue. La surface de la puce atteint ~38 °C et iOS réduit les fréquences d'horloge, faisant chuter les tokens/sec de 30–50 %. Pour minimiser cela : gardez l'iPhone face vers le haut sur une surface dure (pas dans la main) lors des longues sessions, et évitez le soleil direct. Les courtes interactions (moins de 5 minutes) causent rarement une chaleur notable.

Puis-je utiliser Siri avec un modèle local ?

Oui, avec Private LLM. En disant "Dis Siri, demande à Private LLM [question]", l'invite est acheminée vers le modèle on-device et Siri lit la réponse — entièrement hors ligne. PocketPal AI, MLC Chat et LLM Farm n'ont pas d'intégration Siri en 2026. Apple Intelligence s'intègre avec Siri mais uniquement pour les tâches système (écriture, synthèse, actions d'application), pas pour le Q&A général.

Ces applications fonctionnent-elles sur iPhone SE ou les anciens iPhone ?

Limitée. L'iPhone SE (4 Go de RAM) est en dessous du seuil pratique pour les LLM on-device en 2026. iPhone 14 / 15 (non Pro, 6 Go de RAM) peut faire tourner des modèles 1,7B (Qwen3 1.7B, SmolLM 2 1.7B) mais pas 3B+. iPhone 14 Pro et 15 Pro (6–8 Go de RAM) peuvent faire tourner des modèles 3B comme Phi-4 Mini à 8–12 tokens/sec. Pour les anciens iPhone, la meilleure solution est de se connecter à distance à un Mac ou PC domestique.

Puis-je synchroniser l'historique de chat entre iPhone et Mac ?

Pas nativement dans ces quatre applications. L'historique de chat est stocké localement sur chaque appareil ; il n'y a pas de fonction de synchronisation iCloud dans PocketPal AI, Private LLM, MLC Chat ou LLM Farm en mai 2026. Pour un historique de chat entre appareils, l'approche pratique est d'exécuter Open WebUI sur un Mac domestique et d'y accéder depuis les deux navigateurs — Open WebUI stocke l'historique de chat côté serveur.

Ces applications sont-elles disponibles en dehors de l'App Store ?

PocketPal AI et LLM Farm sont open source et peuvent être compilés depuis les sources via Xcode, mais les versions App Store sont la distribution standard. Private LLM et MLC Chat sont uniquement sur l'App Store. Les utilisateurs UE peuvent installer via des marketplaces alternatives en vertu du DMA en 2026, mais l'application sous-jacente est identique à la version App Store. Aucune ne nécessite de chargement latéral.

L'une d'elles nécessite-t-elle un jailbreak ?

Non. Les cinq (PocketPal AI, Private LLM, MLC Chat, LLM Farm, Apple Intelligence) fonctionnent sur iOS standard. Les quatre applications de chat sont sur l'App Store ; Apple Intelligence est intégré à iOS 18+. Le jailbreak n'est pas requis et n'est pas recommandé — perdre les mises à jour de sécurité iOS pour installer une application de chat n'est pas un compromis acceptable.

Puis-je utiliser l'IA locale dans iOS Shortcuts ?

Oui, via Private LLM (qui expose une action Shortcuts "Générer du texte avec Private LLM") ou Apple Intelligence (qui expose une action "Utiliser le modèle" dans iOS 18.4+). PocketPal AI, MLC Chat et LLM Farm n'ont pas d'actions Shortcuts en 2026. La combinaison Private LLM + un raccourci Share Sheet vous permet d'exécuter "résumer ceci" ou "réécrire ceci" sur du texte dans n'importe quelle application, entièrement hors ligne.

Comment l'IA locale se compare-t-elle à l'application ChatGPT sur iPhone ?

Les modèles on-device (Phi-4 Mini, Llama 3.2 3B) sont environ 60–75 % aussi capables que GPT-5.5 pour le chat quotidien en 2026, plus rapides sur les requêtes simples (sans aller-retour réseau), et entièrement privés. ChatGPT reste supérieur pour le raisonnement complexe, les connaissances générales du monde et les tâches multimodales. Le compromis honnête : IA locale pour les tâches routinières et privées ; ChatGPT pour les questions difficiles occasionnelles. De nombreux utilisateurs en 2026 ont les deux applications et choisissent selon la requête.

← Retour aux LLM locaux avancés