Skip to main content
PromptQuorumPromptQuorum
Accueil/LLM locaux avancés/Meilleurs modèles LLM mobiles 2026 : Phi-4 Mini vs Gemma 3 vs SmolLM
Mobile & Edge LLMs

Meilleurs modèles LLM mobiles 2026 : Phi-4 Mini vs Gemma 3 vs SmolLM

·12 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Pour la plupart des téléphones haut de gamme (8 Go+ de RAM) en 2026, Phi-4 Mini (3.8B) en quantisation Q4_K_M est le modèle le plus intelligent fonctionnant à une vitesse utilisable (~13–18 tokens/sec sur iPhone 17 Pro). Sur les téléphones plus anciens à 6 Go, Qwen 3 1.5B ou SmolLM 2 1.7B s'intègrent confortablement. SmolLM 2 1.7B est le plus rapide en tokens par seconde sur chaque appareil testé. Qwen 3 1.5B est la meilleure option multilingue (35+ langues). Gemma 3 4B est le choix équilibré par défaut si Phi-4 Mini n'est pas disponible dans votre application. Gemma 3 1B convient aux téléphones très anciens (4 Go de RAM). Llama 3.2 3B est le modèle 3B le plus éprouvé avec le support applicatif le plus large.

Six petits modèles de langage couvrent presque tous les usages mobiles en 2026 : Phi-4 Mini (3.8B), Gemma 3 4B, Gemma 3 1B, SmolLM 2 1.7B, Qwen 3 1.5B et Llama 3.2 3B. Ils diffèrent par leur vitesse en tokens par seconde, leur empreinte mémoire et leur qualité en chat, résumé, traduction et rédaction. Ce guide les compare sur iPhone 17 Pro et Galaxy S25 Ultra, donne un verdict par gamme (haut de gamme / milieu de gamme / entrée de gamme) et explique pourquoi la quantisation Q4_K_M est le standard mobile.

Points clés

  • Phi-4 Mini (3.8B) est le modèle compact le plus intelligent en 2026. Optimal sur les téléphones haut de gamme avec 8 Go+ de RAM — ~13–18 tokens/sec sur iPhone 17 Pro, ~10–15 sur iPhone 16 Pro. Meilleur raisonnement par paramètre parmi tous les modèles sous 4B.
  • SmolLM 2 1.7B est le plus rapide en tokens par seconde sur chaque appareil testé. ~26–32 tok/sec sur iPhone 17 Pro, ~20–28 sur Galaxy S25 Ultra. Idéal quand la réactivité prime sur la profondeur de réponse.
  • Qwen 3 1.5B est le meilleur modèle mobile multilingue. Entraîné sur 35+ langues dont le chinois, le japonais, l'arabe et l'allemand avec une qualité de sortie native. Premier choix pour la traduction et la rédaction en langues étrangères.
  • Gemma 3 4B est le choix équilibré par défaut. Légèrement plus lent que Phi-4 Mini sur le même matériel, mais équivalent en chat et résumé. Idéal quand Phi-4 Mini n'est pas disponible dans votre application.
  • Gemma 3 1B est l'option légère pour les anciens téléphones. Tient dans 4 Go de RAM (iPhone SE 3e génération, Android ancien). Raisonnement multi-étapes limité, mais produit des réponses cohérentes de 1–2 paragraphes plus rapidement que tout autre modèle sur matériel faible.
  • Llama 3.2 3B est le modèle 3B polyvalent le plus éprouvé. Meilleur support du tool calling parmi les six, compatibilité applicative la plus large, plus grand écosystème de fine-tunes communautaires. Légèrement derrière Phi-4 Mini en qualité brute mais plus fiable dans les cas limites.
  • Q4_K_M est la quantisation mobile standard en 2026. Préserve ~95 % de la qualité originale à un quart de la taille du fichier. Utilisez Q5_K_M ou Q6_K uniquement sur les téléphones à 12 Go+ de RAM et si l'application le supporte.

Faits rapides

  • Modèles testés : Phi-4 Mini 3.8B, Gemma 3 4B, Gemma 3 1B, SmolLM 2 1.7B, Qwen 3 1.5B, Llama 3.2 3B (tous en Q4_K_M GGUF).
  • Appareils de test : iPhone 17 Pro (A19 Pro), iPhone 16 Pro (A18 Pro, 8 Go), Galaxy S25 Ultra (Snapdragon 8 Elite), Pixel 9 Pro (Tensor G5), OnePlus 13 (Snapdragon 8 Elite).
  • Moteurs d'inférence : llama.cpp via PocketPal AI / LLM Farm (par défaut), MLC LLM via MLC Chat (accéléré Metal sur iPhone), Ollama via Termux (Android).
  • Empreinte mémoire (Q4_K_M) : Phi-4 Mini ~2.7 Go, Gemma 3 4B ~2.9 Go, Llama 3.2 3B ~2.2 Go, Qwen 3 1.5B ~1.0 Go, SmolLM 2 1.7B ~1.1 Go, Gemma 3 1B ~720 Mo.
  • RAM minimale (active) : 6 Go pour les modèles 1.5B–1.7B ; 8 Go pour les modèles 3B–4B ; 4 Go uniquement pour Gemma 3 1B.
  • Tokens/sec les plus rapides sur iPhone 17 Pro : Gemma 3 1B ~35–45, SmolLM 2 ~26–32, Qwen 3 ~24–32, Llama 3.2 3B ~16–22, Phi-4 Mini ~13–18, Gemma 3 4B ~10–13.
  • Source de quantisation : les six disponibles en Q4_K_M GGUF sur Hugging Face et via PocketPal AI / MLC Chat / LM Studio.

Quel modèle mobile choisir ?

Pour la plupart des téléphones haut de gamme (iPhone 16 Pro / 17 Pro, Galaxy S25 Ultra, OnePlus 13), choisissez Phi-4 Mini (3.8B Q4_K_M). C'est le modèle le plus intelligent sous 4B et il fonctionne à une vitesse conversationnelle utilisable. Optez pour un autre modèle uniquement si vous avez un besoin spécifique qu'il ne couvre pas — vitesse (SmolLM 2), multilingue (Qwen 3) ou compatibilité avec un ancien téléphone (Gemma 3 1B).

📍 En une phrase

Phi-4 Mini pour les téléphones haut de gamme à 8 Go+ (le plus intelligent), SmolLM 2 1.7B pour la vitesse, Qwen 3 1.5B pour le multilingue, Gemma 3 1B pour les téléphones à 4 Go, Llama 3.2 3B pour le tool calling, et Gemma 3 4B comme choix équilibré par défaut.

💬 En termes simples

Il n'existe pas de meilleur modèle mobile universel — le bon choix dépend de votre téléphone et de votre usage. Si votre smartphone date de moins de deux ans et dispose de 8 Go ou plus de RAM, installez Phi-4 Mini. Si vous chattez principalement dans une langue autre que l'anglais, installez Qwen 3. Si vous voulez les réponses les plus rapides, même au prix d'un peu de qualité, installez SmolLM 2. Si votre téléphone est ancien ou ne dispose que de 4 Go de RAM, installez Gemma 3 1B.

Décision : quel modèle mobile ?

Use a local LLM if:

  • Téléphone haut de gamme avec 8 Go+ de RAM (iPhone 16 Pro/17 Pro, Galaxy S25 Ultra, OnePlus 13) → Phi-4 Mini 3.8B
  • Besoin des tokens/sec les plus rapides sur n'importe quel appareil → SmolLM 2 1.7B
  • Usage non-anglophone (traduction, chat multilingue) → Qwen 3 1.5B
  • Besoin de large compatibilité applicative, tool calling ou RAG → Llama 3.2 3B
  • Ancien téléphone avec 4 Go de RAM → Gemma 3 1B
  • Phi-4 Mini indisponible dans votre application, besoin de qualité 4B → Gemma 3 4B

Use a cloud model if:

  • Raisonnement multi-étapes, génération de code complexe ou analyse de longs documents → cloud ou connexion distante à une machine domestique sous 70B+
  • Tâches vision-langage (entrée image, OCR) → applications cloud (les modèles vision mobiles en 2026 sont limités et lents)
  • Rédaction créative longue nécessitant une cohérence sur 3 000+ tokens → cloud ou 8B+ sur ordinateur de bureau

Quick decision:

  • Choix par défaut pour la plupart : Phi-4 Mini 3.8B
  • Le plus rapide sur chaque appareil : SmolLM 2 1.7B
  • Meilleur multilingue : Qwen 3 1.5B
Guide de sélection en 4 étapes pour les LLM mobiles : vérifier la RAM, choisir la gamme (4 Go à 8 Go+), choisir l'usage (vitesse, multilingue ou qualité), puis installer le fichier Q4_K_M GGUF via PocketPal AI ou LM Studio.
Guide de sélection en 4 étapes pour les LLM mobiles : vérifier la RAM, choisir la gamme (4 Go à 8 Go+), choisir l'usage (vitesse, multilingue ou qualité), puis installer le fichier Q4_K_M GGUF via PocketPal AI ou LM Studio.

💡Tip: En cas de doute, commencez par Phi-4 Mini sur un téléphone haut de gamme ou SmolLM 2 1.7B sur un appareil milieu de gamme — les deux se téléchargent en moins de 5 minutes avec une connexion rapide et sont réversibles. Testez une invite réelle (un e-mail à résumer, une vraie question). Si la qualité est acceptable, vous avez votre modèle par défaut. Sinon, changez en 30 secondes via PocketPal AI ou LM Studio.

Tableau comparatif des modèles mobiles

Le tableau à quatre colonnes ci-dessous est la couche d'extraction rapide — choisissez une ligne par gamme d'appareil ou cas d'usage. Les tokens/sec supposent une quantisation Q4_K_M sur iPhone 17 Pro avec PocketPal AI (llama.cpp). Ces valeurs sont 15–25 % inférieures sur iPhone 16 Pro et environ 10–20 % inférieures sur Galaxy S25 Ultra avec MLC Chat ou Termux+Ollama.

📍 En une phrase

Phi-4 Mini est le plus intelligent, SmolLM 2 1.7B le plus rapide, Qwen 3 1.5B le meilleur multilingue, Gemma 3 1B le plus petit viable, Llama 3.2 3B le meilleur 3B polyvalent, et Gemma 3 4B le choix équilibré par défaut.

💬 En termes simples

Lisez ce tableau de haut en bas par ordre de taille, ou allez directement à la ligne correspondant à votre gamme d'appareil. La colonne « Idéal pour » indique ce que le modèle optimise — choisissez la ligne dont la force vous importe le plus.

ModèleTailleTokens/sec (17 Pro)Idéal pour
Phi-4 Mini3.8B~13–18Modèle compact le plus intelligent — choix par défaut haut de gamme
Gemma 3 4B4B~10–13Choix équilibré quand Phi-4 Mini est indisponible
Gemma 3 1B1B~35–45Anciens téléphones (4 Go de RAM)
SmolLM 21.7B~26–32Tokens/sec les plus rapides, chat réactif
Qwen 31.5B~24–32Meilleur multilingue (35+ langues)
Llama 3.23B~16–22Meilleure option 3B, tool calling, RAG

Note sur le compromis vitesse-qualité : les tokens/sec évoluent inversement au nombre de paramètres sur la même puce — un modèle 1B est environ 3–4× plus rapide qu'un modèle 3.8B sur matériel identique. La qualité augmente avec les paramètres mais pas linéairement : la qualité de raisonnement de Phi-4 Mini (3.8B) est plus proche d'un modèle 7B que d'un 1.7B grâce au mix de données d'entraînement de Microsoft.

Six modèles LLM mobiles benchmarkés en Q4_K_M sur iPhone 17 Pro : Phi-4 Mini (3.8B, ~13–18 tok/sec) est le plus intelligent ; SmolLM 2 (1.7B, ~26–32 tok/sec) est le plus rapide ; Qwen 3 (1.5B) est le meilleur multilingue ; Gemma 3 1B (~35–45 tok/sec) fonctionne sur 4 Go de RAM.
Six modèles LLM mobiles benchmarkés en Q4_K_M sur iPhone 17 Pro : Phi-4 Mini (3.8B, ~13–18 tok/sec) est le plus intelligent ; SmolLM 2 (1.7B, ~26–32 tok/sec) est le plus rapide ; Qwen 3 (1.5B) est le meilleur multilingue ; Gemma 3 1B (~35–45 tok/sec) fonctionne sur 4 Go de RAM.

💡Tip: Les tokens/sec de l'iPhone 16 Pro sont environ 15–25 % inférieurs à ceux de l'iPhone 17 Pro pour chaque modèle — différence entre les Neural Engine A18 Pro et A19 Pro. Le Galaxy S25 Ultra (Snapdragon 8 Elite) est environ 10–20 % sous l'iPhone 17 Pro sur le même Q4_K_M GGUF, principalement parce que Termux+Ollama sur Android n'exploite pas encore le NPU Hexagon de Snapdragon comme MLC Chat exploite Apple Metal.

Phi-4 Mini : modèle le plus intelligent

Phi-4 Mini (3.8B paramètres, Microsoft, décembre 2024) est le modèle le plus intelligent sous 4B en 2026 grâce à un mix de données d'entraînement optimisé pour le raisonnement. Il surpasse Gemma 3 4B et Llama 3.2 3B sur les tâches chain-of-thought malgré une taille similaire. Utilisez-le par défaut sur tout téléphone disposant de 8 Go+ de RAM.

  • Paramètres et entraînement : 3.8B paramètres ; entraîné sur un mix Microsoft combinant textes web de haute qualité, chaînes de raisonnement synthétiques et contenu académique. Architecture Transformer avec grouped-query attention.
  • Empreinte mémoire : ~2.7 Go en Q4_K_M, ~3.5 Go en Q5_K_M. S'intègre confortablement sur iPhone 16 Pro / 17 Pro (8 Go) et Galaxy S25 Ultra (12 Go).
  • Vitesse (tokens/sec) : iPhone 17 Pro ~13–18, iPhone 16 Pro ~10–15, Galaxy S25 Ultra ~10–15 (Termux+Ollama), iPhone 14 Pro ~6–10 (lent mais fonctionnel).
  • Points forts qualité : raisonnement chain-of-thought, résumé, Q&A factuel, génération de code basique. Surpasse les modèles open source de taille similaire sur les benchmarks standard (MMLU, GSM8K).
  • Points faibles qualité : connaissances du monde moins larges que Llama 3.2 3B ; rédaction créative plus courte que Gemma 3 4B ; multilingue plus faible que Qwen 3 1.5B hors anglais.
  • Idéal pour : utilisateurs disposant d'un téléphone haut de gamme qui souhaitent le meilleur modèle par défaut pour le chat, le résumé et le raisonnement en anglais.

💡Tip: Phi-4 Mini bénéficie d'un prompt système invitant explicitement au raisonnement étape par étape (« Réfléchissez soigneusement avant de répondre »). Les données d'entraînement étant riches en chaînes de raisonnement, ce style de prompt produit systématiquement de meilleures réponses. Pour le chat rapide, aucun prompt système n'est nécessaire.

Gemma 3 4B : choix équilibré

Gemma 3 4B (Google DeepMind, 2025) est le choix équilibré par défaut quand Phi-4 Mini n'est pas disponible dans votre application ou si vous préférez le mix de données Google. Légèrement plus lent que Phi-4 Mini sur matériel identique, mais équivalent en chat et résumé, avec une couverture du langage naturel plus large.

  • Paramètres et entraînement : 4B paramètres ; entraîné sur le mix Google de textes web, code et données multilingues. Même famille d'architecture que Gemma 2 avec un contexte étendu.
  • Empreinte mémoire : ~2.9 Go en Q4_K_M, ~3.7 Go en Q5_K_M. Convient aux téléphones 8 Go+ ; à l'étroit sur les 6 Go.
  • Vitesse (tokens/sec) : iPhone 17 Pro ~10–13, iPhone 16 Pro ~7–10, Galaxy S25 Ultra ~7–10 (légèrement plus lent que Phi-4 Mini malgré une taille similaire).
  • Points forts qualité : ton conversationnel naturel, résumé solide, connaissances du monde plus larges que Phi-4 Mini, multilingue correct.
  • Points faibles qualité : raisonnement chain-of-thought plus faible que Phi-4 Mini ; tokens/sec plus lents ; pas toujours le premier modèle ajouté aux applications mobiles.
  • Idéal pour : utilisateurs haut de gamme souhaitant une alternative Google à Phi-4 Mini pour le chat quotidien, le résumé et la rédaction courte.

💡Tip: Gemma 3 4B utilise un chat template différent de Phi-4 Mini — vérifiez que votre application utilise le bon template Gemma (avec les marqueurs <start_of_turn>). Un mauvais template produit une sortie cassée ou répétitive. PocketPal AI, MLC Chat et LM Studio le détectent automatiquement ; LLM Farm nécessite une sélection manuelle du template Gemma dans les paramètres du modèle.

Gemma 3 1B : option légère pour anciens téléphones

Gemma 3 1B (Google DeepMind, 2025) est le plus petit modèle mobile viable en 2026 — ~720 Mo en Q4_K_M et fonctionne sur les téléphones à 4 Go. La qualité se limite à des réponses courtes et cohérentes (1–2 paragraphes), mais c'est la seule option sous 1 Go produisant une sortie utilisable sur matériel faible.

  • Paramètres et entraînement : 1B paramètres ; même architecture Gemma 3 que le 4B mais avec moins de compute d'entraînement. Conçu pour une inférence efficace sur appareils edge.
  • Empreinte mémoire : ~720 Mo en Q4_K_M, ~900 Mo en Q5_K_M. Fonctionne sur iPhone SE 3e génération, iPhone 12/13, Android ancien (4 Go de RAM minimum).
  • Vitesse (tokens/sec) : iPhone 17 Pro ~35–45, iPhone 16 Pro ~28–38, iPhone 14 ~20–28, ancien Android (4 Go) ~10–15. Modèle le plus rapide de cette sélection sur chaque appareil.
  • Points forts qualité : vitesse, faible empreinte mémoire, réponses courtes cohérentes, faible consommation batterie.
  • Points faibles qualité : raisonnement multi-étapes faible, erreurs factuelles fréquentes sur les sujets de niche, répétitions sur les longues générations (>500 tokens).
  • Idéal pour : utilisateurs disposant de téléphones sous le seuil des 6 Go de RAM, ou toute personne optimisant pour l'autonomie sur de longs trajets.

💡Tip: Utilisez Gemma 3 1B pour des tâches courtes et ciblées — résumés en une phrase, brouillons d'un paragraphe, définitions rapides, traduction simple entre paires de langues courantes. Évitez les explications multi-paragraphes et le raisonnement multi-étapes.

SmolLM 2 1.7B : le plus rapide en tokens par seconde

SmolLM 2 1.7B (Hugging Face, 2024) est le modèle mobile le plus rapide en tokens par seconde sur chaque appareil testé. ~26–32 tok/sec sur iPhone 17 Pro et ~20–28 sur Galaxy S25 Ultra. Idéal quand la réactivité prime sur la profondeur de réponse.

  • Paramètres et entraînement : 1.7B paramètres ; entraîné sur un mix Hugging Face optimisé pour l'efficacité des petits modèles. Architecture conçue pour une inférence à faible latence.
  • Empreinte mémoire : ~1.1 Go en Q4_K_M. Convient à tout téléphone avec 6 Go+ de RAM avec une large marge pour l'OS.
  • Vitesse (tokens/sec) : iPhone 17 Pro ~26–32, iPhone 16 Pro ~22–28, Galaxy S25 Ultra ~20–28, iPhone 14 Pro ~15–22. Environ 2× plus rapide que Phi-4 Mini sur la même puce.
  • Points forts qualité : réponses conversationnelles réactives, Q&A simple, continuation de type autocomplétion, rédaction en anglais.
  • Points faibles qualité : raisonnement plus faible que Phi-4 Mini, connaissances plus limitées que Llama 3.2 3B, multilingue plus faible que Qwen 3 1.5B, hallucinations occasionnelles.
  • Idéal pour : appareils milieu de gamme où la latence importe (autocomplétion de saisie, assistant vocal, chat en temps réel), ou anciens flagships où les grands modèles semblent lents.
Comparaison tokens/sec pour 6 modèles LLM mobiles sur 3 appareils en Q4_K_M : Gemma 3 1B (~35–45 sur iPhone 17 Pro) et SmolLM 2 1.7B (~26–32) mènent en vitesse ; Phi-4 Mini (~13–18) et Gemma 3 4B (~10–13) sont plus lents mais plus intelligents.
Comparaison tokens/sec pour 6 modèles LLM mobiles sur 3 appareils en Q4_K_M : Gemma 3 1B (~35–45 sur iPhone 17 Pro) et SmolLM 2 1.7B (~26–32) mènent en vitesse ; Phi-4 Mini (~13–18) et Gemma 3 4B (~10–13) sont plus lents mais plus intelligents.

💡Tip: SmolLM 2 1.7B est le meilleur choix pour un assistant vocal hors ligne sur mobile — voir Créer un assistant vocal local sur votre téléphone pour le pipeline Whisper + LLM + TTS. Les tokens/sec élevés maintiennent le temps de réponse vocale sous le seuil perceptif de ~1.5 seconde.

Qwen 3 1.5B : meilleur modèle mobile multilingue

Qwen 3 1.5B (Alibaba, 2024) est le meilleur modèle mobile multilingue en 2026 — entraîné sur 35+ langues dont le chinois, le japonais, le coréen, l'arabe, l'allemand, le français, l'espagnol et le russe. Premier choix pour la traduction, le chat non-anglophone et les usages de voyage.

  • Paramètres et entraînement : 1.5B paramètres ; entraîné sur le corpus multilingue d'Alibaba avec une forte représentation des langues CJK, de l'arabe et des principales langues européennes.
  • Empreinte mémoire : ~1.0 Go en Q4_K_M. Convient à tout téléphone avec 6 Go+ de RAM.
  • Vitesse (tokens/sec) : iPhone 17 Pro ~24–32, iPhone 16 Pro ~20–28, Galaxy S25 Ultra ~18–26, iPhone 14 Pro ~14–20. Vitesse comparable à SmolLM 2.
  • Points forts qualité : sortie de qualité native dans 35+ langues, traduction solide entre les paires de langues majeures, sortie CJK cohérente là où Phi-4 Mini et Llama 3.2 produisent des caractères cassés.
  • Points faibles qualité : raisonnement en anglais seul légèrement plus faible que Phi-4 Mini, rédaction créative plus courte que Gemma 3 4B, tool calling plus faible que Llama 3.2 3B.
  • Idéal pour : utilisateurs non-anglophones (notamment francophones, sinophones, japonophones, hispanophones), voyageurs nécessitant une traduction hors ligne, développeurs d'applications mobiles multilingues.

💡Tip: Pour la traduction en une seule passe entre deux langues spécifiques, Qwen 3 1.5B surpasse généralement un modèle plus grand centré sur l'anglais. Pour un utilisateur francophone chattant en français, Qwen 3 produit une sortie notablement plus naturelle que Phi-4 Mini malgré une taille 60 % inférieure.

Llama 3.2 3B : modèle 3B fiable et polyvalent

Llama 3.2 3B (Meta, 2024) est le modèle 3B le plus éprouvé en 2026 — compatibilité applicative la plus large, meilleur support du tool calling parmi les six, et plus grand écosystème de fine-tunes communautaires. Légèrement derrière Phi-4 Mini en qualité brute mais plus fiable dans les cas limites.

  • Paramètres et entraînement : 3B paramètres ; entraîné sur le large corpus de préentraînement de Meta avec instruction-tuning pour le chat et l'utilisation d'outils. Même architecture Llama 3 que les versions 8B et 70B.
  • Empreinte mémoire : ~2.2 Go en Q4_K_M, ~2.8 Go en Q5_K_M. Convient aux téléphones 8 Go+ ; fonctionne sur les 6 Go si les autres applications sont fermées.
  • Vitesse (tokens/sec) : iPhone 17 Pro ~16–22, iPhone 16 Pro ~12–18, Galaxy S25 Ultra ~12–18, iPhone 14 Pro ~7–11.
  • Points forts qualité : connaissances larges, support robuste du tool calling et function calling (meilleur parmi les modèles sous 4B), comportement de chat fiable, écosystème mature de fine-tunes spécialisés.
  • Points faibles qualité : raisonnement chain-of-thought plus faible que Phi-4 Mini, scores MMLU légèrement inférieurs à taille similaire, ton conversationnel moins naturel que Gemma 3 4B.
  • Idéal pour : applications mobiles nécessitant du tool calling ou function calling (RAG sur documents locaux, workflows d'agents on-device), ou utilisateurs souhaitant la plus grande bibliothèque de fine-tunes.

💡Tip: Llama 3.2 3B est le seul modèle de cette sélection avec un support du tool calling suffisamment fiable pour les workflows d'agents on-device — voir Agents IA locaux avec MCP 2026. Phi-4 Mini et SmolLM 2 peuvent techniquement faire du tool calling mais Llama 3.2 3B est le seul prêt pour la production en 2026.

Quantisation mobile : Q4_K_M comme standard

Q4_K_M est la quantisation standard pour l'inférence LLM mobile en 2026 — préserve ~95 % de la qualité originale à un quart de la taille du fichier. Utilisez Q5_K_M ou Q6_K uniquement sur les téléphones à 12 Go+ de RAM (iPhone 17 Pro Max, Galaxy S25 Ultra) où la mémoire supplémentaire est réellement disponible.

📍 En une phrase

Q4_K_M est le standard mobile — ~95 % de qualité à un quart de la taille. Q5_K_M / Q6_K ne valent le coup que sur les téléphones à 12 Go+ de RAM.

💬 En termes simples

Les modèles sur Hugging Face sont publiés en pleine précision (chaque paramètre stocké sur 16 bits). Sur téléphone, vous téléchargez une version quantisée où chaque paramètre est compressé sur 4 bits — le fichier est quatre fois plus petit et l'inférence environ quatre fois plus rapide, avec un léger coût en qualité. Q4_K_M est la variante sur laquelle la communauté s'est accordée en 2026 comme le bon équilibre pour smartphones.

  • Q4_K_M (recommandé par défaut) : quantisation 4 bits avec K-quants et précision mixte « M ». ~95 % de la qualité originale. Standard mobile en 2026. Les six modèles disponibles dans ce format sur Hugging Face.
  • Q5_K_M (pour téléphones 12 Go+) : quantisation 5 bits. ~98 % de la qualité originale. Fichiers ~25 % plus grands. Vaut le coup sur iPhone 17 Pro Max (12 Go) ou Galaxy S25 Ultra (12 Go) pour Phi-4 Mini et Llama 3.2 3B.
  • Q6_K (rarement nécessaire) : quantisation 6 bits. ~99 % de la qualité originale. Fichiers ~50 % plus grands. Uniquement pour les téléphones riches en mémoire sur des modèles où chaque point de qualité compte.
  • Q8_0 (à éviter sur mobile) : quantisation 8 bits. ~99.5 % de la qualité originale. Environ 2× la taille de Q4_K_M. Le surcoût en RAM ne se justifie pas sur smartphone.
  • Q3_K_M / Q2_K (uniquement pour appareils très contraints) : quantisation 3 bits et 2 bits. La qualité chute à ~85–90 %. À utiliser seulement si Gemma 3 1B en Q4_K_M ne tient pas encore (rare en 2026).
Niveaux de quantisation GGUF pour mobile : Q4_K_M est le standard pour les téléphones à 6 Go+ (~95 % de qualité, ×0.5 taille fichier) ; Q5_K_M et Q6_K uniquement pour 12 Go+ ; Q8_0 réservé au bureau ; Q3_K_M en dernier recours pour 4 Go.
Niveaux de quantisation GGUF pour mobile : Q4_K_M est le standard pour les téléphones à 6 Go+ (~95 % de qualité, ×0.5 taille fichier) ; Q5_K_M et Q6_K uniquement pour 12 Go+ ; Q8_0 réservé au bureau ; Q3_K_M en dernier recours pour 4 Go.

⚠️Warning: Ne téléchargez pas le même modèle en plusieurs quantisations pour « tester laquelle est meilleure ». Les différences de qualité entre Q4_K_M et Q5_K_M sont réelles mais faibles, et vous gaspillerez 5+ Go de stockage. Choisissez Q4_K_M, utilisez-le une semaine en conditions réelles, et passez à Q5_K_M uniquement si vous avez des preuves concrètes que la qualité est insuffisante.

Verdict par gamme : haut de gamme vs milieu de gamme vs entrée de gamme

La gamme du téléphone détermine le plafond de modèle — la génération de puce et la RAM comptent plus que la marque. Un téléphone haut de gamme (8 Go+ de RAM, A18 Pro / A19 Pro / Snapdragon 8 Elite) supporte confortablement des modèles 3.8B–4B ; un milieu de gamme (6–8 Go de RAM, ancienne puce haut de gamme) supporte 1.7B–3B ; un entrée de gamme ou ancien (4–6 Go de RAM) supporte 1B–1.5B.

📍 En une phrase

Téléphones haut de gamme (8 Go+) → Phi-4 Mini 3.8B ; milieu de gamme (6–8 Go) → SmolLM 2 1.7B ou Llama 3.2 3B ; entrée de gamme ou ancien (4–6 Go) → Gemma 3 1B ou Qwen 3 1.5B.

💬 En termes simples

Adaptez le modèle à votre téléphone, pas à vos aspirations. Un modèle 3.8B sur un téléphone à 6 Go produit des pauses frustrantes de 3 secondes et des plantages. Un modèle 1B sur un haut de gamme laisse des capacités inexploitées. Choisissez le plus grand modèle que votre téléphone peut faire tourner confortablement avec l'OS et au moins une autre application ouverte.

GammeExemplesModèle recommandéPourquoi
Haut de gamme (8–12 Go RAM)iPhone 17 Pro / Pro Max, iPhone 16 Pro, Galaxy S25 Ultra, OnePlus 13Phi-4 Mini (3.8B Q4_K_M)Modèle le plus intelligent que la puce supporte à vitesse utilisable
Ancien haut de gamme (8 Go RAM)iPhone 15 Pro, Galaxy S24 Ultra, Pixel 9 ProLlama 3.2 3B ou Phi-4 MiniLlama 3.2 3B pour le tool calling ; Phi-4 Mini pour la qualité brute
Milieu de gamme (6–8 Go RAM)iPhone 14 Pro, Pixel 9, téléphones Snapdragon 8 Gen 2SmolLM 2 1.7B ou Qwen 3 1.5BVitesse réactive ; s'intègre avec marge pour l'OS
Entrée de gamme / ancien (4–6 Go RAM)iPhone 14, Snapdragon série 7 milieu, ancien AndroidGemma 3 1B ou Qwen 3 1.5BPlus petits modèles viables produisant encore une sortie cohérente
Très ancien (4 Go RAM)iPhone SE 3e génération, ancien Android 4 GoGemma 3 1BSeul modèle qui tient ; raisonnement limité, tokens/sec rapides
Non supporté (<4 Go)iPhone SE 2e génération, ancien AndroidConnexion distante à une machine domestiqueLLM on-device non pratique ; utiliser tablette/téléphone comme interface pour un serveur Ollama domestique
Recommandations LLM mobile par gamme : haut de gamme (8–12 Go RAM) → Phi-4 Mini 3.8B ; ancien haut de gamme (8 Go) → Llama 3.2 3B ; milieu de gamme (6–8 Go) → SmolLM 2 1.7B ; entrée de gamme (4–6 Go) → Qwen 3 1.5B ; très ancien (4 Go) → Gemma 3 1B.
Recommandations LLM mobile par gamme : haut de gamme (8–12 Go RAM) → Phi-4 Mini 3.8B ; ancien haut de gamme (8 Go) → Llama 3.2 3B ; milieu de gamme (6–8 Go) → SmolLM 2 1.7B ; entrée de gamme (4–6 Go) → Qwen 3 1.5B ; très ancien (4 Go) → Gemma 3 1B.

💡Tip: Pour le choix d'application, consultez les guides iPhone et Android — ils couvrent quelles applications exposent ces modèles sur chaque plateforme. La disponibilité applicative retarde parfois la disponibilité du modèle. Si un modèle est absent de la liste de votre application, il peut généralement être chargé manuellement en GGUF depuis Hugging Face.

Erreurs courantes

  • Choisir un modèle plus grand que la RAM du téléphone ne le permet. Phi-4 Mini sur un téléphone à 6 Go tourne à 3–5 tok/sec et plante quand iOS/Android réclame de la mémoire pour une autre application. Adaptez le modèle à votre gamme (voir tableau ci-dessus).
  • Télécharger plusieurs variantes de quantisation du même modèle. Choisissez Q4_K_M et arrêtez-vous là. Cinq Go de variantes Q5/Q6 redondantes sont du stockage gaspillé, et les différences de qualité sont imperceptibles en chat quotidien.
  • Utiliser SmolLM 2 1.7B pour le raisonnement multi-étapes. C'est le modèle le plus rapide, pas le plus intelligent. Pour les tâches chain-of-thought (maths, planification, raisonnement complexe), utilisez Phi-4 Mini même si les tokens/sec plus lents semblent frustrants.
  • Demander une sortie non-anglophone à Phi-4 Mini sans préfixe multilingue. Phi-4 Mini gère correctement les langues européennes courantes mais produit une sortie inégale en CJK ou en arabe. Pour un usage multilingue, installez Qwen 3 1.5B aux côtés de Phi-4 Mini.
  • Attendre une qualité cloud de ces modèles. Les six sont des modèles 1B–4B, soit environ 60–80 % des capacités de GPT-5.5 sur les tâches de chat. Utilisez-les pour ce qu'ils font bien (chat privé, résumé, rédaction, traduction) et le cloud pour ce qui nécessite un modèle 70B+.
  • Confondre Phi-4 Mini (3.8B) avec l'ancien Phi-3 Mini (3.8B). Ils partagent un nombre de paramètres mais le mix de données et le chat template de Phi-4 Mini sont différents. Vérifiez toujours l'identifiant du modèle dans le nom de fichier GGUF — phi-4-mini-instruct et non phi-3-mini-4k-instruct.

Sources

Questions fréquemment posées

Quel modèle mobile est le plus rapide sur iPhone ?

Gemma 3 1B est le plus rapide en absolu à ~35–45 tokens/sec sur iPhone 17 Pro, mais c'est le plus petit modèle de cette sélection. Parmi les modèles 1.5B–1.7B (où vitesse et qualité sont équilibrées), SmolLM 2 1.7B est le plus rapide à ~26–32 tokens/sec. Parmi les modèles produisant une sortie de qualité haut de gamme, Phi-4 Mini à ~13–18 tokens/sec est l'option « intelligente » la plus rapide. Choisissez selon votre usage : si la réactivité prime sur la profondeur, SmolLM 2 ; si la profondeur prime, Phi-4 Mini.

Phi-4 Mini surpasse-t-il vraiment les modèles 7B sur smartphone ?

Il surpasse les anciens modèles 7B (Llama 3.3 7B, Mistral Small v0.1) sur les benchmarks standard comme MMLU malgré sa taille deux fois inférieure. Il ne surpasse PAS les modèles 7B actuels (Llama 3.3 7B, Mistral Small v0.3) en capacité brute. La raison pour laquelle Phi-4 Mini se bat au-dessus de sa catégorie est le mix de données d'entraînement Microsoft, riche en chaînes de raisonnement synthétiques. Sur smartphone, les modèles 7B sont généralement trop lents pour être pratiques, donc Phi-4 Mini gagne par défaut.

SmolLM 2 peut-il tourner sur un téléphone de 4 ans ?

Oui, sur la plupart des anciens flagships. SmolLM 2 1.7B en Q4_K_M nécessite ~1.1 Go de RAM pour le modèle plus ~500 Mo d'overhead — convient à l'iPhone 13 (6 Go), l'iPhone 12 Pro Max (6 Go) et l'Android équivalent (6 Go+). Sur les téléphones à 4 Go de 2021 (iPhone 12, Android de base), il se charge techniquement mais est instable sous pression mémoire ; utilisez Gemma 3 1B à la place.

Quel modèle gère le mieux la traduction sur mobile ?

Qwen 3 1.5B pour toute paire impliquant le chinois, le japonais, le coréen, l'arabe, l'allemand, le français, l'espagnol ou le russe. Il a été entraîné avec une forte représentation multilingue et produit une sortie de qualité native là où les modèles centrés sur l'anglais (Phi-4 Mini, Llama 3.2 3B) produisent des résultats approximatifs. Pour les paires de langues européennes uniquement, Gemma 3 4B est un deuxième choix viable. Pour des traductions ponctuelles entre l'anglais et une langue spécifique, une application de traduction dédiée (Google Traduction, DeepL) est souvent meilleure.

Faut-il un téléphone haut de gamme pour bien utiliser ces modèles ?

Non, uniquement pour les plus grands modèles (Phi-4 Mini 3.8B, Gemma 3 4B, Llama 3.2 3B). Les téléphones milieu de gamme avec 6–8 Go de RAM font tourner SmolLM 2 1.7B et Qwen 3 1.5B à pleine vitesse (~20–28 tokens/sec). Les téléphones entrée de gamme avec 4–6 Go font tourner Gemma 3 1B à ~15–25 tokens/sec. La réponse honnête : si vous ne disposez pas déjà d'un haut de gamme, n'en achetez pas pour l'IA locale.

Quel modèle consomme le moins de batterie ?

Gemma 3 1B de loin — moins de paramètres signifie moins de calculs par token, donc une charge CPU/GPU plus faible. SmolLM 2 1.7B et Qwen 3 1.5B suivent. Les modèles 3B–4B (Phi-4 Mini, Llama 3.2 3B, Gemma 3 4B) consomment 2–3× plus d'énergie par réponse. Pour les longs trajets ou l'usage hors réseau prolongé, Gemma 3 1B est le bon choix malgré le coût en qualité.

Ces modèles gèrent-ils les conversations multi-tours ?

Oui pour les conversations courtes (5–10 tours), avec une qualité dégradée au-delà. Les six modèles ont des fenêtres de contexte de 4 000–8 000 tokens ; les conversations plus longues dépassent la fenêtre et le modèle perd le fil des tours précédents. Pour un chat continu nécessitant une mémoire entre sessions, le schéma pratique est : résumer périodiquement la conversation, stocker le résumé et le réinjecter comme contexte. La plupart des applications mobiles (PocketPal AI, Private LLM) font cela automatiquement.

Ces modèles fonctionnent-ils avec la saisie vocale ?

Oui, couplés à une couche Whisper de speech-to-text. La stack vocale hors ligne standard en 2026 est : Whisper (modèle small ou tiny) pour la transcription → Phi-4 Mini ou SmolLM 2 pour la génération de réponse → Apple TTS ou Android TTS pour la synthèse vocale. SmolLM 2 1.7B est le meilleur choix LLM pour la voix car les tokens/sec élevés maintiennent le temps de réponse réactif — voir Créer un assistant vocal local sur votre téléphone.

Quel modèle est le meilleur pour un usage hors ligne en voyage ?

Pour les voyages où vous changez de langue et avez besoin de traduction : Qwen 3 1.5B. Pour les voyages où vous avez principalement besoin d'une référence en anglais (questions, résumé de documents de voyage, rédaction d'e-mails) : Phi-4 Mini sur un haut de gamme, SmolLM 2 1.7B sur un milieu de gamme. Le voyage est le cas d'usage le plus fort pour l'IA locale — pas de données en itinérance, pas de coûts API cloud, et pas de risque de dépendance cloud dans les zones à faible connectivité.

Les modèles mobiles seront-ils encore utiles en 2027 ?

Oui, mais les noms de modèles spécifiques changeront. La frontière des petits LLMs mobiles évolue environ tous les 6–9 mois — d'ici Q4 2026, il y aura probablement de nouveaux modèles ~3B surpassant Phi-4 Mini, et d'ici mi-2027, la classe 1B–2B fera probablement ce que font les 3B–4B aujourd'hui. La catégorie ne devient pas obsolète ; les recommandations spécifiques changent. Consultez cet article (rafraîchissement prévu le 2026-11-08) pour la prochaine génération.

← Retour aux LLM locaux avancés