PromptQuorumPromptQuorum
Accueil/LLMs locaux/Meilleurs petits LLMs locaux 2026 : modèles sub-4B pour machines à faible RAM
Best Models

Meilleurs petits LLMs locaux 2026 : modèles sub-4B pour machines à faible RAM

·8 min·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Les petits LLMs locaux (1B-4B paramètres) fonctionnent sur des machines avec 4-8 GB RAM et produisent 30-70 tokens/sec sur CPU -- assez rapide pour le chat en temps réel. Les meilleurs petits modèles en 2026 sont Microsoft Phi-4 Mini 3.8B (meilleur reasoning), Google Gemma 2 2B (plus rapide), Qwen2.5 3B (meilleur codage), et Meta Llama 3.2 3B (meilleur usage général).

Points clés

  • Meilleur raisonnement à petite échelle : Phi-4 Mini 3.8B -- 68% MMLU, 70% HumanEval, fonctionne sur 4 Go de RAM.
  • Plus rapide sur CPU : Gemma 2 2B -- 40-60 tok/sec sur tout CPU portable moderne, 1,7 Go de RAM.
  • Meilleur petit modèle de codage : Qwen2.5 3B -- 65% HumanEval avec environ 2 Go de RAM.
  • Meilleur usage général 3B : Llama 3.2 3B -- meilleur support communautaire, contexte 128K, 2,5 Go de RAM.
  • Depuis avril 2026, aucun modèle sub-2B ne produit une qualité de sortie adaptée aux tâches professionnelles. Utilisez 3B ou plus pour un vrai travail.

Qu'est-ce qu'un "petit" LLM local et quand devriez-vous en utiliser un ?

Un petit LLM local est généralement défini comme un modèle avec moins de 4 milliards de paramètres. Avec la quantification Q4_K_M, ces modèles nécessitent 1,5-3 Go de RAM -- bien dans les contraintes des ordinateurs portables d'entrée de gamme avec 4-8 Go de mémoire totale.

Depuis avril 2026, les petits modèles conviennent pour : la synthèse rapide, le Q&R simple, l'explication de fragments de code, la traduction de textes courts et les tâches de classification. Ils ne conviennent pas au raisonnement multi-étapes, à la génération de code complexe ou à la rédaction de documents longs et cohérents.

L'écart de qualité entre un modèle 3B et 7B est significatif -- environ l'équivalent de l'écart entre GPT-3.5 Mini et GPT-3.5 Turbo. Pour les utilisateurs avec 8 Go de RAM, un modèle 7B en Q4_K_M est presque toujours le meilleur choix si la machine en a les capacités. Voir Meilleurs modèles LLM locaux pour débutants pour les recommandations 7B.

Quel modèle devriez-vous utiliser ? Guide de décision rapide

Arbre de décision : choisir par priorité (raisonnement, vitesse ou codage). Par défaut Llama 3.2 3B si vous n'êtes pas sûr.
Arbre de décision : choisir par priorité (raisonnement, vitesse ou codage). Par défaut Llama 3.2 3B si vous n'êtes pas sûr.

Phi-4 Mini 3.8B -- Meilleures performances de raisonnement dans la classe sub-4B

Microsoft Phi-4 Mini atteint 68% sur MMLU et 70% sur HumanEval -- des scores qui dépassent beaucoup de modèles 7B publiés avant 2025. C'est possible parce que Phi-4 Mini a été entraîné sur un ensemble de données synthétiques sélectionné, axé sur le raisonnement et la résolution de problèmes, plutôt que sur du texte web généraliste.

Depuis avril 2026, Phi-4 Mini est le choix recommandé pour les utilisateurs qui ont principalement besoin de raisonnement (mathématiques, logique, explications pas à pas) ou d'assistance au codage sur du matériel avec 4-6 Go de RAM.

SpecValue
MMLU68%
HumanEval70%
RAM (Q4_K_M)~2,5 Go
Contexte128K tokens
Vitesse CPU30-50 tok/sec
Commande Ollamaollama run phi4-mini

Gemma 2 2B -- Le LLM local le plus rapide sur CPU

Google Gemma 2 2B génère 40-60 tokens/sec sur un CPU portable moderne -- le plus rapide de tout modèle à ce niveau de qualité. Son empreinte RAM de 1,7 Go laisse suffisamment de mémoire pour l'OS et les autres applications sur une machine de 4 Go.

La qualité est inférieure à Phi-4 Mini ou Llama 3.2 3B pour les tâches de raisonnement. La fenêtre de contexte 8K (contre 128K pour Phi-4 Mini et Llama 3.2) est une limite pratique pour les documents plus longs. Gemma 2 2B est le bon choix quand la vitesse de réponse compte plus que la profondeur de sortie.

SpecValue
MMLU52%
RAM (Q4_K_M)~1,7 Go
Contexte8K tokens
Vitesse CPU40-60 tok/sec
Commande Ollamaollama run gemma2:2b

Qwen2.5 3B -- Meilleur petit modèle pour les tâches de codage

Qwen2.5 3B obtient 65% sur HumanEval -- 5 points de pourcentage au-dessus de Llama 3.2 3B -- ce qui en fait le meilleur choix pour les tâches de codage à l'échelle 3B. Il inclut le mode JSON et le support d'appel de fonction, et gère nativement 29 langues.

Pour les tâches non-codage en anglais, Llama 3.2 3B et Phi-4 Mini produisent une prose plus naturelle. Choisissez Qwen2.5 3B spécifiquement quand le codage ou la sortie multilingue est le cas d'usage principal.

SpecValue
MMLU62%
HumanEval65%
RAM (Q4_K_M)~2 Go
Contexte128K tokens
Vitesse CPU25-40 tok/sec
Commande Ollamaollama run qwen2.5:3b

Llama 3.2 3B -- Meilleur petit modèle polyvalent

Meta Llama 3.2 3B est le modèle 3B le plus documenté et le mieux supporté par la communauté. Il obtient 58% sur MMLU et 60% sur HumanEval -- légèrement en dessous de Phi-4 Mini -- mais possède le support d'outils le plus large, le plus grand nombre de fine-tunings disponibles et la plus grande collection de guides communautaires.

La fenêtre de contexte 128K est la même que les modèles Llama 3.x plus grands, ce qui le rend adapté à la synthèse de documents de longueur moyenne. Pour un premier petit modèle, Llama 3.2 3B reste le choix le plus sûr en raison de son comportement prévisible et de sa documentation exhaustive.

SpecValue
MMLU58%
RAM (Q4_K_M)~2,5 Go
Contexte128K tokens
Vitesse CPU25-45 tok/sec
Commande Ollamaollama run llama3.2:3b

Llama 3.2 1B -- Minimum absolu pour une sortie utile

Llama 3.2 1B nécessite seulement 1,3 Go de RAM et génère 60-90 tok/sec sur CPU -- le modèle exécutable localement le plus rapide. La qualité de sortie est marginale : il gère la classification très simple et l'extraction de mots-clés, mais peine avec des réponses multi-phrases cohérentes. Depuis avril 2026, utilisez Llama 3.2 1B uniquement quand la RAM est véritablement la contrainte principale (moins de 3 Go disponibles) ou pour tester les intégrations d'outils.

Comparaison complète : Meilleurs petits LLMs locaux sous 4B paramètres

ModèleMMLUHumanEvalRAMContexteMeilleur pour
Phi-4 Mini 3.8B68%70%2,5 Go128KRaisonnement, codage
Qwen2.5 3B62%65%2 Go128KCodage, multilingue
Llama 3.2 3B58%60%2,5 Go128KUsage général, premier modèle
Gemma 2 2B52%38%1,7 Go8KVitesse, très faible RAM
Llama 3.2 1B32%28%1,3 Go128KRAM minimum absolu

Comprendre la quantification : compromis RAM vs qualité

Compromis de quantification : Q4_K_M (2,5 Go, -0,5% qualité) est le défaut recommandé. Q8_0 utilise 3,8 Go sans gain de qualité. Q3_K_M (1,8 Go, -1,8% perte) pour les contraintes RAM extrêmes.
Compromis de quantification : Q4_K_M (2,5 Go, -0,5% qualité) est le défaut recommandé. Q8_0 utilise 3,8 Go sans gain de qualité. Q3_K_M (1,8 Go, -1,8% perte) pour les contraintes RAM extrêmes.

Petits LLMs locaux par région

UE / RGPD : Pour les professionnels européens sur du matériel contraint -- travail terrain, environnements air-gap, anciens ordinateurs portables d'entreprise -- les petits modèles locaux fournissent une inférence conforme RGPD sans sortie de données. Un Phi-4 Mini 3.8B fonctionnant sur un portable corporate standard (8 Go de RAM) maintient tous les textes traités sur l'appareil conformément à l'article 5 du RGPD (minimisation des données). Pour la documentation de conformité BSI : Phi-4 Mini (Microsoft, licence MIT) et Llama 3.2 3B (Meta, licence communautaire Llama) fournissent des identifiants de modèles versionnés via leurs tags Ollama. Mistral n'offre actuellement pas de modèle sub-4B. Pour les organisations préférant un modèle d'origine européenne, les options sont limitées jusqu'à ce que Mistral publie une variante sub-4B.

Japon (METI) : Pour les tâches en langue japonaise au niveau des petits modèles, Qwen2.5 3B est le seul modèle de cette comparaison avec une tokenisation japonaise native. Llama 3.2 3B gère le japonais mais avec une efficacité de tokenisation inférieure. Pour la synthèse ou la traduction japonaise avec RAM contraint : `ollama run qwen2.5:3b`. La vitesse de 25-40 tok/sec sur CPU fournit une réponse en temps réel adéquate pour les interfaces de chat sur du matériel de bureau standard.

Chine : Qwen2.5 3B (Alibaba, Apache 2.0) est le choix naturel pour le déploiement de petits modèles en langue chinoise. La tokenisation chinoise native traite le texte mandarin 30-40% plus efficacement que Llama pour un nombre de paramètres équivalent. Pour les déploiements IoT et edge sous la loi chinoise sur la sécurité des données (数据安全法) : `ollama run qwen2.5:3b` fonctionne sur n'importe quel appareil Linux avec 4 Go de RAM et traite tout le texte sur l'appareil sans appels API externes.

Quelles sont les erreurs courantes lors de l'exécution de petits LLMs locaux ?

  • Utiliser la quantification Q8_0 au lieu de Q4_K_M : Q8_0 nécessite presque le double de RAM de Q4_K_M pour une amélioration de qualité minimale à petite échelle. Un modèle Llama 3.2 3B en Q8_0 nécessite ~3,8 Go de RAM contre ~2,5 Go pour Q4_K_M. Sur une machine de 4 Go, Q8_0 peut déclencher l'utilisation du swap et ralentir l'inférence de 3-5×. Utilisez toujours Q4_K_M comme défaut pour les modèles sub-4B.
  • Exécuter un modèle de base au lieu de la variante instruct : Les modèles de base (ex. `llama3.2:3b-text`) sont des points de contrôle pré-fine-tuning entraînés à prédire le prochain token dans le texte. Ils ne suivent pas les instructions. Quand vous demandez à un modèle de base «Combien font 2+2 ?», il peut compléter la phrase comme un quiz plutôt que répondre «4». Utilisez toujours la variante instruct : `llama3.2:3b` (Ollama utilise instruct par défaut pour les modèles nommés).
  • S'attendre à une qualité de modèle 7B d'un modèle 3B : Un modèle 3B à 68% MMLU (Phi-4 Mini) performe comme un GPT-3.5 Mini de l'ère 2023 sur les tâches générales. Les chaînes de raisonnement complexes, la rédaction longue et la génération de code nuancé produiront une qualité nettement inférieure à un modèle 7B. Si la qualité de sortie est insuffisante, passez à un modèle 7B -- la différence de RAM est ~2 Go (2,5 Go → 4,5 Go).

Questions fréquentes sur les petits modèles LLM locaux

Quel est le plus petit LLM local qui produit une sortie utile ?

Depuis avril 2026, le minimum pratique pour une sortie utile est un modèle 3B à quantification Q4_K_M. Les modèles sous 2B paramètres (Llama 3.2 1B, Gemma 2 2B) produisent des phrases cohérentes mais peinent avec les instructions multi-étapes, les réponses plus longues et le raisonnement complexe. Pour les tâches comme la synthèse et le Q&R simple, Gemma 2 2B est utilisable. Pour tout ce qui est plus complexe, commencez par un modèle 3B.

Puis-je exécuter un modèle 3B sur un téléphone ?

Oui -- Llama 3.2 1B et 3B sont spécifiquement conçus pour le déploiement mobile sur appareil. Meta fournit des builds optimisés pour iOS (via MLC LLM) et Android. L'inférence sur un téléphone moderne (Snapdragon 8 Gen 3 ou Apple A17 Pro) produit 15-30 tok/sec pour les modèles 1B. LM Studio et Ollama ne fonctionnent pas actuellement sur iOS ou Android -- le mobile nécessite des frameworks séparés.

Les petits modèles sont-ils bons pour la synthèse ?

Oui -- la synthèse est l'un des cas d'usage les plus forts pour les petits modèles. Gemma 2 2B et Llama 3.2 3B produisent régulièrement des résumés précis de textes jusqu'à ~4 000 mots (leur limite de contexte pratique pour une sortie de qualité). Pour les documents plus longs, utilisez un modèle avec une grande fenêtre de contexte comme Phi-4 Mini ou Llama 3.2 3B (tous deux 128K tokens).

Combien de fois plus rapide est un modèle 2B qu'un modèle 7B sur le même matériel ?

Environ 2-3× plus rapide sur CPU. Gemma 2 2B génère 40-60 tok/sec contre 10-20 tok/sec pour Mistral 7B sur le même CPU portable. Sur GPU, l'avantage de vitesse se réduit car le débit GPU est moins contraint par la taille du modèle. La différence de vitesse est la plus notable sur les machines CPU uniquement.

Les petits modèles supportent-ils l'appel de fonction ?

Certains oui. Qwen2.5 3B supporte l'appel de fonction et le mode JSON. Llama 3.2 3B a un support basique d'utilisation d'outils. Gemma 2 2B ne supporte pas l'appel de fonction. Vérifiez la documentation du modèle avant de construire un pipeline qui dépend d'une sortie structurée.

Quel petit modèle est le meilleur pour les langues autres que l'anglais ?

Qwen2.5 3B supporte nativement 29 langues dont le chinois, le japonais, le coréen et l'arabe. Gemma 2 2B et Phi-4 Mini sont principalement optimisés pour l'anglais. Pour les tâches non-anglaises à l'échelle des petits modèles, Qwen2.5 3B est le choix évident. Voir comparaison multilingue Qwen vs Llama vs Mistral pour une comparaison complète des langues.

Quelle est la différence entre Phi-4 Mini et Llama 3.2 3B pour les tâches quotidiennes ?

Phi-4 Mini surpasse Llama 3.2 3B sur le raisonnement, les mathématiques et le codage (68% vs 58% MMLU, 70% vs 60% HumanEval) avec pratiquement la même RAM (2,5 Go chacun). Pour les tâches quotidiennes -- Q&R, synthèse, explications simples -- l'écart de qualité est notable mais pas dramatique. Llama 3.2 3B bénéficie d'un support communautaire plus large et de plus de fine-tunings disponibles. Choisissez Phi-4 Mini pour le raisonnement structuré ; Llama 3.2 3B pour le chat général et la compatibilité.

Puis-je exécuter deux petits modèles simultanément ?

Oui, si la RAM totale le permet. Deux modèles 3B en Q4_K_M utilisent ~5 Go combinés -- faisable sur une machine de 8 Go avec un OS léger. Ollama charge un modèle à la fois par processus par défaut. Exécutez deux instances Ollama sur des ports différents (OLLAMA_HOST=:11434 et OLLAMA_HOST=:11435) pour servir deux modèles en parallèle. C'est utile pour les tests A/B des sorties.

Les petits modèles fonctionnent-ils pour le RAG (génération augmentée par récupération) ?

Oui pour le RAG simple. Llama 3.2 3B et Phi-4 Mini peuvent répondre de manière fiable aux questions sur des fragments de documents récupérés. Pour le RAG sur de grandes bases de connaissances nécessitant un raisonnement multi-saut, les modèles 7B+ performent plus régulièrement. La fonctionnalité LocalDocs de GPT4All utilise un modèle 3B pour le Q&R de documents et fonctionne bien pour les collections de documents personnels.

Phi-4 Mini est-il meilleur que Llama 3.2 3B pour le codage ?

Oui. Phi-4 Mini obtient 70% sur HumanEval contre 60% pour Llama 3.2 3B -- un écart significatif de 10 points à cette échelle. Pour l'assistance au codage sur des machines de 4-6 Go de RAM, Phi-4 Mini est le choix recommandé. Pour le codage multilingue (non-Python), Qwen2.5 3B à 65% HumanEval est compétitif avec Phi-4 Mini tout en supportant l'appel de fonction.

Sources

  • Hugging Face Open LLM Leaderboard -- open-llm-leaderboard.hf.space (scores MMLU et HumanEval)
  • Microsoft Phi-4 Technical Report -- microsoft.com/en-us/research/publication/phi-4-technical-report/
  • Meta Llama 3.2 Model Card -- huggingface.co/meta-llama/Llama-3.2-3B-Instruct
  • Google Gemma 2 Technical Report -- storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Meilleurs petits LLMs locaux 2026 : classement complet