Points clés
En mai 2026, avec 4 Go de VRAM, vous êtes limité aux modèles de 3 milliards de paramètres ou moins en quantisation Q4. Cela exclut tous les modèles locaux populaires — Llama 3 8B, Mistral 7B, Qwen 14B. Trois petits modèles modernes s'en sortent étonnamment bien : Phi-4 Mini rivalise avec GPT-3.5 sur le suivi d'instructions, Gemma 2 2B gère le chat rapide, et SmolLM 1.7B tourne sur des graphiques intégrés.
Phi-4 Mini est le premier choix à ce niveau. Malgré sa petite taille, il gère les Q&R généraux, le code léger et la synthèse de documents à ~25 tokens par seconde. Gemma 2 2B est plus rapide pour le chat en une seule passe. SmolLM 1.7B est le repli si même Phi-4 Mini pousse votre VRAM trop près de la limite.
| Modèle | VRAM | Usage optimal |
|---|---|---|
| Phi-4 Mini Q4 | 3,2 Go | Meilleure qualité à 4 Go |
| Gemma 2 2B Q4 | 1,5 Go | Chat rapide en une passe |
| SmolLM 1.7B Q4 | 1,0 Go | Empreinte VRAM minimale |
Ces modèles sont souvent demandés mais nécessitent plus de 4 Go de VRAM à tous les niveaux de quantisation :
Passer à 6 Go débloque Llama 3 8B et Mistral 7B — les deux modèles locaux les plus populaires. Voir les meilleurs LLM locaux pour 6 Go de VRAM. Pour une comparaison matérielle complète, voir les LLM locaux les plus rapides pour PC d'entrée de gamme.