PromptQuorumPromptQuorum

Meilleurs modèles Ollama en mode CPU uniquement ?

Réponse rapide

Sans GPU, Phi-4 Mini en Q4 offre le meilleur équilibre qualité/vitesse sur CPU. Llama 3 8B Q4 fonctionne avec 8+ Go de RAM. Gemma 2B est l'option CPU la plus rapide.

  • Phi-4 Mini Q4 : meilleur rapport qualité/vitesse sur CPU, nécessite 4 Go de RAM
  • Llama 3 8B Q4 : meilleure qualité, nécessite 8 Go de RAM (plus lent)
  • Gemma 2B : inférence CPU la plus rapide, 2 Go de RAM

Mis à jour : 2026-05

Ollama

Points clés

  • L'inférence CPU est 5 à 10× plus lente que sur GPU — comptez 3 à 6 tok/s sur un processeur desktop 8 cœurs moderne
  • Phi-4 Mini Q4 est le meilleur choix CPU-only : 4 Go de RAM, ~5 tok/s, excellente qualité de raisonnement
  • Gemma 2B est le plus rapide sur CPU (~6 tok/s) mais offre une qualité de raisonnement inférieure à Phi-4 Mini
  • L'inférence CPU convient au traitement par lots et aux requêtes ponctuelles ; trop lente pour le chat interactif

La réalité de la vitesse CPU

En mai 2026, l'inférence CPU tourne à 3–6 tokens par seconde sur un processeur desktop 8 cœurs moderne — soit environ 5 à 10× plus lentement qu'un GPU milieu de gamme. Un modèle 7B en Q4 produit un mot environ toutes les 200 à 300 millisecondes sur CPU.

Cette vitesse est acceptable pour deux cas d'usage : le traitement par lots nocturne (résumé de documents, classification de données) et les requêtes ponctuelles où une attente de 30 secondes est tolérable. Pour le chat interactif ou la complétion de code en temps réel, l'inférence CPU est trop lente.

La contrainte fondamentale est la bande passante mémoire, pas la fréquence CPU. Les CPU grand public lisent la RAM à 40–80 GB/s. Un GPU dédié lit la VRAM à 400–900 GB/s. L'inférence LLM est directement proportionnelle à la bande passante mémoire — c'est pourquoi même un GPU milieu de gamme surpasse largement un CPU haut de gamme.

Top 3 des modèles pour une utilisation CPU-only

Le bon modèle CPU-only dépend de votre priorité : qualité ou vitesse. Phi-4 Mini Q4 offre le meilleur équilibre — il délivre une qualité de raisonnement proche de Llama 3 8B tout en ne nécessitant que 4 Go de RAM et en fonctionnant nettement plus vite.

Gemma 2B est la seule option viable lorsque la RAM est limitée à 2 Go. Il atteint ~6 tok/s sur CPU, mais produit des réponses de qualité nettement inférieure sur les tâches de raisonnement multi-étapes par rapport à Phi-4 Mini.

Pour la comparaison complète des configurations CPU-only incluant les exigences RAM et les optimisations système, consultez le guide des meilleurs LLMs CPU-only.

ModèleRAM requiseVitesse CPU
Phi-4 Mini Q44 GB~4–5 tok/s
Llama 3 8B Q48 GB~3 tok/s
Gemma 2B2 GB~6 tok/s

Réponses rapides sur les LLMs CPU-only

De combien de RAM ai-je besoin pour Ollama en mode CPU-only ?
Minimum 2 Go pour Gemma 2B. 4 Go pour Phi-4 Mini Q4. 8 Go pour Llama 3 8B Q4. Ajoutez 1 à 2 Go en plus de la taille du modèle pour la mémoire utilisée par le système d'exploitation et Ollama.
Pourquoi l'inférence CPU est-elle si lente comparée au GPU ?
L'inférence LLM est limitée par la bande passante mémoire. Les CPU grand public lisent la RAM à 40–80 GB/s. Un GPU milieu de gamme lit la VRAM à 400–900 GB/s. Cette différence de bande passante de 10× se traduit directement par une génération de tokens 5 à 10× plus lente.
Puis-je utiliser Ollama sur un laptop sans GPU dédié ?
Oui. Ollama fonctionne automatiquement sur le CPU quand aucun GPU n'est détecté. Comptez 3 à 5 tok/s sur un CPU laptop moderne. Consultez les meilleurs modèles Ollama en ce moment pour des recommandations GPU si vous mettez à niveau.
Quels CPU sont les plus rapides pour l'inférence LLM locale ?
Les puces Apple M-series (M3, M4) utilisent une architecture mémoire unifiée et atteignent 15 à 30 tok/s sur les modèles 7B — bien au-dessus des CPU x86 en inférence CPU-only. Parmi les CPU x86, ceux disposant d'une bande passante mémoire élevée et d'un grand cache L3 offrent les meilleures performances.