Réponse rapide
Sans GPU, Phi-4 Mini en Q4 offre le meilleur équilibre qualité/vitesse sur CPU. Llama 3 8B Q4 fonctionne avec 8+ Go de RAM. Gemma 2B est l'option CPU la plus rapide.
Mis à jour : 2026-05
Points clés
En mai 2026, l'inférence CPU tourne à 3–6 tokens par seconde sur un processeur desktop 8 cœurs moderne — soit environ 5 à 10× plus lentement qu'un GPU milieu de gamme. Un modèle 7B en Q4 produit un mot environ toutes les 200 à 300 millisecondes sur CPU.
Cette vitesse est acceptable pour deux cas d'usage : le traitement par lots nocturne (résumé de documents, classification de données) et les requêtes ponctuelles où une attente de 30 secondes est tolérable. Pour le chat interactif ou la complétion de code en temps réel, l'inférence CPU est trop lente.
La contrainte fondamentale est la bande passante mémoire, pas la fréquence CPU. Les CPU grand public lisent la RAM à 40–80 GB/s. Un GPU dédié lit la VRAM à 400–900 GB/s. L'inférence LLM est directement proportionnelle à la bande passante mémoire — c'est pourquoi même un GPU milieu de gamme surpasse largement un CPU haut de gamme.
Le bon modèle CPU-only dépend de votre priorité : qualité ou vitesse. Phi-4 Mini Q4 offre le meilleur équilibre — il délivre une qualité de raisonnement proche de Llama 3 8B tout en ne nécessitant que 4 Go de RAM et en fonctionnant nettement plus vite.
Gemma 2B est la seule option viable lorsque la RAM est limitée à 2 Go. Il atteint ~6 tok/s sur CPU, mais produit des réponses de qualité nettement inférieure sur les tâches de raisonnement multi-étapes par rapport à Phi-4 Mini.
Pour la comparaison complète des configurations CPU-only incluant les exigences RAM et les optimisations système, consultez le guide des meilleurs LLMs CPU-only.
| Modèle | RAM requise | Vitesse CPU |
|---|---|---|
| Phi-4 Mini Q4 | 4 GB | ~4–5 tok/s |
| Llama 3 8B Q4 | 8 GB | ~3 tok/s |
| Gemma 2B | 2 GB | ~6 tok/s |