Réponse rapide
Llama 3 8B Q4_K_M est le meilleur LLM local pour un laptop avec 16 Go de RAM sans GPU dédié. Il utilise ~5 Go de RAM et tourne à ~3–5 tok/s sur un CPU moderne. Mistral 7B Q4_K_M est une alternative légèrement plus rapide. Les deux fonctionnent sur tous les principaux CPU de laptop.
Mis à jour : 2026-05
Points clés
Avec 16 Go de RAM système et sans GPU dédié, Llama 3 8B Q4_K_M est le plafond pratique — il utilise environ 5 Go de RAM et tourne à 3–5 tokens par seconde sur un CPU laptop x86 moderne. Après le système d'exploitation et les autres processus, un laptop 16 Go dispose généralement de 10–12 Go libres, laissant de la place pour le modèle et une fenêtre de contexte généreuse.
Mistral 7B Q4_K_M utilise une quantité similaire de 5 Go de RAM et tourne généralement 10–20 % plus vite que Llama 3 8B sur le même matériel, atteignant ~4–6 tok/s. Pour le suivi d'instructions et les tâches de codage, les deux modèles offrent des performances comparables à ce niveau de quantisation.
Les CPU Intel Core Ultra et AMD Ryzen 7000 tournent légèrement plus vite que les anciens CPU laptop grâce à une bande passante mémoire plus élevée et un meilleur support AVX-512. Sur ces plateformes, 5–6 tok/s sont atteignables sur Llama 3 8B Q4_K_M.
| Modèle | RAM utilisée | Vitesse sur CPU x86 |
|---|---|---|
| Llama 3 8B Q4_K_M | ~5 Go | ~3–5 tok/s |
| Mistral 7B Q4_K_M | ~5 Go | ~4–6 tok/s |
| Llama 3 8B Q4_K_M (Apple M3) | ~5 Go | ~15–20 tok/s |
Les laptops Apple M-series traitent les 16 Go comme de la mémoire unifiée partagée entre CPU et GPU, permettant une inférence accélérée Metal à 15–20 tok/s sur Llama 3 8B Q4_K_M — trois à cinq fois plus rapide qu'en CPU-only sur x86. Cela rend le chat interactif viable sur Apple Silicon, là où ce n'est pas le cas sur x86 avec le même niveau de RAM.
Sur les laptops x86, l'inférence CPU à 3–5 tok/s est mieux adaptée à deux tâches : le traitement par lots nocturne (résumé ou classification de grands ensembles de documents) et les requêtes ponctuelles où l'utilisateur peut attendre 15–30 secondes pour une réponse de qualité.
Pour commencer, installez Ollama et exécutez ollama pull llama3:8b. Pour la comparaison complète des configurations laptop et les conseils d'optimisation, consultez le guide LLM local sur laptop.
ollama pull llama3:8b pour télécharger le modèle, puis ollama run llama3:8b pour le démarrer. Aucune configuration requise.