PromptQuorumPromptQuorum
Accueil/LLMs locaux/Comment exécuter des Local LLMs sur un ordinateur portable: Performance, Thermique et Sélection de modèle
Getting Started

Comment exécuter des Local LLMs sur un ordinateur portable: Performance, Thermique et Sélection de modèle

·8 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Exécuter un Local LLM sur un ordinateur portable signifie déployer des modèles de langage directement sur votre ordinateur sans APIs cloud ni transmission de données externe. L'avantage principal est une confidentialité complète et une capacité hors ligne; les performances dépendent du matériel (8 Go de RAM minimum pour les modèles 7B, 16 Go pour 13B).

Exécuter un Local LLM sur un ordinateur portable est possible — même avec 8 Go de RAM — mais les performances dépendent fortement de la taille du modèle, de la RAM et de la gestion thermique. Un modèle 7B tourne à 10–25 token/sec sur CPU ou 50–80 token/sec sur Apple Silicon, rendant les ordinateurs portables viables pour le développement, les tests et les workflows IA légers.

Points clés

  • Un modèle 3B ou 7B en quantification Q4_K_M fonctionne de manière utilisable sur n'importe quel ordinateur portable moderne avec 8 GB de RAM.
  • Les MacBooks Apple Silicon (M1, M2, M3, M4, M5) surpassent la plupart des ordinateurs portables Windows pour l'inférence locale grâce à la mémoire unifiée et à l'accélération GPU Metal -- un MacBook Pro M3 exécute un modèle 7B à 50-80 token/sec.
  • L'étranglement thermique réduit la vitesse de 20-40% après 10-15 minutes de génération continue. Utilisez un support d'ordinateur portable et désactivez Turbo Boost pour maintenir une vitesse régulière.
  • Autonomie de la batterie: attendez-vous à 30-60% de batterie par heure lors d'une inférence active sur la plupart des ordinateurs portables. Connectez-vous pour les sessions prolongées.
  • Sur les ordinateurs portables Windows/Linux avec 8 GB de RAM: utilisez les modèles Q4_K_M jusqu'à 7B. Avec 16 GB de RAM: modèles Q4_K_M jusqu'à 13B, ou Q5_K_M pour 7B.

En une phrase

Un LLM local peut tourner sur un laptop avec des modèles quantifiés, réduisant l'utilisation de la mémoire jusqu'à 75 % tout en maintenant une qualité de sortie utilisable.

En termes simples

Faire tourner un LLM localement, c'est comme installer ChatGPT sur votre ordinateur portable — mais plus lent et entièrement privé.

Quand devriez-vous exécuter un LLM sur un ordinateur portable?

  • Utilisez des LLMs locaux si: Vous avez besoin d'une confidentialité totale, Vous travaillez hors ligne, Vous voulez zéro coût API
  • N'utilisez PAS si: Vous avez besoin d'une haute précision pour des raisonnements complexes, Vous avez besoin d'un long contexte (100k+ tokens), Vous avez besoin d'un traitement par lot rapide — voir limitations des LLM locaux

Pouvez-vous exécuter un Local LLM sur un ordinateur portable?

Un Local LLM sur un ordinateur portable est un fichier de modèle exécuté sur votre CPU ou RAM -- pas d'internet, pas d'API, tokens générés localement à 10-80 token/sec selon le matériel.

En une phrase

Oui -- avec la bonne taille de modèle. Un ordinateur portable avec 8 GB de RAM exécutant un modèle 7B en quantification Q4_K_M produit 10-25 token/sec sur CPU et 50-80 token/sec sur Apple Silicon. C'est lent par rapport aux API cloud, mais assez rapide pour une utilisation interactive.

Le plafond pratique sur la plupart des ordinateurs portables 8 GB est un modèle 7B. Un modèle 13B en Q4_K_M nécessite environ 9 GB de RAM -- techniquement possible sur les machines 16 GB mais laisse peu de marge pour l'OS et les autres applications.

Pour ce que sont les Local LLMs et une explication complète des exigences en RAM, consultez le guide dédié.

Quelle configuration d'ordinateur portable convient à votre cas d'usage?

  • Pour les débutants — 8 Go de RAM, modèles 3B–7B, CPU uniquement. Attendez-vous à 10–20 token/sec. Convient au chat, résumé et codage simple.
  • Pour les développeurs — 16 Go de RAM, modèles 7B–13B, GPU optionnel. Multitâche possible sans contraintes.
  • Pour les utilisateurs avancés — Apple Silicon ou ordinateur portable GPU (8 Go VRAM), modèles 13B. 50–90 token/sec en inférence continue.

Qui peut exécuter un Local LLM sur un ordinateur portable?

  • DébutantsLM Studio + modèle 3B
  • IntermédiaireOllama + modèle 7B
  • Utilisateurs avancés → 13B avec optimisation de quantification
  • N'utilisez PAS d'ordinateur portable si: Vous avez besoin d'API en temps réel (utilisez le serveur vLLM), Vous traitez de grands ensembles de données (utilisez les GPU cloud)

Quelle taille de modèle LLM local vous faut-il?

Besoins en RAM à quantification Q4_K_M — environ 75% moins de RAM qu'en pleine précision fp16. Toujours prévoir 2–4 Go supplémentaires pour l'OS et le navigateur:

ModèleRAM RequiseVitesseQualitéMeilleur Pour
Llama 3.2 3B4–8 GoRapide (25–45 tok/s)MoyenneTâches basiques, chat, résumé
Mistral 7B8–16 GoMoyenne (10–20 tok/s)HauteUsage général, coding, raisonnement
Llama 3.1 13B16+ GoLente (5–10 tok/s)Plus hauteTâches avancées, raisonnement complexe

Exemple RAM Q4_K_M: Mistral 7B fp16 = 14 Go; Q4_K_M = 4,5 Go (~68% de réduction). Latence CPU sur un ordinateur portable moyen: 1–3 tok/s pour 13B, 10–25 tok/s pour 7B, 25–45 tok/s pour 3B. → calculateur VRAM

8 GB RAM vs 16 GB RAM Ordinateur portable: Quelle est la différence pratique?

Scénario8 GB RAM16 GB RAM
Taille maximale du modèle7B à Q4_K_M (~4,5 GB)13B à Q4_K_M (~9 GB)
Modèle avec navigateur ouvert3B-7B (serré)7B-13B confortable
Premier modèle recommandéllama3.2:3b ou mistral:7bllama3.1:8b ou qwen2.5:14b
Applications simultanéesFermez le navigateur avant de charger 7BMultitâche normal + modèle 7B

Quels sont les meilleurs modèles Local LLM pour ordinateurs portables?

Ces modèles sont spécifiquement sélectionnés pour les contraintes d'ordinateur portable -- équilibrant la qualité, l'utilisation de RAM et la vitesse de génération continue. Installez Ollama pour exécuter l'un de ces modèles avec une seule commande:

ModèleRAMVitesse (CPU)QualitéMeilleur pour
Llama 3.2 3B2,5 GB25-45 token/sMoyenneOrdinateurs portables 8 GB, tâches rapides
Phi-3.5 Mini 3.8B3 GB20-35 token/sMoyenne-HauteOrdinateurs portables 8 GB, reasoning/coding
Mistral 7B v0.34,5 GB10-20 token/sHaute8-16 GB, utilisation générale
Qwen2.5 7B4,7 GB10-18 token/sHaute8-16 GB, multilingue, coding
Llama 3.1 8B5,5 GB8-15 token/sHaute+Ordinateurs portables 16 GB, meilleure qualité à cette taille

🏆 Meilleure configuration Local LLM pour ordinateurs portables

Le matériel d'un ordinateur portable limite la taille des modèles, mais le prompt engineering supprime le plafond de qualité des sorties. Un modèle 7B avec des prompts structurés surpasse régulièrement un modèle 13B mal prompté. Consultez le guide de prompt engineering pour des techniques optimisées pour les modèles plus petits.

  • 🥇 Meilleur au global: Ollama — setup le plus rapide, large support de modèles
  • 🥈 Meilleur pour débutants: LM Studio — GUI, pas besoin de terminal
  • 🥉 Meilleur pour RAM faible (8 GB): Llama 3.2 3B (Q4)
  • Meilleur pour les performances: Mistral 7B (Q5 ou Q6)
  • 💡 Si vous hésitez: commencez avec Ollama + Llama 3.2 3B Q4

Apple Silicon vs Ordinateur portable Windows: Lequel est meilleur pour les Local LLMs?

À partir d'avril 2026, les MacBooks Apple Silicon (M1 à M4) sont les meilleurs ordinateurs portables grand public pour l'inférence Local LLM. L'architecture mémoire unifiée signifie que le GPU et le CPU partagent le même pool de mémoire -- un MacBook Pro M3 avec 18 GB de mémoire peut exécuter un modèle 13B entièrement dans la mémoire GPU, atteignant 50-80 token/sec.

Les ordinateurs portables Windows avec GPU NVIDIA discrets peuvent être plus rapides si la VRAM est suffisante (8 GB+). Un GPU ordinateur portable NVIDIA RTX 4060 (8 GB VRAM) exécute un modèle 7B à 60-90 token/sec -- comparable à Apple M3 Pro. L'inconvénient est une consommation électrique plus élevée et une génération de chaleur plus importante.

Les ordinateurs portables Windows exécutant un graphique intégré Intel Iris Xe ou AMD Radeon utilisent uniquement l'inférence CPU, ce qui se traduit par 8-20 token/sec pour les modèles 7B.

Type d'ordinateur portableVitesse (7B)Consommation batterieModèle max
Apple M3 Pro (18 GB)50-80 token/sModérée~13B
Apple M2 (8 GB)30-50 token/sModérée~7B
NVIDIA RTX 4060 ordinateur portable (8 GB VRAM)60-90 token/sÉlevée~7B (GPU), ~13B (déchargement CPU)
Intel i7 + Iris Xe (16 GB RAM)8-15 token/sModérée~13B
AMD Ryzen 7 + GPU intégré (16 GB)10-18 token/sModérée~13B

Un ordinateur portable est-il suffisant pour les Local LLMs par rapport à un bureau?

Les ordinateurs portables exécutent efficacement les modèles 3B–13B, mais les bureaux les surpassent grâce à un meilleur refroidissement et des GPU dédiés. Un bureau avec une RTX 4090 (24 GB VRAM) exécute un modèle 70B à 40–60 token/sec ; un ordinateur portable pour la même tâche nécessite une inférence CPU à 1–3 token/sec.

Utilisez un ordinateur portable pour la portabilité et l'expérimentation. Utilisez un bureau pour les grands modèles (13B+), les charges de travail continues ou l'inférence en production.

Comment gérer l'étranglement thermique sur un ordinateur portable?

L'étranglement thermique est la réduction automatique de la vitesse d'horloge du CPU lorsqu'il dépasse environ 95°C -- il réduit la vitesse d'inférence Local LLM de 20-40% après 10-15 minutes de génération continue.

En une phrase

L'étranglement thermique se produit lorsque le CPU ou le GPU atteint sa limite de température et réduit la vitesse d'horloge pour refroidir. Pour l'inférence Local LLM, cela se produit généralement après 10-15 minutes de génération continue, réduisant la vitesse de 20-40%.

  • Utilisez un support d'ordinateur portable avec dégagement d'air -- surélever l'ordinateur portable de 2-3 cm améliore le flux d'échappement et réduit le début de l'étranglement de 10 à 20+ minutes.
  • Désactivez Intel Turbo Boost / AMD Precision Boost -- fonctionner à la vitesse d'horloge de base produit des performances régulières sans pics thermiques. Sur macOS, installez `cpufreq` ou utilisez le mode "Économie d'énergie" dans les paramètres de batterie.
  • Limitez la taille du lot de génération -- évitez de régénérer les très longues réponses. Divisez les tâches longues en invites plus courtes.
  • Utilisez Q4_K_M plutôt que Q8_0 -- la quantification inférieure nécessite moins de calcul par token, produisant moins de chaleur au prix d'une qualité marginale.

Combien de batterie consomme un Local LLM?

La consommation de batterie lors de l'inférence locale est importante. L'inférence CPU active sur un modèle 7B consomme 15-25 W sur un CPU ordinateur portable typique, réduisant l'autonomie de la batterie à 2-3 heures à partir d'une charge complète sur une batterie 60 Wh.

Apple Silicon est nettement plus efficace. Un MacBook Pro M3 exécutant un modèle 7B consomme environ 12-18 W lors de l'inférence, offrant 3-4 heures de génération active à partir d'une charge complète.

Pour les sessions prolongées, connectez-vous. Si vous avez besoin d'une inférence locale économe en batterie, utilisez un modèle 3B en Q4_K_M -- il consomme 6-10 W et prolonge l'autonomie de la batterie à 5-6 heures sur la plupart des ordinateurs portables.

Quel niveau de quantification devez-vous utiliser sur un ordinateur portable?

Quantification réduit la précision du modèle pour réduire les exigences en RAM et en calcul. Pour les ordinateurs portables, Q4_K_M est le standard recommandé:

QuantificationRAM vs ComplètePerte de qualitéCas d'usage
Q2_K~25%Élevée -- dégradation notableSeulement RAM extrêmement faible
Q3_K_S~35%ModéréeSous 4 GB RAM
Q4_K_M~45%Basse -- standard recommandéPlupart des ordinateurs portables, meilleur équilibre
Q5_K_M~55%MinimaleOrdinateurs portables 16 GB RAM
Q8_0~80%Négligeable32 GB RAM ou GPU avec 8+ GB VRAM

Comment exécuter des Local LLMs sur un ordinateur portable protège-t-il votre confidentialité?

UE / RGPD: Un ordinateur portable exécutant des Local LLMs est la configuration d'IA la plus respectueuse de la vie privée disponible. Aucun texte de demande, contexte ou résultat ne quitte l'appareil -- les mécanismes de transfert RGPD Article 46 ne sont pas requis. Pour les professionnels français traitant des données personnelles (médicale, juridique, financière), un MacBook Pro M3 ou M4 avec 18-36 GB de mémoire unifiée est la configuration recommandée pour l'inférence locale avec contenu sensible. La CNIL recommande l'inférence locale pour les systèmes d'IA traitant les données personnelles sensibles dans les contextes professionnels.

France (RGPD + LPD): La Loi Informatique et Libertés française exige le traitement des données personnelles en France ou dans des zones à protections équivalentes. Un ordinateur portable exécutant Ollama localement satisfait cette exigence pour l'utilisation professionnelle individuelle -- toute l'inférence reste sur l'appareil, sans traitement par serveurs externes. Les professionnels français préfèrent couramment Llama 3.1 7B via Ollama sur MacBooks M-series pour le traitement de documents sensibles sans sortie de données.

Conformité régionale: Pour les entreprises françaises, l'exécution d'inférence locale sur des ordinateurs portables isolés du réseau satisfait les exigences de souveraineté des données pour le traitement des données personnelles conformément au RGPD et à la Loi Informatique et Libertés.

Quelles sont les erreurs courantes lors de l'exécution de Local LLMs sur un ordinateur portable?

  • Exécuter un modèle trop grand pour la RAM disponible → bascule sur le disque, ralentissant l'inférence de 10–25 à 1–3 token/sec.
  • Ignorer l'étranglement thermique → la vitesse soutenue chute de 20–40% après 10–15 minutes d'inférence.
  • Utiliser Q8_0 plutôt que Q4_K_M → double l'utilisation de RAM sans gain de qualité perceptible sur matériel ordinateur portable.
  • Ne pas activer l'accélération GPU dans LM Studio → le débit Apple Silicon chute de 50–80 à 10–20 token/sec.
  • Utiliser la fenêtre de contexte par défaut de 2 048 tokens dans Ollama → les documents multipage sont tronqués ; définissez `num_ctx 8192` dans votre Modelfile.

Lectures complémentaires

Questions fréquemment posées sur l'exécution de Local LLMs sur ordinateurs portables

L'exécution d'un Local LLM endommagera-t-elle mon ordinateur portable au fil du temps?

Non -- les CPU et GPU modernes sont conçus pour gérer en toute sécurité les charges élevées continues via l'étranglement thermique. L'exécution de l'inférence pendant des heures est équivalente à l'encodage vidéo ou aux jeux. Un support d'ordinateur portable et une ventilation adéquate préviennent l'accumulation excessive de chaleur. Le nombre de cycles de batterie augmente avec les recharges prolongées branchées, ce qui est un modèle d'usure normal.

Puis-je exécuter un Local LLM sur un ordinateur portable 4 GB RAM?

À peine. Un modèle 2B comme Gemma 2 2B nécessite environ 1,7 GB de RAM pour le modèle, mais l'OS a besoin de 2-3 GB simultanément. Sur 4 GB de RAM total, vous connaîtrez probablement une utilisation d'échange ce qui rend l'inférence 5-10× plus lente. Le minimum pratique pour une expérience utilisable est 8 GB.

Mon ordinateur portable a-t-il besoin d'un GPU dédié pour exécuter des Local LLMs?

Non. Tous les principaux outils Local LLM (Ollama, LM Studio, GPT4All) fonctionnent uniquement sur CPU. Un GPU dédié accélère considérablement l'inférence, mais les modèles 3B-7B sont utilisables à 10-30 token/sec uniquement sur CPU. Voir Meilleurs modèles Local LLM pour débutants pour les recommandations de modèles optimisés CPU.

Quel est l'ordinateur portable le plus rapide pour exécuter des Local LLMs?

À partir d'avril 2026, Apple MacBook Pro M4 Max/M5 Max (48 GB mémoire unifiée) est l'ordinateur portable grand public le plus rapide pour l'inférence Local LLM. Il atteint 80-120 token/sec sur un modèle 13B et peut exécuter des modèles 30B à Q4_K_M. Pour les ordinateurs portables Windows, un GPU ordinateur portable RTX 4090 (16 GB VRAM) produit 100-130 token/sec sur des modèles 7B mais consomme considérablement plus d'énergie et génère plus de chaleur.

Comment savoir si mon ordinateur portable fait l'étranglement thermique?

Sur macOS: ouvrez Activity Monitor → Window → Historique d'utilisation CPU. Une chute soudaine de la fréquence CPU lors d'une génération continue indique l'étranglement. Sur Windows: utilisez HWiNFO64 pour surveiller en temps réel les températures et vitesses d'horloge du CPU/GPU. L'étranglement se produit généralement lorsque la température du CPU dépasse 95-100°C.

Puis-je exécuter un Local LLM avec l'alimentation par batterie?

Oui, mais la vitesse et la durée sont réduites. En mode batterie, macOS limite automatiquement la consommation d'énergie du CPU/GPU, réduisant la vitesse d'inférence de 20-35% par rapport aux performances branchées. Un modèle 7B sur un MacBook M3 Pro consomme environ 12-18 W lors de l'inférence -- attendez-vous à 3-4 heures de génération active à partir d'une charge complète avant de tomber à 20%. Pour les sessions économes en batterie, utilisez un modèle 3B (6-10 W).

Quelle est la meilleure taille de modèle pour un ordinateur portable 8 GB RAM?

Un modèle 7B en Q4_K_M est le maximum pratique pour les ordinateurs portables 8 GB RAM lors de l'exécution avec un navigateur ou d'autres applications ouvertes. Pour juste le modèle avec toutes les autres applications fermées, un modèle 9B peut tenir. Le standard recommandé est llama3.2:3b pour le multitâche ou mistral:7b pour la qualité lorsque vous pouvez fermer le navigateur.

Ollama utilise-t-il automatiquement le GPU sur un ordinateur portable?

Oui. Ollama détecte et utilise automatiquement l'accélération GPU disponible. Sur Apple Silicon, il utilise l'accélération GPU Metal. Sur les ordinateurs portables NVIDIA, il utilise CUDA. Sur les ordinateurs portables AMD, il utilise ROCm (avec une configuration supplémentaire sur Linux). Vous pouvez vérifier que le GPU est utilisé en exécutant `ollama ps` après le démarrage d'un modèle -- cela montre si les couches sont chargées vers GPU ou CPU.

Puis-je exécuter un Local LLM sur 8 GB RAM?

Oui. Un ordinateur portable de 8 GB exécute des modèles 7B à Q4_K_M (4,5 GB) à 10–25 token/sec sur CPU, ou 30–80 token/sec sur Apple Silicon.

Quel est l'ordinateur portable le plus rapide pour les Local LLMs?

Apple MacBook Pro M4 Pro/Max avec 24–48 GB de mémoire unifiée atteint 80–120 token/sec sur des modèles 13B. Sur Windows, un GPU ordinateur portable NVIDIA RTX 4070/4090 (8–16 GB VRAM) réalise 60–130 token/sec sur des modèles 7B.

Ai-je besoin d'un GPU pour les Local LLMs?

Non — Ollama et LM Studio fonctionnent uniquement sur CPU. Un GPU accélère l'inférence de 10–25 à 50–90 token/sec sur des modèles 7B, mais n'est pas nécessaire.

À quelle vitesse les Local LLMs s'exécutent-ils sur CPU?

Un modèle 7B à Q4_K_M s'exécute à 10–25 token/sec sur un CPU d'ordinateur portable moderne — assez lent pour lire au fil et à mesure, mais suffisamment rapide pour les discussions et les résumés. Apple Silicon atteint 30–80 token/sec en utilisant la mémoire unifiée comme GPU.

L'exécution de LLMs endommage-t-elle un ordinateur portable?

Non. Les CPU et GPU sont conçus pour une charge continue via l'étranglement thermique. Un support d'ordinateur portable pour l'aération et des pauses occasionnelles préviennent la chaleur excessive ; le bruit normal du ventilateur n'est pas un signe de dommages.

Sources

A Note on Third-Party Facts

This article references third-party AI models, benchmarks, prices, and licenses. The AI landscape changes rapidly. Benchmark scores, license terms, model names, and API prices can shift between the time of writing and the time you read this. Before making deployment or compliance decisions based on this article, verify current figures on each provider's official source: Hugging Face model cards for licenses and benchmarks, provider websites for API pricing, and EUR-Lex for current GDPR and EU AI Act text. This article reflects publicly available information as of May 2026.

Comparez votre LLM local avec 25+ modèles cloud simultanément avec PromptQuorum.

Rejoindre la liste d'attente PromptQuorum →

← Retour aux LLMs locaux

Llama & Phi sur 8-16GB Ordinateurs: Thermique 2026