PromptQuorumPromptQuorum
Accueil/Power Local LLM/Meilleures applications d'IA locale pour PC modestes en 2026 (8 Go RAM, sans GPU)
Easiest Desktop Apps

Meilleures applications d'IA locale pour PC modestes en 2026 (8 Go RAM, sans GPU)

·11 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Sur un portable 8 Go RAM sans GPU dédié, quatre applications fonctionnent vraiment bien en 2026 : Ollama, GPT4All, Jan et llama.cpp. Associez-en une à Phi-4 Mini Q4 (meilleur équilibre), SmolLM 2 1.7B Q4 (plus rapide) ou Llama 3.2 1B Q5 (sensation GUI la plus fluide) et restez sous 6 Go d'empreinte mémoire.

Points clés

  • Ollama — runtime CPU le plus léger en 2026, fonctionne en serveur d'arrière-plan, meilleure combinaison app + modèle : Ollama + Phi-4 Mini Q4 à 4–14 t/s sur 8 Go CPU seul.
  • GPT4All — seule app avec un plancher RAM de 4 Go et une installation sans terminal, idéale pour les utilisateurs non techniques sur portables Windows 10.
  • Jan — interface graphique complète, open source AGPL, natif Apple Silicon, app GUI la plus légère pour un MacBook Air 8 Go ou Mac mini M1.
  • llama.cpp — meilleur débit en tokens/seconde sur matériel identique (5–15 % au-dessus d'Ollama, 15–25 % au-dessus de GPT4All), mais nécessite une compilation.
  • Meilleur modèle sur 8 Go / sans GPU : Phi-4 Mini 3.8B en Q4_K_M pour l'équilibre, SmolLM 2 1.7B Q4 pour la vitesse maximale, Llama 3.2 1B Q5 pour la sensation de chat la plus fluide.
  • Classement vitesse sur CPU identique : llama.cpp > Ollama > Jan > GPT4All. L'écart est de 15–25 %, pas 2–3×.
  • En mai 2026, n'exécutez pas de modèle 7B+ en 8 Go RAM — la pression de la fenêtre de contexte plus le système d'exploitation lui-même déclenchent du swap et écrasent le débit d'un facteur 5–10.

Comment Ollama, GPT4All, Jan et llama.cpp se comparent-ils sur 8 Go RAM sans GPU ?

Les fourchettes ci-dessous sont agrégées depuis les fils de benchmarks llama.cpp upstream, les chiffres des fiches modèles Hugging Face et les rapports de tests r/LocalLLaMA sur des portables 8 Go avec graphiques intégrés (Intel UHD 620 / Iris Xe / Ryzen 5 5500U Vega / Apple M1 8 Go). Les tokens/s sont mesurés sur des générations de 200 tokens après le chargement du modèle, fenêtre de contexte par défaut 2048 sauf mention contraire.

📍 En une phrase

Sur un portable 8 Go RAM sans GPU dédié, Ollama avec Phi-4 Mini Q4_K_M est la meilleure configuration polyvalente d'IA locale — vitesse de génération la plus rapide parmi les options sans code, charge thermique la plus basse, et bibliothèque de modèles la plus large.

💬 En termes simples

Sur un PC modeste avec 8 Go RAM et sans GPU : installez Ollama, exécutez ollama pull phi4-mini, puis ollama run phi4-mini. Vous obtenez 4–14 tokens par seconde selon votre CPU — lent mais utilisable pour des tâches où vous envoyez un prompt et attendez la réponse. Pour une alternative sans terminal, GPT4All s'installe comme une application normale et organise sa liste de modèles autour de ceux qui tiennent en 8 Go.

ApplicationRAM min.Meilleur modèle (contrainte 8 Go)Tokens/s (CPU seul)ChaleurVerdict
Ollama6 GoPhi-4 Mini Q4_K_M4–14 t/sFaibleMeilleur équilibre — à choisir en premier
GPT4All4 GoLlama 3.2 1B Q4_03–10 t/sFaibleInstallation la plus simple — choix non-technique
Jan6 GoGemma 3 4B Q4_K_M3–11 t/sMoyenneMeilleure GUI sur Apple Silicon 8 Go
llama.cpp4 GoSmolLM 2 1.7B Q4_K_M5–18 t/sFaiblePlus rapide si vous compilez

📌Note: Apple M1 8 Go surpasse régulièrement les portables x86 8 Go dans les quatre apps de ce tableau. Si vous avez accès à un Mac Apple Silicon, c'est le meilleur matériel à faible RAM pour l'IA locale — l'architecture à mémoire unifiée donne au modèle l'accès aux 8 Go complets sans la pénalité d'overhead OS que subissent les portables Windows et Linux.

Laquelle choisir ?

La bonne app dépend de votre aisance avec le terminal, de votre OS (Windows ou Mac) et de l'âge de votre CPU. Utilisez ce raccourci de décision :

Votre situationChoix
Portable Windows 10, 8 Go RAM, aucune expérience du terminalGPT4All
Ryzen moderne / Intel 12e gén., 8 Go, à l'aise avec le terminalOllama
MacBook Air M1 / Mac mini M1 8 GoJan ou Ollama
Portable Linux, débit tokens/s maximalllama.cpp
Machine 4 Go RAM (sous-spec)GPT4All + Llama 3.2 1B Q4_0
Ancien CPU classe Intel Core i5-8250U / i7-7700UOllama + SmolLM 2 1.7B
Chromebook avec mode dev Linuxllama.cpp + SmolLM 2
Portable de travail où l'installation de pilotes est interditeGPT4All (installation sans pilote / sans droits admin)

💡Tip: En cas de doute, commencez par Ollama. Il fonctionne sur tous les OS, télécharge les modèles via une simple commande `ollama pull [nom-du-modèle]` et expose une API compatible OpenAI si vous souhaitez intégrer d'autres outils plus tard. Si le terminal est rédhibitoire, GPT4All est l'alternative — mêmes modèles, sans ligne de commande.

Quelle vitesse atteint chaque app sur du matériel modeste réel ?

Tokens-par-seconde sur des machines représentatives 8 Go RAM sans GPU dédié, mai 2026. Les chiffres sont des fourchettes communautaires issues des fils de benchmarks llama.cpp upstream, des données de fiches modèles Hugging Face, et des tests r/LocalLLaMA tagués matériel. Chaque cellule est la fourchette typique sur les exécutions rapportées en réglages par défaut ; valeurs aberrantes exclues.

MatérielModèleOllamaGPT4AllJanllama.cpp
Intel Core i5-8250U + UHD 620 (ultraportable 2018)Phi-4 Mini Q4_K_M4–6 t/s3–5 t/s3–5 t/s5–7 t/s
AMD Ryzen 5 5500U + Vega 7 (entrée de gamme 2021)Phi-4 Mini Q4_K_M8–11 t/s6–9 t/s7–9 t/s9–13 t/s
Intel Core Ultra 5 125H + Arc iGPU (milieu de gamme 2024)Gemma 3 4B Q4_K_M10–14 t/s8–11 t/s9–12 t/s12–18 t/s
Apple M1 8 Go (MacBook Air 2020)Llama 3.2 1B Q5_K_M28–40 t/s20–30 t/s26–38 t/s32–48 t/s
Apple M1 8 GoPhi-4 Mini Q4_K_M12–18 t/s9–14 t/s11–17 t/s14–20 t/s
Intel Core i5-8250USmolLM 2 1.7B Q4_K_M10–14 t/s8–12 t/s9–13 t/s12–16 t/s

📌Note: Apple Silicon domine ce tableau parce que l'architecture à mémoire unifiée du M1 permet au GPU et au CPU de partager la même RAM à haute bande passante. Sur les portables x86 sans GPU dédié, les graphiques intégrés valent rarement la pénalité d'offload — voir la section iGPU ci-dessous.

Pourquoi 8 Go RAM est-il aussi étriqué, et quand le portable bride-t-il ?

Sur 8 Go RAM, le système d'exploitation consomme déjà 2.5–3.5 Go avant tout chargement de modèle, laissant 4.5–5.5 Go pour le modèle et son cache KV. Ce plafond fait de Phi-4 Mini (3.8B Q4 ≈ 2.4 Go) le sweet spot pratique et exclut tout modèle 7B à toute quantification pour un usage soutenu. La CNIL recommande explicitement l'inférence locale lorsque les données traitées sont sensibles (santé, données financières professionnelles, secrets juridiques) — l'IA locale sur 8 Go RAM est donc à la fois la solution technique et l'option de conformité par défaut pour les indépendants et TPE françaises.

  • Empreinte mémoire vs RAM système : un fichier modèle sur disque est plus petit que son empreinte une fois chargé. Phi-4 Mini Q4_K_M est ≈ 2.4 Go sur disque mais ≈ 3.0–3.5 Go en RAM une fois ajouté le cache KV pour un contexte de 2048 tokens. Réduisez le contexte à 1024 et vous économisez ≈ 400 Mo.
  • Mort par swap : quand l'empreinte dépasse la RAM physique, macOS et Linux commencent à paginer sur le SSD. Les tokens/s chutent d'un facteur 5–10 et le portable devient inerte. Surveillez vm_stat (Mac) ou free -h (Linux) — si le swap monte pendant l'inférence, basculez immédiatement vers un modèle plus petit.
  • Throttling thermique sur ultraportables : les portables sans ventilateur ou mono-ventilo (MacBook Air M1, XPS 13, Surface Laptop Go) atteignent les limites thermiques en 3–5 minutes d'inférence soutenue et abaissent les fréquences CPU de 20–35 %. Les tokens/s chutent en conséquence.
  • La longueur de contexte est une taxe mémoire : un contexte par défaut de 4096 réserve un cache KV de 4096 tokens d'avance. Sur un modèle 1B c'est 200–300 Mo ; sur un 4B c'est 600–900 Mo. Coupez à 1024 sauf si vous avez vraiment besoin d'une longue entrée.
  • Les apps en arrière-plan comptent plus que le modèle de CPU : une fenêtre Chrome avec 20 onglets, c'est 1–2 Go. Slack, c'est 400–600 Mo. Sur 8 Go RAM, fermer ces apps avant de charger un modèle 4B est le plus gros gain unitaire de tokens/s disponible.

⚠️Warning: Ne chargez aucun modèle 7B sur 8 Go RAM, même en Q2. Q2 7B fait ≈ 2.5 Go sur disque mais l'empreinte plus 2048 de contexte atterrit à ≈ 5.5 Go, ce qui fait basculer en swap sur la plupart des systèmes Windows / Linux. Résultat : chute de vitesse 5–10× et interface gelée.

Quel modèle et quelle quantification charger dans chaque app ?

Sur 8 Go RAM sans GPU dédié, restez sous 4B paramètres en Q4_K_M ou inférieur. Q4_K_M est la quantification standard en 2026 — elle perd ≈ 1 % de perplexité face au FP16, tient en moitié moins de RAM, et c'est la valeur par défaut pour la plupart des builds GGUF sur Hugging Face. Listé par app :

  • Ollama : ollama pull phi3:mini (Phi-4 Mini 3.8B Q4_K_M, ≈ 2.4 Go) est la recommandation par défaut. Pour la vitesse maximale, ollama pull smollm2:1.7b (≈ 1.0 Go). Pour le rendu chat soigné, ollama pull llama3.2:1b-instruct-q5_K_M (≈ 0.85 Go).
  • GPT4All : utilisez le navigateur de modèles intégré → "Llama 3.2 1B Instruct Q4_0" (≈ 0.7 Go) pour l'installation la plus légère, ou "Phi-4 Mini Q4_K_M" si la RAM le permet. Les valeurs par défaut de GPT4All sont conservatrices, donc la liste de modèles visible est plus courte que celle de llama.cpp, mais chaque entrée fonctionne.
  • Jan : utilisez le catalogue curé → "Gemma 3 4B Instruct Q4_K_M" (≈ 2.6 Go) sur Apple Silicon, ou "Phi-4 Mini Q4_K_M" sur x86. Jan accepte aussi le collage d'une URL Hugging Face pour n'importe quel GGUF.
  • llama.cpp : téléchargez les GGUF directement depuis Hugging Face — bartowski/Phi-4-mini-instruct-GGUF, bartowski/SmolLM2-1.7B-Instruct-GGUF, ou bartowski/Llama-3.2-1B-Instruct-GGUF. Lancez avec ./llama-cli -m model.gguf -p "..." -c 1024 -t 4.
  • À éviter sur 8 Go / sans GPU : tout modèle 7B à toute quantification, tout modèle au-dessus de Q5_K_M (gain qualitatif négligeable, double coût RAM), et tout modèle de base — choisissez toujours les variantes -instruct ou -chat pour une sortie utilisable.

💡Tip: Q4_K_M n'est pas la même chose que Q4_0. Q4_K_M utilise un schéma mixte plus intelligent et offre ≈ 5–10 % de qualité supplémentaire à taille égale. Choisissez Q4_K_M chaque fois que les deux sont disponibles.

Quels réglages apportent 30–60 % de tokens/s en plus sur PC modestes ?

Les réglages par défaut sont calibrés pour 16 Go RAM et un GPU dédié. Sur 8 Go CPU seul, trois leviers comptent le plus : longueur de contexte, taille de batch, et nombre de threads. Réglés ensemble, ils valent 30–60 % de tokens/s en plus sur le même matériel.

  • Longueur de contexte — le plus gros gain unitaire. Réduisez de 4096 (par défaut) à 1024. Dans Ollama : OLLAMA_NUM_CTX=1024 ollama run phi3:mini. Dans llama.cpp : -c 1024. Économie RAM : 400–900 Mo selon le modèle. Gain tokens/s : 10–20 %.
  • Nombre de threads — alignez sur les cœurs physiques, pas logiques. Les anciens CPU (i5-8250U, Ryzen 5 5500U) ont 4 cœurs physiques / 8 logiques. Réglez threads = 4, pas 8. Dans llama.cpp : -t 4. Dans Ollama : OLLAMA_NUM_THREAD=4. L'hyperthreading nuit à l'inférence parce que les deux threads se disputent la même unité FP/SIMD.
  • Taille de batch pour le traitement de prompt — 8 sur les CPU modestes. llama.cpp : --n-batch 8. Le défaut 512 surcharge le cache L2 sur les CPU 4 cœurs. Gain tokens/s sur modèles 4B : 15–25 %.
  • Quantification du cache KV — réglez sur q8_0 pour diviser par deux la RAM du cache KV. llama.cpp : --cache-type-k q8_0 --cache-type-v q8_0. Économie RAM : 150–400 Mo à 1024 de contexte, plus à des contextes supérieurs. Impact qualité : imperceptible.
  • Désactivez mlock sur les systèmes sujets au swap. llama.cpp --no-mlock. Sur les systèmes 8 Go, verrouiller le modèle en RAM empêche l'OS de prendre des décisions de cache intelligentes. Contre-intuitif mais constamment plus rapide sur Windows 10/11 avec 8 Go.
  • Utilisez explicitement les builds AVX2. La plupart des binaires précompilés llama.cpp / Ollama détectent automatiquement AVX2 / AVX-512 et activent le bon kernel. Si vous avez compilé vous-même, passez -DGGML_AVX2=ON. Détection AVX-512 : cat /proc/cpuinfo | grep avx512. AVX-512 apporte encore 10–15 % sur les CPU compatibles (Ice Lake / Tiger Lake / Rocket Lake / Zen 4+).

💡Tip: Empilez les cinq optimisations et vous verrez typiquement 35–55 % de tokens/s en plus sur le même modèle et le même matériel. Le plus gros gain unitaire est la coupe de contexte de 4096 → 1024, qui réduit aussi drastiquement le time-to-first-token sur un prompt à froid.

Les graphiques intégrés sont-ils utiles pour l'IA locale ?

Sur la plupart des portables 8 Go RAM la réponse est non — gardez l'inférence sur le CPU. Les graphiques intégrés partagent la RAM système, donc décharger des couches ne vous donne pas de mémoire supplémentaire ; cela ajoute juste une pénalité d'overhead d'offload. Trois exceptions à connaître :

  • Apple Silicon (M1/M2/M3/M4) — oui, toujours. L'architecture à mémoire unifiée fait que le « GPU » voit la même RAM à la même bande passante que le CPU. Ollama, Jan et llama.cpp utilisent tous automatiquement l'accélération Metal sur Mac, sans flag. C'est pourquoi un M1 8 Go dépasse la plupart des portables Windows 8 Go d'un facteur 2–3.
  • Intel Arc iGPU (Meteor Lake / Lunar Lake / Arrow Lake) — parfois. Les puces Intel Core Ultra (Ultra 5 125H, Ultra 7 155H, Ultra 7 258V) embarquent un iGPU Arc qui supporte les accélérations OpenVINO et SYCL. llama.cpp avec -DGGML_SYCL=ON est 30–60 % plus rapide que CPU seul sur ces puces. La configuration n'est pas triviale.
  • AMD Ryzen 7000/8000 avec iGPU Radeon 700M/800M — expérimental. Le support ROCm sur Radeon intégré est partiel et capricieux en 2026. CPU seul est le choix plus sûr sauf si vous aimez déboguer des stacks de pilotes.
  • Intel UHD plus ancien / Iris Plus / AMD Vega — à ignorer. Ces iGPU manquent du débit FP16 et de la bande passante mémoire pour battre un kernel CPU AVX2 moderne. Restez sur le CPU.

💡Tip: Le test le plus simple pour vérifier si votre iGPU vaut le coup : exécutez le même modèle 10 générations en CPU seul puis en accéléré iGPU et comparez les tokens/s. Sur Apple Silicon, l'iGPU est toujours plus rapide. Sur graphiques intégrés x86, la réponse dépend du matériel — testez plutôt que de supposer.

Erreurs courantes

Cinq erreurs qui ruinent les performances sur les systèmes 8 Go / sans GPU, avec la solution pour chacune :

  • Erreur 1 : charger un modèle 7B « parce que Q4 tient sur le disque ». Le fichier disque est plus petit que l'empreinte chargée. 7B Q4 ≈ 4.4 Go sur disque, ≈ 5.5–6.5 Go en RAM avec un contexte de 2048, ce qui dépasse le plafond 8 Go et déclenche le swap. Solution : restez à 4B ou moins. Phi-4 Mini Q4_K_M est le modèle le plus haut en qualité qui tient systématiquement.
  • Erreur 2 : laisser la fenêtre de contexte à 4096. Le défaut 4096 réserve un cache KV qui ajoute 400–900 Mo en plus du modèle. Solution : réglez le contexte à 1024 sauf si vous avez vraiment besoin d'une longue entrée. OLLAMA_NUM_CTX=1024 (Ollama), -c 1024 (llama.cpp).
  • Erreur 3 : tourner avec Chrome, Slack et Spotify ouverts. Chacun consomme 0.5–2 Go. Sur 8 Go RAM, il vous reste ≈ 5 Go après l'OS. Les apps en arrière-plan vous poussent en swap avant même le chargement du modèle. Solution : fermez tout sauf l'app IA et une fenêtre de notes avant l'inférence.
  • Erreur 4 : choisir Q8_0 « pour la qualité ». Sur les modèles 1B–4B, la différence de qualité entre Q4_K_M et Q8_0 est sous le seuil humainement perceptible pour le chat, mais Q8 double le coût RAM et divise par deux les tokens/s. Solution : restez sur Q4_K_M sauf si vous avez un benchmark mesurable montrant que Q8 aide votre tâche.
  • Erreur 5 : croire qu'un Raspberry Pi 4 suffit. 4 Go RAM et un Cortex-A72 1.5 GHz peuvent techniquement faire tourner TinyLlama 1B à 1–3 t/s, mais l'expérience est inutilisable pour le chat. Solution : Raspberry Pi 5 avec 8 Go RAM est le plancher SBC ARM réaliste — et même là, un portable x86 8 Go est plus rapide.

💡Tip: Les cinq erreurs partagent la même racine : supposer que les réglages de bureau s'appliquent à un portable contraint. Chaque défaut (contexte 4096, qualité Q8, tous les threads) est calibré pour une machine 16–32 Go RAM avec GPU dédié. Sur 8 Go CPU seul, il faut activement écraser les défauts. Voyez la section réglages comme le « préréglage PC modeste » — appliquez les cinq optimisations avant votre première exécution.

FAQ

Puis-je faire tourner de l'IA locale sur 4 Go RAM ?

Oui, mais uniquement avec des modèles sub-2B comme Llama 3.2 1B Q4_0 (≈ 0.7 Go sur disque) ou SmolLM 2 360M (≈ 0.25 Go sur disque). GPT4All est la seule des quatre apps qui liste 4 Go comme minimum officiel. Comptez 3–8 t/s sur un CPU moderne et un comportement UI nettement plus lent parce que l'OS n'a presque aucune marge.

Un ancien CPU Intel fonctionne-t-il pour l'IA locale ?

Tout ce qui dispose d'AVX2 (Haswell, 2013, ou plus récent) fonctionne en 2026. Le plancher pratique est un Intel Core i5-8250U ou un Ryzen 5 2500U plus ancien, où Phi-4 Mini Q4 tourne à 4–6 t/s. Les CPU sans AVX2 (pré-2013 Intel, AMD Bulldozer original) chargeront mais tourneront à 1–2 t/s, ce qui est inutilisable pour le chat.

L'IA locale va-t-elle abîmer mon portable ?

Non. L'inférence locale est un processus utilisateur normal — il ne peut pas endommager le matériel. Le pire scénario est un portable qui chauffe (90–100 °C sur ultraportables) et bride, contre quoi le firmware protège automatiquement. Pour éviter cela, utilisez un tapis de refroidissement sur les sessions prolongées, gardez la pièce sous 25 °C, et arrêtez l'inférence si le châssis est inconfortable au toucher.

Les graphiques intégrés sont-ils suffisants ?

Sur Apple Silicon (M1+) ils sont plus que suffisants — la mémoire unifiée fait de l'iGPU effectivement un GPU dédié bas de gamme. Sur Intel Core Ultra (Meteor Lake / Arrow Lake) ils peuvent apporter 30–60 % de vitesse en plus si vous configurez SYCL. Sur les Intel UHD / Iris Plus / AMD Vega plus anciens, les graphiques intégrés sont plus lents que le CPU et ne valent pas la peine.

Quel modèle est le plus rapide en CPU seul ?

Llama 3.2 1B Q4_0 et SmolLM 2 1.7B Q4_K_M sont les modèles utilisables les plus rapides. Llama 3.2 1B atteint 25–50 t/s sur Apple M1 et 12–25 t/s sur un CPU Ryzen ou Intel moderne. SmolLM 2 a une vitesse similaire avec un rendu d'écriture légèrement plus soigné. Tout ce qui dépasse 4B paramètres a peu de chances de paraître rapide sur des systèmes CPU seul.

Ajouter de la RAM aide-t-il plus qu'un upgrade CPU ?

Sur les systèmes 8 Go, passer à 16 Go est l'upgrade pratique le plus important parce qu'il débloque les modèles 7B–8B comme Mistral 7B Q4 et Llama 3.1 8B Q4. Les upgrades CPU apportent 20–50 % de tokens/s en plus ; l'upgrade RAM apporte 2–4× de qualité (saut de 1B–4B à 7B–8B). Si vous ne pouvez faire qu'un seul changement, ajoutez de la RAM.

Puis-je faire tourner de l'IA locale sur un Chromebook ?

Uniquement si le mode dev Linux (Crostini) est disponible. Les quatre apps de ce guide tournent toutes dans le conteneur Linux — llama.cpp compilé depuis les sources est le plus fiable sur les Chromebooks ARM, tandis que les Chromebooks x86 (Intel) fonctionnent avec Ollama ou GPT4All. Les performances suivent le CPU sous-jacent ; un Chromebook Intel Core i3 / i5 se comporte comme le portable Windows équivalent.

Windows 10 fonctionne-t-il toujours pour l'IA locale en 2026 ?

Oui. Les quatre apps supportent Windows 10 22H2. Ollama, GPT4All et Jan livrent des installeurs Windows signés ; llama.cpp livre des binaires Windows précompilés sur ses releases GitHub. La fin du support grand public de Windows 10 en octobre 2025 n'empêche pas l'installation, mais les mises à jour de sécurité ont cessé — envisagez un dual-boot Linux ou une mise à niveau vers Windows 11 pour un usage long terme.

Quel est le portable le moins cher qui fait tourner l'IA locale convenablement ?

Un ThinkPad T14 ou Dell Latitude 5430 d'occasion 2021–2022 avec 16 Go RAM et un Ryzen 5 5500U ou Intel i5-1235U coûte 350–450 € en 2026 et fait tourner Phi-4 Mini Q4 à 8–14 t/s. Encore moins cher : tout MacBook Air Apple M1 8 Go d'occasion à 450–550 €, qui bat la plupart des portables x86 sur les tokens/s grâce à la mémoire unifiée.

Puis-je utiliser un Raspberry Pi pour l'IA locale ?

Un Raspberry Pi 5 avec 8 Go RAM fait tourner Llama 3.2 1B Q4 à 4–7 t/s — utilisable mais lent. Un Pi 4 4 Go plafonne autour de 2 t/s sur TinyLlama 1B. Pour un usage chat réel, un portable x86 8 Go ou un MacBook Air M1 est plus rapide, moins cher d'occasion et plus simple à configurer. Le Pi n'a de sens que pour les charges embarquées, edge ou always-on.

← Retour à Power Local LLM

Meilleures apps IA locales PC 8 Go RAM 2026 : test CPU