PromptQuorumPromptQuorum

Meilleur mini PC pour LLM local ?

Réponse rapide

Trois mini PC se distinguent pour l'inférence LLM locale : le Mac Mini M4 (le plus rapide, ~18 tok/s), le Minisforum UM790 Pro (plus de RAM, 64 Go DDR5) et le Beelink SER8 (meilleur rapport qualité-prix, CPU Ryzen 9 8845HS). Les trois exécutent des modèles 7–13B Q4 sans GPU dédié.

  • Mac Mini M4 : le plus rapide pour les LLMs, ~18 tok/s sur Llama 3 8B, économe en énergie
  • Minisforum UM790 Pro : iGPU AMD Radeon 780M, jusqu'à 64 Go de RAM unifiée
  • Beelink SER8 : Ryzen 9 8845HS, ~8 tok/s, alternative économique

Mis à jour : 2026-05

Model Comparisons

Points clés

  • Mac Mini M4 à partir de ~599 USD, utilise Apple Metal pour l'accélération GPU, atteint ~18 tok/s sur un modèle 7B Q4 avec seulement ~30 W sous charge
  • Minisforum UM790 Pro (AMD Ryzen 9 7940HS) supporte jusqu'à 64 Go de RAM DDR5 et ~8 tok/s sur un modèle 7B via ROCm sous Linux
  • L'architecture mémoire unifiée d'Apple Silicon est l'avantage clé — la RAM du M4 est partagée entre CPU et GPU sans goulot d'étranglement VRAM
  • Beelink SER8 (Ryzen 9 8845HS) est le choix budgétaire : même ~8 tok/s que l'UM790 Pro mais inférence basée sur CPU, consommation électrique réduite et pas besoin de configuration ROCm Linux

Le Mac Mini M4 domine en vitesse et en efficacité

Le Mac Mini M4 atteint ~18 tokens par seconde sur un modèle 7B Q4, consomme ~30 W sous charge et démarre à environ 599 USD — ce qui en fait le mini PC le plus rapide pour l'inférence LLM locale. La puce M4 utilise une architecture mémoire unifiée, signifiant que la même RAM physique est partagée entre CPU et GPU sans surcharge de copie mémoire. Pour les utilisateurs privilégiant la vitesse, le M4 est le meilleur choix.

Le Minisforum UM790 Pro est l'option d'évolutivité : AMD Ryzen 9 7940HS avec iGPU Radeon 780M, jusqu'à 64 Go DDR5 configurés en mémoire unifiée, et ~8 tok/s sous Linux avec ROCm. Le Beelink SER8 (Ryzen 9 8845HS) correspond à l'UM790 Pro sur le débit mais utilise l'inférence basée sur CPU — aucun GPU discret requis — ce qui en fait le choix économique pour les utilisateurs Windows ou Linux qui veulent éviter la configuration ROCm.

Le tableau ci-dessous compare les trois mini PC sur CPU/GPU, meilleure configuration mémoire et vitesse LLM mesurée.

Mini PCCPU/GPUMeilleure configVitesse LLM (7B Q4)
Mac Mini M4Apple M416 Go unifié~18 tok/s
Minisforum UM790 ProRyzen 9 7940HS64 Go DDR5~8 tok/s
Beelink SER8Ryzen 9 8845HS64 Go DDR5~8 tok/s

La mémoire unifiée est le différenciateur clé pour les performances LLM

Les mini PC standard avec emplacements GPU discrets ne sont pas utiles pour l'inférence LLM car la VRAM du GPU est fixée en usine — généralement 4–8 Go — et ne peut pas être étendue. Le Mac Mini M4 et UM790 Pro résolvent cela via l'inférence basée sur GPU avec mémoire unifiée. Le Beelink SER8 adopte une approche différente : son Ryzen 9 8845HS utilise l'inférence basée sur CPU, qui est plus lente mais ne nécessite pas de configuration GPU.

Le Mac Mini M4 avec 16 Go de mémoire unifiée surpasse l'UM790 Pro avec 32 Go DDR5 en vitesse d'inférence pure car la bande passante mémoire d'Apple (~68 GB/s) et l'accélération Metal GPU sont plus efficaces que l'iGPU Radeon 780M. L'avantage de l'UM790 Pro est sa capacité d'extension à 64 Go, permettant d'exécuter des modèles plus grands comme 13B et 30B Q4 qui ne tiennent pas dans 16 Go.

Pour un guide complet de sélection matérielle pour LLM local, consultez l'aperçu des meilleurs frontends Ollama qui couvre la partie logicielle de la configuration LLM locale.

Réponses rapides sur les mini PC pour LLMs locaux

Le Mac Mini M4 peut-il faire tourner un modèle 13B localement ?
Oui, avec la version 16 Go en quantification Q4, le modèle tient avec ~1 Go de marge. Le Mac Mini M4 Pro 32 Go peut exécuter confortablement des modèles 13B et 30B Q4. La vitesse d'inférence descend à ~10 tok/s pour 13B Q4 sur le M4 de base 16 Go.
Le Minisforum UM790 Pro nécessite-t-il ROCm pour l'accélération GPU ?
Oui. Sous Linux, Ollama et llama.cpp prennent en charge l'iGPU Radeon 780M via ROCm. Sous Windows, Ollama utilise DirectML pour l'accélération iGPU AMD, ce qui donne généralement des performances inférieures à ROCm sous Linux. Pour une inférence la plus rapide possible sur l'UM790 Pro, utilisez Linux avec ROCm.
Le Mac Mini M4 est-il suffisamment performant pour du codage avec un modèle 7B ?
Oui. À ~18 tok/s avec un modèle 7B Q4, le Mac Mini M4 génère des tokens assez rapidement pour la complétion de code interactive. La latence de réponse pour une complétion de 200 tokens est d'environ 11 secondes — pratique pour une assistance au codage non temps-réel.
Quelle est la taille maximale de modèle que l'UM790 Pro peut exécuter à pleine vitesse ?
Avec 64 Go DDR5 en mémoire unifiée sous Linux avec ROCm, l'UM790 Pro peut exécuter un modèle 30B Q4 (~18 Go) à environ 3–4 tok/s. Un modèle 13B Q4 (~8 Go) tourne à ~6 tok/s. Consultez le guide des frontends Ollama pour la configuration logicielle.
Quand devrais-je choisir le Beelink SER8 plutôt que le Mac Mini M4 ou l'UM790 Pro ?
Choisissez Beelink SER8 si vous : (1) voulez éviter les drivers GPU et ROCm sur Linux ; (2) privilégiez le budget à la vitesse (il est moins cher que les deux) ; (3) utilisez Windows et ne voulez pas utiliser DirectML ; (4) faites occasionnellement de l'inférence à ~8 tok/s et préférez la simplicité de l'inférence basée sur CPU. Il ne rivalisera pas avec le Mac Mini M4 en vitesse ou l'UM790 Pro en évolutivité, mais c'est l'option CPU-only la plus simple.