Réponse rapide
Trois mini PC se distinguent pour l'inférence LLM locale : le Mac Mini M4 (le plus rapide, ~18 tok/s), le Minisforum UM790 Pro (plus de RAM, 64 Go DDR5) et le Beelink SER8 (meilleur rapport qualité-prix, CPU Ryzen 9 8845HS). Les trois exécutent des modèles 7–13B Q4 sans GPU dédié.
Mis à jour : 2026-05
Points clés
Le Mac Mini M4 atteint ~18 tokens par seconde sur un modèle 7B Q4, consomme ~30 W sous charge et démarre à environ 599 USD — ce qui en fait le mini PC le plus rapide pour l'inférence LLM locale. La puce M4 utilise une architecture mémoire unifiée, signifiant que la même RAM physique est partagée entre CPU et GPU sans surcharge de copie mémoire. Pour les utilisateurs privilégiant la vitesse, le M4 est le meilleur choix.
Le Minisforum UM790 Pro est l'option d'évolutivité : AMD Ryzen 9 7940HS avec iGPU Radeon 780M, jusqu'à 64 Go DDR5 configurés en mémoire unifiée, et ~8 tok/s sous Linux avec ROCm. Le Beelink SER8 (Ryzen 9 8845HS) correspond à l'UM790 Pro sur le débit mais utilise l'inférence basée sur CPU — aucun GPU discret requis — ce qui en fait le choix économique pour les utilisateurs Windows ou Linux qui veulent éviter la configuration ROCm.
Le tableau ci-dessous compare les trois mini PC sur CPU/GPU, meilleure configuration mémoire et vitesse LLM mesurée.
| Mini PC | CPU/GPU | Meilleure config | Vitesse LLM (7B Q4) |
|---|---|---|---|
| Mac Mini M4 | Apple M4 | 16 Go unifié | ~18 tok/s |
| Minisforum UM790 Pro | Ryzen 9 7940HS | 64 Go DDR5 | ~8 tok/s |
| Beelink SER8 | Ryzen 9 8845HS | 64 Go DDR5 | ~8 tok/s |
Les mini PC standard avec emplacements GPU discrets ne sont pas utiles pour l'inférence LLM car la VRAM du GPU est fixée en usine — généralement 4–8 Go — et ne peut pas être étendue. Le Mac Mini M4 et UM790 Pro résolvent cela via l'inférence basée sur GPU avec mémoire unifiée. Le Beelink SER8 adopte une approche différente : son Ryzen 9 8845HS utilise l'inférence basée sur CPU, qui est plus lente mais ne nécessite pas de configuration GPU.
Le Mac Mini M4 avec 16 Go de mémoire unifiée surpasse l'UM790 Pro avec 32 Go DDR5 en vitesse d'inférence pure car la bande passante mémoire d'Apple (~68 GB/s) et l'accélération Metal GPU sont plus efficaces que l'iGPU Radeon 780M. L'avantage de l'UM790 Pro est sa capacité d'extension à 64 Go, permettant d'exécuter des modèles plus grands comme 13B et 30B Q4 qui ne tiennent pas dans 16 Go.
Pour un guide complet de sélection matérielle pour LLM local, consultez l'aperçu des meilleurs frontends Ollama qui couvre la partie logicielle de la configuration LLM locale.