Accueil/Smart Home/Construire un Assistant Vocal Entièrement Local pour votre Maison Connectée (2026)

Local AI & LLMs in the Smart Home

Construire un Assistant Vocal Entièrement Local pour votre Maison Connectée (2026)

Dernière mise à jour: 2026-06-04·11 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Lire en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt

Un assistant vocal entièrement local combine Home Assistant Assist (intention), Whisper local (reconnaissance vocale), Piper (synthèse vocale) et un LLM local (raisonnement) — tous reliés via le protocole Wyoming et tournant sur votre propre matériel. Aucun audio ni commande ne quitte la maison, et il fonctionne hors ligne.

Vous pouvez remplacer Alexa ou Google par un assistant vocal entièrement local construit avec Home Assistant Assist, Whisper local pour la reconnaissance vocale, Piper pour la synthèse vocale et un LLM local comme cerveau. Ce guide couvre la pile vocale hors ligne, chaque composant, le protocole Wyoming qui les relie et le matériel nécessaire — le tout privé et fonctionnant sans le cloud.

Points clés

Home Assistant Assist est le pipeline vocal local qui relie tout
Whisper gère la reconnaissance vocale localement ; choisissez une taille de modèle selon votre compromis précision/vitesse/matériel
Piper gère la synthèse vocale localement avec des voix au son naturel
Le protocole Wyoming relie Assist aux services Whisper et Piper
Ajoutez un moteur de mot d'activation (comme openWakeWord) pour le déclenchement mains libres
Optionnel : définissez un LLM local comme agent de conversation pour la compréhension du langage naturel

La pile vocale entièrement locale

Un assistant vocal local, ce sont quatre rôles sur votre propre matériel : capturer et transcrire (Whisper), comprendre (intentions Assist ou un LLM local), répondre (Piper) et déclencher (mot d'activation). Chacun tourne hors ligne ; le protocole Wyoming les relie.

Composant	Rôle	Local ?	Notes
Assist	Pipeline + intention	Oui	Intégré à Home Assistant
Whisper	Reconnaissance vocale	Oui	La taille du modèle fixe précision/vitesse
Piper	Synthèse vocale	Oui	Voix locales naturelles
Mot d'activation	Déclencheur mains libres	Oui	ex. openWakeWord
LLM local	Compréhension (optionnel)	Oui	Via Ollama comme agent de conversation

Home Assistant Assist

Assist est le pipeline vocal intégré qui achemine l'audio par reconnaissance vocale, un agent et synthèse vocale. Il se configure dans Paramètres → Assistants vocaux.

Assist fonctionne avec des intentions intégrées prêtes à l'emploi (sans LLM) pour les commandes courantes.
Vous sélectionnez le moteur STT (Whisper), le moteur TTS (Piper) et l'agent de conversation.
Utilisez plusieurs pipelines si vous voulez un assistant rapide intention-seule et un autre séparé piloté par LLM.

Whisper pour la reconnaissance vocale locale

Whisper transcrit votre parole localement ; les plus gros modèles Whisper sont plus précis mais demandent plus de calcul. Ajoutez-le comme add-on Whisper (faster-whisper) et reliez-le via Wyoming.

Whisper existe en tailles de tiny à large — plus petit est plus rapide, plus grand est plus précis.
Pour une configuration STT ciblée (modèles, matériel, précision), voir Whisper local + Home Assistant.
Whisper est multilingue, donc les commandes non anglaises se transcrivent sans service cloud.

Piper pour la synthèse vocale locale

Piper génère des réponses parlées localement avec des voix au son naturel, assez rapides pour des réponses en temps réel sur du matériel modeste. Ajoutez-le comme add-on Piper et sélectionnez une voix.

Piper offre plusieurs langues et voix ; choisissez-en une par pipeline.
Il tourne bien sur une Raspberry Pi pour des longueurs de réponse typiques.
Aucun audio n'est envoyé nulle part — la parole est synthétisée sur votre appareil.

Le protocole Wyoming

Wyoming est le protocole que Home Assistant utilise pour relier Assist aux services vocaux locaux comme Whisper et Piper. Il permet aux services vocaux de tourner comme add-ons séparés ou sur des machines séparées.

Chaque service (Whisper, Piper, mot d'activation) tourne comme un point d'accès Wyoming.
Assist les découvre et les utilise via l'intégration Wyoming.
Cette modularité signifie que vous pouvez déporter Whisper sur une machine plus puissante au besoin.

Ajouter le cerveau LLM

Définissez un LLM local comme agent de conversation pour comprendre le langage naturel au lieu de seulement des intentions fixes. C'est optionnel mais cela débloque des formulations flexibles.

Câblez d'abord Ollama dans Home Assistant — voir le guide d'intégration Ollama.
Utilisez un petit modèle à appel de fonctions pour que les réponses vocales restent vives.
Pour la vue d'ensemble de bout en bout, voir faire tourner votre maison connectée sur un LLM local.

Besoins matériels

Un mini-PC fait tourner confortablement Assist, Whisper, Piper et un petit LLM ; une Raspberry Pi gère la voix intention-seule mais peine avec les gros modèles Whisper et l'inférence LLM. Le matériel micro (satellites vocaux) capte l'audio dans toute la maison.

Utilisez un mini-PC si vous voulez le cerveau LLM et des modèles Whisper plus grands — voir meilleur matériel pour une maison connectée locale.
Utilisez une Pi pour un assistant léger intention-seule.
Ajoutez du matériel de satellite vocal (points micro + haut-parleur) pour la couverture par pièce.
Comparez les compromis local vs cloud dans assistants vocaux local vs cloud.

FAQ

Un assistant vocal local peut-il remplacer entièrement Alexa ?

Pour le contrôle de la maison connectée et de nombreuses routines, oui — Assist avec Whisper, Piper et un LLM local couvre le contrôle d'appareils et les réponses en langage naturel. Il ne reproduit pas chaque skill Alexa tierce ni les fonctions d'achat cloud, mais il couvre le cas d'usage central du contrôle de la maison en privé.

Un assistant vocal local fonctionne-t-il hors ligne ?

Oui. Reconnaissance vocale (Whisper), synthèse vocale (Piper), gestion des intentions et un LLM local optionnel tournent tous sur votre matériel, donc l'assistant fonctionne sans internet. Seul l'accès à distance depuis l'extérieur nécessite une connectivité.

Quelle est la précision de la reconnaissance vocale locale ?

La précision dépend de la taille du modèle Whisper et de votre micro. Les plus gros modèles Whisper sont plus précis mais plus lents ; un modèle de taille moyenne sur un mini-PC offre un bon équilibre pour les commandes domestiques. Voir le guide Whisper local pour le dimensionnement.

Quel matériel pour un assistant vocal local ?

Un mini-PC pour la pile complète (LLM + Whisper plus grand), ou une Raspberry Pi pour un assistant intention-seule, plus du matériel de satellite vocal micro/haut-parleur pour la couverture par pièce. Un GPU ou un NPU réduit la latence du LLM et du gros Whisper.

Puis-je utiliser un mot d'activation personnalisé ?

Oui. Un moteur de mot d'activation local comme openWakeWord prend en charge les mots d'activation personnalisés et tourne sur votre matériel, donc le déclenchement mains libres ne nécessite aucun cloud.

← Retour à Smart Home