Points clés
- Home Assistant Assist est le pipeline vocal local qui relie tout
- Whisper gère la reconnaissance vocale localement ; choisissez une taille de modèle selon votre compromis précision/vitesse/matériel
- Piper gère la synthèse vocale localement avec des voix au son naturel
- Le protocole Wyoming relie Assist aux services Whisper et Piper
- Ajoutez un moteur de mot d'activation (comme openWakeWord) pour le déclenchement mains libres
- Optionnel : définissez un LLM local comme agent de conversation pour la compréhension du langage naturel
La pile vocale entièrement locale
Un assistant vocal local, ce sont quatre rôles sur votre propre matériel : capturer et transcrire (Whisper), comprendre (intentions Assist ou un LLM local), répondre (Piper) et déclencher (mot d'activation). Chacun tourne hors ligne ; le protocole Wyoming les relie.
| Composant | Rôle | Local ? | Notes |
|---|---|---|---|
| Assist | Pipeline + intention | Oui | Intégré à Home Assistant |
| Whisper | Reconnaissance vocale | Oui | La taille du modèle fixe précision/vitesse |
| Piper | Synthèse vocale | Oui | Voix locales naturelles |
| Mot d'activation | Déclencheur mains libres | Oui | ex. openWakeWord |
| LLM local | Compréhension (optionnel) | Oui | Via Ollama comme agent de conversation |
Home Assistant Assist
Assist est le pipeline vocal intégré qui achemine l'audio par reconnaissance vocale, un agent et synthèse vocale. Il se configure dans Paramètres → Assistants vocaux.
- Assist fonctionne avec des intentions intégrées prêtes à l'emploi (sans LLM) pour les commandes courantes.
- Vous sélectionnez le moteur STT (Whisper), le moteur TTS (Piper) et l'agent de conversation.
- Utilisez plusieurs pipelines si vous voulez un assistant rapide intention-seule et un autre séparé piloté par LLM.
Whisper pour la reconnaissance vocale locale
Whisper transcrit votre parole localement ; les plus gros modèles Whisper sont plus précis mais demandent plus de calcul. Ajoutez-le comme add-on Whisper (faster-whisper) et reliez-le via Wyoming.
- Whisper existe en tailles de tiny à large — plus petit est plus rapide, plus grand est plus précis.
- Pour une configuration STT ciblée (modèles, matériel, précision), voir Whisper local + Home Assistant.
- Whisper est multilingue, donc les commandes non anglaises se transcrivent sans service cloud.
Piper pour la synthèse vocale locale
Piper génère des réponses parlées localement avec des voix au son naturel, assez rapides pour des réponses en temps réel sur du matériel modeste. Ajoutez-le comme add-on Piper et sélectionnez une voix.
- Piper offre plusieurs langues et voix ; choisissez-en une par pipeline.
- Il tourne bien sur une Raspberry Pi pour des longueurs de réponse typiques.
- Aucun audio n'est envoyé nulle part — la parole est synthétisée sur votre appareil.
Le protocole Wyoming
Wyoming est le protocole que Home Assistant utilise pour relier Assist aux services vocaux locaux comme Whisper et Piper. Il permet aux services vocaux de tourner comme add-ons séparés ou sur des machines séparées.
- Chaque service (Whisper, Piper, mot d'activation) tourne comme un point d'accès Wyoming.
- Assist les découvre et les utilise via l'intégration Wyoming.
- Cette modularité signifie que vous pouvez déporter Whisper sur une machine plus puissante au besoin.
Ajouter le cerveau LLM
Définissez un LLM local comme agent de conversation pour comprendre le langage naturel au lieu de seulement des intentions fixes. C'est optionnel mais cela débloque des formulations flexibles.
- Câblez d'abord Ollama dans Home Assistant — voir le guide d'intégration Ollama.
- Utilisez un petit modèle à appel de fonctions pour que les réponses vocales restent vives.
- Pour la vue d'ensemble de bout en bout, voir faire tourner votre maison connectée sur un LLM local.
Besoins matériels
Un mini-PC fait tourner confortablement Assist, Whisper, Piper et un petit LLM ; une Raspberry Pi gère la voix intention-seule mais peine avec les gros modèles Whisper et l'inférence LLM. Le matériel micro (satellites vocaux) capte l'audio dans toute la maison.
- Utilisez un mini-PC si vous voulez le cerveau LLM et des modèles Whisper plus grands — voir meilleur matériel pour une maison connectée locale.
- Utilisez une Pi pour un assistant léger intention-seule.
- Ajoutez du matériel de satellite vocal (points micro + haut-parleur) pour la couverture par pièce.
- Comparez les compromis local vs cloud dans assistants vocaux local vs cloud.
FAQ
Un assistant vocal local peut-il remplacer entièrement Alexa ?
Pour le contrôle de la maison connectée et de nombreuses routines, oui — Assist avec Whisper, Piper et un LLM local couvre le contrôle d'appareils et les réponses en langage naturel. Il ne reproduit pas chaque skill Alexa tierce ni les fonctions d'achat cloud, mais il couvre le cas d'usage central du contrôle de la maison en privé.
Un assistant vocal local fonctionne-t-il hors ligne ?
Oui. Reconnaissance vocale (Whisper), synthèse vocale (Piper), gestion des intentions et un LLM local optionnel tournent tous sur votre matériel, donc l'assistant fonctionne sans internet. Seul l'accès à distance depuis l'extérieur nécessite une connectivité.
Quelle est la précision de la reconnaissance vocale locale ?
La précision dépend de la taille du modèle Whisper et de votre micro. Les plus gros modèles Whisper sont plus précis mais plus lents ; un modèle de taille moyenne sur un mini-PC offre un bon équilibre pour les commandes domestiques. Voir le guide Whisper local pour le dimensionnement.
Quel matériel pour un assistant vocal local ?
Un mini-PC pour la pile complète (LLM + Whisper plus grand), ou une Raspberry Pi pour un assistant intention-seule, plus du matériel de satellite vocal micro/haut-parleur pour la couverture par pièce. Un GPU ou un NPU réduit la latence du LLM et du gros Whisper.
Puis-je utiliser un mot d'activation personnalisé ?
Oui. Un moteur de mot d'activation local comme openWakeWord prend en charge les mots d'activation personnalisés et tourne sur votre matériel, donc le déclenchement mains libres ne nécessite aucun cloud.