Accueil/Smart Home/Reconnaissance Vocale Locale pour la Maison Connectée : Whisper + HA (2026)

Local AI & LLMs in the Smart Home

Reconnaissance Vocale Locale pour la Maison Connectée : Whisper + HA (2026)

Dernière mise à jour: 2026-06-04·8 min de lecture·Par Hans Kuepper · Fondateur de PromptQuorum, outil de dispatch multi-modèle · PromptQuorum

Lire en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt

Whisper local donne à Home Assistant une reconnaissance vocale privée : installez l'add-on Whisper, choisissez une taille de modèle adaptée à votre matériel et reliez-le à Assist via le protocole Wyoming. Les modèles plus petits sont plus rapides ; les plus grands sont plus précis. Rien n'est envoyé à un service cloud.

Whisper local donne à Home Assistant une reconnaissance vocale privée sans cloud : vous choisissez une taille de modèle Whisper selon votre compromis précision, vitesse et matériel, puis vous le reliez à Assist via le protocole Wyoming. Ce guide couvre pourquoi la STT locale compte, les tailles de modèle Whisper, la configuration Wyoming, les besoins matériels et comment régler la précision.

Points clés

Whisper est un modèle ouvert de reconnaissance vocale qui tourne localement — aucun audio ne quitte votre matériel
Utilisez l'add-on Whisper (faster-whisper) ; il se relie à Assist via Wyoming
Les tailles de modèle vont tiny → base → small → medium → large ; plus grand est plus précis, plus lent
Sur du matériel CPU seul, préférez tiny/base/small ; un GPU rend medium/large pratique
Whisper est multilingue, donc les commandes non anglaises se transcrivent sans service cloud
Réglez la précision avec un meilleur micro et le bon modèle avant de passer à plus grand

Pourquoi utiliser la reconnaissance vocale locale ?

La reconnaissance vocale locale garde vos enregistrements vocaux sur votre propre matériel, donc aucun audio n'est téléversé vers un tiers. Elle fonctionne aussi hors ligne et n'a aucun coût par requête.

Confidentialité : les assistants cloud transmettent et peuvent conserver les enregistrements ; Whisper local non — voir risques de confidentialité de la maison connectée.
Hors ligne : la transcription fonctionne pendant les coupures internet.
Sans frais : il n'y a aucun coût d'utilisation pour la transcription locale.

Quelle taille de modèle Whisper choisir ?

Choisissez le plus petit modèle Whisper qui donne une précision acceptable sur votre matériel — tiny/base/small pour CPU seul, medium/large quand vous avez un GPU. Les plus grands modèles améliorent la précision sur les accents et l'audio bruyant au prix de la vitesse.

Utilisez small par défaut sur un CPU de mini-PC ; passez à medium/large seulement si la précision manque.
Utilisez tiny/base sur une Raspberry Pi pour garder une latence utilisable.

Modèle	Précision relative	Vitesse relative	Idéal pour
tiny	La plus faible	La plus rapide	CPU basse consommation, commandes courtes
base	Faible	Très rapide	Raspberry Pi, phrases simples
small	Bonne	Rapide	CPU de mini-PC, usage quotidien
medium	Élevée	Modérée	GPU ou CPU puissant
large	La plus élevée	La plus lente	GPU, accents/pièces bruyantes

Configuration Wyoming

L'add-on Whisper expose un point d'accès Wyoming que Assist utilise pour la reconnaissance vocale. La configuration est : installer → choisir le modèle → sélectionner dans le pipeline.

1
Installez l'add-on Whisper (faster-whisper) depuis le magasin d'add-ons.
2
Définissez la taille du modèle dans la configuration de l'add-on et démarrez-le.
3
L'add-on s'enregistre automatiquement comme service de reconnaissance vocale Wyoming.
4
Dans Paramètres → Assistants vocaux, définissez Whisper comme moteur STT pour votre pipeline Assist.
5
Testez la transcription depuis les outils de débogage d'Assist avant d'ajouter du matériel vocal.

Besoins matériels

Whisper tourne sur CPU pour les petits modèles et profite d'un GPU pour les modèles medium/large. Adaptez la taille du modèle à la machine qui l'héberge.

Raspberry Pi : restez sur tiny/base pour une latence acceptable.
Mini-PC (CPU) : small fonctionne bien ; medium est possible mais plus lent — voir meilleur matériel pour une maison connectée locale.
Avec un GPU/NPU : medium et large deviennent pratiques pour une haute précision.
Vous pouvez exécuter Whisper sur une machine séparée plus puissante via Wyoming si votre hub est une Pi.

Régler la précision

Améliorez un bon micro et le bon modèle avant de recourir au plus gros Whisper. La qualité audio compte souvent plus que la taille du modèle pour les commandes domestiques.

Utilisez un micro de qualité ou du matériel de satellite vocal près du locuteur.
Réduisez le bruit de fond là où se trouve le micro.
Définissez la bonne langue dans l'add-on pour éviter les mauvaises transcriptions.
Montez d'une taille de modèle à la fois et retestez plutôt que de sauter à large.

FAQ

Quel modèle Whisper utiliser pour Home Assistant ?

Utilisez small par défaut sur un CPU de mini-PC, tiny ou base sur une Raspberry Pi, et medium ou large seulement si vous avez un GPU et avez besoin d'une meilleure précision sur les accents ou les pièces bruyantes. Montez d'une taille à la fois et retestez.

Ai-je besoin d'un GPU pour Whisper local ?

Non pour small et en dessous — ceux-ci tournent sur CPU. Un GPU rend surtout les modèles medium et large assez rapides pour un usage en temps réel. Vous pouvez aussi déporter Whisper sur une machine plus puissante via le protocole Wyoming.

Quelle est la précision de Whisper local hors ligne ?

La précision est forte avec le bon modèle et un bon micro ; les plus grands modèles gèrent mieux les accents et le bruit. Pour des commandes domestiques claires, le modèle small sur un mini-PC est généralement assez précis, et il tourne entièrement hors ligne.

Whisper local est-il multilingue ?

Oui. Whisper prend en charge de nombreuses langues, donc les commandes non anglaises se transcrivent localement sans aucun service cloud. Définissez la langue dans la configuration de l'add-on pour de meilleurs résultats.

← Retour à Smart Home