Startseite/Smart Home/Lokales Sprache-zu-Text fürs Smart Home: Whisper + HA (2026)

Local AI & LLMs in the Smart Home

Lokales Sprache-zu-Text fürs Smart Home: Whisper + HA (2026)

Aktualisiert: 4. Juni 2026·8 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Lokales Whisper gibt Home Assistant privates Sprache-zu-Text: Installieren Sie das Whisper-Add-on, wählen Sie eine zu Ihrer Hardware passende Modellgröße und verbinden Sie es über das Wyoming-Protokoll mit Assist. Kleinere Modelle sind schneller; größere sind genauer. Nichts wird an einen Cloud-Dienst gesendet.

Lokales Whisper gibt Home Assistant privates Sprache-zu-Text ohne Cloud: Sie wählen eine Whisper-Modellgröße für Ihren Kompromiss aus Genauigkeit, Tempo und Hardware und verbinden es dann über das Wyoming-Protokoll mit Assist. Dieser Leitfaden behandelt, warum lokales STT wichtig ist, die Whisper-Modellgrößen, die Wyoming-Einrichtung, den Hardware-Bedarf und wie Sie die Genauigkeit abstimmen.

Wichtigste Erkenntnisse

Whisper ist ein offenes Sprache-zu-Text-Modell, das lokal läuft – kein Audio verlässt Ihre Hardware
Nutzen Sie das Whisper-(faster-whisper-)Add-on; es verbindet sich über Wyoming mit Assist
Modellgrößen reichen tiny → base → small → medium → large; größer ist genauer, langsamer
Auf reiner CPU-Hardware bevorzugen Sie tiny/base/small; eine GPU macht medium/large praktikabel
Whisper ist mehrsprachig, sodass nicht-englische Befehle ohne Cloud-Dienst transkribiert werden
Stimmen Sie Genauigkeit mit einem besseren Mikrofon und dem richtigen Modell ab, bevor Sie größer werden

Warum lokales Sprache-zu-Text nutzen?

Lokales Sprache-zu-Text hält Ihre Sprachaufnahmen auf Ihrer eigenen Hardware, sodass kein Audio an einen Dritten hochgeladen wird. Es funktioniert auch offline und hat keine Kosten pro Anfrage.

Datenschutz: Cloud-Assistenten übertragen und behalten eventuell Aufnahmen; lokales Whisper nicht – siehe Smart-Home-Datenschutzrisiken.
Offline: Die Transkription funktioniert bei Internetausfällen.
Keine Gebühren: Für lokale Transkription gibt es keine Nutzungsgebühr.

Welche Whisper-Modellgröße sollten Sie nutzen?

Wählen Sie das kleinste Whisper-Modell, das auf Ihrer Hardware akzeptable Genauigkeit liefert – tiny/base/small für reine CPU, medium/large, wenn Sie eine GPU haben. Größere Modelle verbessern die Genauigkeit bei Akzenten und verrauschtem Audio auf Kosten des Tempos.

Nutzen Sie small als Standard auf einer Mini-PC-CPU; wechseln Sie nur zu medium/large, wenn die Genauigkeit fehlt.
Nutzen Sie tiny/base auf einem Raspberry Pi, um die Latenz nutzbar zu halten.

Modell	Relative Genauigkeit	Relatives Tempo	Am besten für
tiny	Am niedrigsten	Am schnellsten	Stromsparende CPU, kurze Befehle
base	Niedrig	Sehr schnell	Raspberry Pi, einfache Phrasen
small	Gut	Schnell	Mini-PC-CPU, Alltagsnutzung
medium	Hoch	Mäßig	GPU oder starke CPU
large	Am höchsten	Am langsamsten	GPU, Akzente/laute Räume

Wyoming-Einrichtung

Das Whisper-Add-on stellt einen Wyoming-Endpunkt bereit, den Assist für Sprache-zu-Text nutzt. Die Einrichtung ist: installieren → Modell wählen → in der Pipeline auswählen.

1
Installieren Sie das Whisper-(faster-whisper-)Add-on aus dem Add-on-Store.
2
Stellen Sie die Modellgröße in der Add-on-Konfiguration ein und starten Sie es.
3
Das Add-on registriert sich automatisch als Wyoming-Sprache-zu-Text-Dienst.
4
Setzen Sie unter Einstellungen → Sprachassistenten Whisper als STT-Engine für Ihre Assist-Pipeline.
5
Testen Sie die Transkription über die Assist-Debug-Tools, bevor Sie Sprach-Hardware hinzufügen.

Hardware-Bedarf

Whisper läuft für kleine Modelle auf der CPU und profitiert bei medium/large-Modellen von einer GPU. Passen Sie die Modellgröße an das Gerät an, das es hostet.

Raspberry Pi: bleiben Sie bei tiny/base für akzeptable Latenz.
Mini-PC (CPU): small funktioniert gut; medium ist möglich, aber langsamer – siehe beste Hardware für ein lokales Smart Home.
Mit einer GPU/NPU: medium und large werden für hohe Genauigkeit praktikabel.
Sie können Whisper über Wyoming auf einer separaten, leistungsfähigeren Maschine betreiben, wenn Ihr Hub ein Pi ist.

Genauigkeit abstimmen

Verbessern Sie ein gutes Mikrofon und das richtige Modell, bevor Sie zum größten Whisper greifen. Die Audioqualität zählt bei Heimbefehlen oft mehr als die Modellgröße.

Nutzen Sie ein hochwertiges Mikrofon oder Sprach-Satelliten-Hardware nahe am Sprecher.
Reduzieren Sie Hintergrundgeräusche dort, wo das Mikrofon sitzt.
Stellen Sie die korrekte Sprache im Add-on ein, um Fehltranskriptionen zu vermeiden.
Erhöhen Sie die Modellgröße jeweils um eine Stufe und testen Sie erneut, statt zu large zu springen.

Häufig gestellte Fragen

Welches Whisper-Modell sollte ich für Home Assistant nutzen?

Nutzen Sie small als Standard auf einer Mini-PC-CPU, tiny oder base auf einem Raspberry Pi und medium oder large nur, wenn Sie eine GPU haben und höhere Genauigkeit bei Akzenten oder lauten Räumen brauchen. Erhöhen Sie jeweils eine Stufe und testen Sie erneut.

Brauche ich eine GPU für lokales Whisper?

Nein für small und kleiner – die laufen auf der CPU. Eine GPU macht vor allem medium- und large-Modelle schnell genug für die Echtzeitnutzung. Sie können Whisper auch über das Wyoming-Protokoll auf eine leistungsfähigere Maschine auslagern.

Wie genau ist lokales Whisper offline?

Die Genauigkeit ist mit dem richtigen Modell und einem guten Mikrofon stark; größere Modelle bewältigen Akzente und Rauschen besser. Für klare Heimbefehle ist das small-Modell auf einem Mini-PC meist genau genug, und es läuft vollständig offline.

Ist lokales Whisper mehrsprachig?

Ja. Whisper unterstützt viele Sprachen, sodass nicht-englische Befehle lokal ohne Cloud-Dienst transkribiert werden. Stellen Sie die Sprache in der Add-on-Konfiguration für die besten Ergebnisse ein.

← Zurück zu Smart Home