Wichtigste Erkenntnisse
- Home Assistant Assist ist die lokale Sprach-Pipeline, die alles verbindet
- Whisper übernimmt Sprache-zu-Text lokal; wählen Sie eine Modellgröße für Ihren Genauigkeits-/Tempo-/Hardware-Kompromiss
- Piper übernimmt Text-zu-Sprache lokal mit natürlich klingenden Stimmen
- Das Wyoming-Protokoll verbindet Assist mit den Whisper- und Piper-Diensten
- Fügen Sie eine Aktivierungswort-Engine (etwa openWakeWord) für freihändiges Auslösen hinzu
- Optional: ein lokales LLM als Konversations-Agent für natürlichsprachliches Verstehen
Der vollständig lokale Sprach-Stack
Ein lokaler Sprachassistent sind vier Rollen auf Ihrer eigenen Hardware: erfassen und transkribieren (Whisper), verstehen (Assist-Intents oder ein lokales LLM), antworten (Piper) und auslösen (Aktivierungswort). Jede läuft offline; das Wyoming-Protokoll verdrahtet sie.
| Komponente | Rolle | Lokal? | Hinweise |
|---|---|---|---|
| Assist | Pipeline + Intent | Ja | In Home Assistant eingebaut |
| Whisper | Sprache-zu-Text | Ja | Modellgröße bestimmt Genauigkeit/Tempo |
| Piper | Text-zu-Sprache | Ja | Natürliche lokale Stimmen |
| Aktivierungswort | Freihändiger Auslöser | Ja | z. B. openWakeWord |
| Lokales LLM | Verstehen (optional) | Ja | Über Ollama als Konversations-Agent |
Home Assistant Assist
Assist ist die eingebaute Sprach-Pipeline, die Audio durch Sprache-zu-Text, einen Agenten und Text-zu-Sprache leitet. Sie wird unter Einstellungen → Sprachassistenten konfiguriert.
- Assist funktioniert für übliche Befehle out of the box mit eingebauten Intents (kein LLM nötig).
- Sie wählen die STT-Engine (Whisper), die TTS-Engine (Piper) und den Konversations-Agenten.
- Nutzen Sie mehrere Pipelines, wenn Sie einen schnellen Intent-Only-Assistenten und einen separaten LLM-gestützten wollen.
Whisper für lokales Sprache-zu-Text
Whisper transkribiert Ihre Sprache lokal; größere Whisper-Modelle sind genauer, brauchen aber mehr Rechenleistung. Fügen Sie es als Whisper-(faster-whisper-)Add-on hinzu und verbinden Sie es über Wyoming.
- Whisper gibt es in Größen von tiny bis large – kleiner ist schneller, größer ist genauer.
- Für ein fokussiertes STT-Setup (Modelle, Hardware, Genauigkeit) siehe lokales Whisper + Home Assistant.
- Whisper ist mehrsprachig, sodass nicht-englische Befehle ohne Cloud-Dienst transkribiert werden.
Piper für lokales Text-zu-Sprache
Piper erzeugt gesprochene Antworten lokal mit natürlich klingenden Stimmen, schnell genug für Echtzeit-Antworten auf bescheidener Hardware. Fügen Sie es als Piper-Add-on hinzu und wählen Sie eine Stimme.
- Piper bietet mehrere Sprachen und Stimmen; wählen Sie eine pro Pipeline.
- Es läuft für typische Antwortlängen gut auf einem Raspberry Pi.
- Kein Audio wird irgendwohin gesendet – die Sprache wird auf Ihrem Gerät synthetisiert.
Das Wyoming-Protokoll
Wyoming ist das Protokoll, das Home Assistant nutzt, um Assist mit lokalen Sprachdiensten wie Whisper und Piper zu verbinden. Es lässt die Sprachdienste als separate Add-ons oder auf separaten Maschinen laufen.
- Jeder Dienst (Whisper, Piper, Aktivierungswort) läuft als Wyoming-Endpunkt.
- Assist erkennt und nutzt sie über die Wyoming-Integration.
- Diese Modularität bedeutet, dass Sie Whisper bei Bedarf auf ein leistungsfähigeres Gerät auslagern können.
Das LLM-Gehirn hinzufügen
Setzen Sie ein lokales LLM als Konversations-Agenten, um natürliche Sprache zu verstehen statt nur feste Intents. Das ist optional, schaltet aber flexible Formulierungen frei.
- Verdrahten Sie zuerst Ollama in Home Assistant – siehe der Leitfaden zur Ollama-Integration.
- Nutzen Sie ein kleines Function-Calling-Modell, damit Sprachantworten flott bleiben.
- Für das End-to-End-Bild siehe Ihr Smart Home mit einem lokalen LLM betreiben.
Hardware-Bedarf
Ein Mini-PC betreibt Assist, Whisper, Piper und ein kleines LLM bequem; ein Raspberry Pi bewältigt Intent-Only-Sprache, hat aber mit großen Whisper-Modellen und LLM-Inferenz Schwierigkeiten. Mikrofon-Hardware (Sprach-Satelliten) erfasst Audio im ganzen Haus.
- Nutzen Sie einen Mini-PC, wenn Sie das LLM-Gehirn und größere Whisper-Modelle wollen – siehe beste Hardware für ein lokales Smart Home.
- Nutzen Sie einen Pi für einen leichtgewichtigen Intent-Only-Assistenten.
- Fügen Sie Sprach-Satelliten-Hardware (Mikrofon- + Lautsprecher-Endpunkte) für die Raumabdeckung hinzu.
- Vergleichen Sie die Kompromisse lokal vs Cloud in lokale vs Cloud-Sprachassistenten.
FAQ
Kann ein lokaler Sprachassistent Alexa vollständig ersetzen?
Für die Smart-Home-Steuerung und viele Routinen ja – Assist mit Whisper, Piper und einem lokalen LLM deckt natürlichsprachliche Gerätesteuerung und Antworten ab. Er repliziert nicht jeden Alexa-Skill von Drittanbietern oder Cloud-Shopping-Funktionen, deckt aber den Kern-Anwendungsfall der Heimsteuerung privat ab.
Funktioniert ein lokaler Sprachassistent offline?
Ja. Sprache-zu-Text (Whisper), Text-zu-Sprache (Piper), die Intent-Verarbeitung und ein optionales lokales LLM laufen alle auf Ihrer Hardware, sodass der Assistent ohne Internet funktioniert. Nur der Fernzugriff von außerhalb des Hauses benötigt Konnektivität.
Wie genau ist lokale Spracherkennung?
Die Genauigkeit hängt von der Whisper-Modellgröße und Ihrem Mikrofon ab. Größere Whisper-Modelle sind genauer, aber langsamer; ein mittelgroßes Modell auf einem Mini-PC gibt eine gute Balance für Heimbefehle. Siehe den lokalen Whisper-Leitfaden zur Dimensionierung.
Welche Hardware brauche ich für einen lokalen Sprachassistenten?
Einen Mini-PC für den vollständigen Stack (LLM + größeres Whisper) oder einen Raspberry Pi für einen Intent-Only-Assistenten, plus Mikrofon-/Lautsprecher-Sprach-Satelliten-Hardware für die Raumabdeckung. Eine GPU oder NPU senkt die LLM- und Large-Whisper-Latenz.
Kann ich ein eigenes Aktivierungswort nutzen?
Ja. Eine lokale Aktivierungswort-Engine wie openWakeWord unterstützt eigene Aktivierungswörter und läuft auf Ihrer Hardware, sodass freihändiges Auslösen keine Cloud braucht.