Startseite/Smart Home/Einen vollständig lokalen Sprachassistenten fürs Smart Home bauen (2026)

Local AI & LLMs in the Smart Home

Einen vollständig lokalen Sprachassistenten fürs Smart Home bauen (2026)

Aktualisiert: 2026-06-04·11 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

Lesen auf:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt

Ein vollständig lokaler Sprachassistent kombiniert Home Assistant Assist (Intent), lokales Whisper (Sprache-zu-Text), Piper (Text-zu-Sprache) und ein lokales LLM (Schlussfolgern) – alle über das Wyoming-Protokoll verbunden und auf Ihrer eigenen Hardware laufend. Kein Audio oder Befehl verlässt das Haus, und er funktioniert offline.

Sie können Alexa oder Google durch einen vollständig lokalen Sprachassistenten ersetzen, gebaut aus Home Assistant Assist, lokalem Whisper für Sprache-zu-Text, Piper für Text-zu-Sprache und einem lokalen LLM als Gehirn. Dieser Leitfaden behandelt den Offline-Sprach-Stack, jede Komponente, das Wyoming-Protokoll, das sie verbindet, und die nötige Hardware – alles privat und ohne Cloud.

Wichtigste Erkenntnisse

Home Assistant Assist ist die lokale Sprach-Pipeline, die alles verbindet
Whisper übernimmt Sprache-zu-Text lokal; wählen Sie eine Modellgröße für Ihren Genauigkeits-/Tempo-/Hardware-Kompromiss
Piper übernimmt Text-zu-Sprache lokal mit natürlich klingenden Stimmen
Das Wyoming-Protokoll verbindet Assist mit den Whisper- und Piper-Diensten
Fügen Sie eine Aktivierungswort-Engine (etwa openWakeWord) für freihändiges Auslösen hinzu
Optional: ein lokales LLM als Konversations-Agent für natürlichsprachliches Verstehen

Der vollständig lokale Sprach-Stack

Ein lokaler Sprachassistent sind vier Rollen auf Ihrer eigenen Hardware: erfassen und transkribieren (Whisper), verstehen (Assist-Intents oder ein lokales LLM), antworten (Piper) und auslösen (Aktivierungswort). Jede läuft offline; das Wyoming-Protokoll verdrahtet sie.

Komponente	Rolle	Lokal?	Hinweise
Assist	Pipeline + Intent	Ja	In Home Assistant eingebaut
Whisper	Sprache-zu-Text	Ja	Modellgröße bestimmt Genauigkeit/Tempo
Piper	Text-zu-Sprache	Ja	Natürliche lokale Stimmen
Aktivierungswort	Freihändiger Auslöser	Ja	z. B. openWakeWord
Lokales LLM	Verstehen (optional)	Ja	Über Ollama als Konversations-Agent

Home Assistant Assist

Assist ist die eingebaute Sprach-Pipeline, die Audio durch Sprache-zu-Text, einen Agenten und Text-zu-Sprache leitet. Sie wird unter Einstellungen → Sprachassistenten konfiguriert.

Assist funktioniert für übliche Befehle out of the box mit eingebauten Intents (kein LLM nötig).
Sie wählen die STT-Engine (Whisper), die TTS-Engine (Piper) und den Konversations-Agenten.
Nutzen Sie mehrere Pipelines, wenn Sie einen schnellen Intent-Only-Assistenten und einen separaten LLM-gestützten wollen.

Whisper für lokales Sprache-zu-Text

Whisper transkribiert Ihre Sprache lokal; größere Whisper-Modelle sind genauer, brauchen aber mehr Rechenleistung. Fügen Sie es als Whisper-(faster-whisper-)Add-on hinzu und verbinden Sie es über Wyoming.

Whisper gibt es in Größen von tiny bis large – kleiner ist schneller, größer ist genauer.
Für ein fokussiertes STT-Setup (Modelle, Hardware, Genauigkeit) siehe lokales Whisper + Home Assistant.
Whisper ist mehrsprachig, sodass nicht-englische Befehle ohne Cloud-Dienst transkribiert werden.

Piper für lokales Text-zu-Sprache

Piper erzeugt gesprochene Antworten lokal mit natürlich klingenden Stimmen, schnell genug für Echtzeit-Antworten auf bescheidener Hardware. Fügen Sie es als Piper-Add-on hinzu und wählen Sie eine Stimme.

Piper bietet mehrere Sprachen und Stimmen; wählen Sie eine pro Pipeline.
Es läuft für typische Antwortlängen gut auf einem Raspberry Pi.
Kein Audio wird irgendwohin gesendet – die Sprache wird auf Ihrem Gerät synthetisiert.

Das Wyoming-Protokoll

Wyoming ist das Protokoll, das Home Assistant nutzt, um Assist mit lokalen Sprachdiensten wie Whisper und Piper zu verbinden. Es lässt die Sprachdienste als separate Add-ons oder auf separaten Maschinen laufen.

Jeder Dienst (Whisper, Piper, Aktivierungswort) läuft als Wyoming-Endpunkt.
Assist erkennt und nutzt sie über die Wyoming-Integration.
Diese Modularität bedeutet, dass Sie Whisper bei Bedarf auf ein leistungsfähigeres Gerät auslagern können.

Das LLM-Gehirn hinzufügen

Setzen Sie ein lokales LLM als Konversations-Agenten, um natürliche Sprache zu verstehen statt nur feste Intents. Das ist optional, schaltet aber flexible Formulierungen frei.

Verdrahten Sie zuerst Ollama in Home Assistant – siehe der Leitfaden zur Ollama-Integration.
Nutzen Sie ein kleines Function-Calling-Modell, damit Sprachantworten flott bleiben.
Für das End-to-End-Bild siehe Ihr Smart Home mit einem lokalen LLM betreiben.

Hardware-Bedarf

Ein Mini-PC betreibt Assist, Whisper, Piper und ein kleines LLM bequem; ein Raspberry Pi bewältigt Intent-Only-Sprache, hat aber mit großen Whisper-Modellen und LLM-Inferenz Schwierigkeiten. Mikrofon-Hardware (Sprach-Satelliten) erfasst Audio im ganzen Haus.

Nutzen Sie einen Mini-PC, wenn Sie das LLM-Gehirn und größere Whisper-Modelle wollen – siehe beste Hardware für ein lokales Smart Home.
Nutzen Sie einen Pi für einen leichtgewichtigen Intent-Only-Assistenten.
Fügen Sie Sprach-Satelliten-Hardware (Mikrofon- + Lautsprecher-Endpunkte) für die Raumabdeckung hinzu.
Vergleichen Sie die Kompromisse lokal vs Cloud in lokale vs Cloud-Sprachassistenten.

FAQ

Kann ein lokaler Sprachassistent Alexa vollständig ersetzen?

Für die Smart-Home-Steuerung und viele Routinen ja – Assist mit Whisper, Piper und einem lokalen LLM deckt natürlichsprachliche Gerätesteuerung und Antworten ab. Er repliziert nicht jeden Alexa-Skill von Drittanbietern oder Cloud-Shopping-Funktionen, deckt aber den Kern-Anwendungsfall der Heimsteuerung privat ab.

Funktioniert ein lokaler Sprachassistent offline?

Ja. Sprache-zu-Text (Whisper), Text-zu-Sprache (Piper), die Intent-Verarbeitung und ein optionales lokales LLM laufen alle auf Ihrer Hardware, sodass der Assistent ohne Internet funktioniert. Nur der Fernzugriff von außerhalb des Hauses benötigt Konnektivität.

Wie genau ist lokale Spracherkennung?

Die Genauigkeit hängt von der Whisper-Modellgröße und Ihrem Mikrofon ab. Größere Whisper-Modelle sind genauer, aber langsamer; ein mittelgroßes Modell auf einem Mini-PC gibt eine gute Balance für Heimbefehle. Siehe den lokalen Whisper-Leitfaden zur Dimensionierung.

Welche Hardware brauche ich für einen lokalen Sprachassistenten?

Einen Mini-PC für den vollständigen Stack (LLM + größeres Whisper) oder einen Raspberry Pi für einen Intent-Only-Assistenten, plus Mikrofon-/Lautsprecher-Sprach-Satelliten-Hardware für die Raumabdeckung. Eine GPU oder NPU senkt die LLM- und Large-Whisper-Latenz.

Kann ich ein eigenes Aktivierungswort nutzen?

Ja. Eine lokale Aktivierungswort-Engine wie openWakeWord unterstützt eigene Aktivierungswörter und läuft auf Ihrer Hardware, sodass freihändiges Auslösen keine Cloud braucht.

← Zurück zu Smart Home