Skip to main content
PromptQuorumPromptQuorum
Inicio/Smart Home/Monta un Asistente de Voz Totalmente Local para tu Smart Home (2026)
Local AI & LLMs in the Smart Home

Monta un Asistente de Voz Totalmente Local para tu Smart Home (2026)

·11 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Un asistente de voz totalmente local combina Home Assistant Assist (intención), Whisper local (voz-a-texto), Piper (texto-a-voz) y un LLM local (razonamiento), todos conectados sobre el protocolo Wyoming y ejecutándose en tu propio hardware. Ningún audio ni comando sale de casa, y funciona sin conexión.

Puedes reemplazar Alexa o Google por un asistente de voz totalmente local construido con Home Assistant Assist, Whisper local para voz-a-texto, Piper para texto-a-voz y un LLM local como cerebro. Esta guía cubre el stack de voz offline, cada componente, el protocolo Wyoming que los conecta y el hardware que necesitas, todo privado y funcionando sin la nube.

Conclusiones clave

  • Home Assistant Assist es el pipeline de voz local que une todo
  • Whisper maneja voz-a-texto localmente; elige un tamaño de modelo por tu equilibrio precisión/velocidad/hardware
  • Piper maneja texto-a-voz localmente con voces de sonido natural
  • El protocolo Wyoming conecta Assist con los servicios Whisper y Piper
  • Añade un motor de palabra de activación (como openWakeWord) para el disparo manos libres
  • Opcional: fija un LLM local como agente de conversación para la comprensión en lenguaje natural

El stack de voz totalmente local

Un asistente de voz local son cuatro roles en tu propio hardware: capturar y transcribir (Whisper), entender (intenciones de Assist o un LLM local), responder (Piper) y disparar (palabra de activación). Cada uno corre offline; el protocolo Wyoming los enlaza.

ComponenteRol¿Local?Notas
AssistPipeline + intenciónIncorporado en Home Assistant
WhisperVoz-a-textoEl tamaño del modelo fija precisión/velocidad
PiperTexto-a-vozVoces locales naturales
Palabra de activaciónDisparo manos libresp. ej. openWakeWord
LLM localComprensión (opcional)Vía Ollama como agente de conversación

Home Assistant Assist

Assist es el pipeline de voz incorporado que enruta el audio por voz-a-texto, un agente y texto-a-voz. Se configura en Ajustes → Asistentes de voz.

  • Assist funciona con intenciones incorporadas de fábrica (sin LLM) para comandos comunes.
  • Seleccionas el motor STT (Whisper), el motor TTS (Piper) y el agente de conversación.
  • Usa varios pipelines si quieres un asistente rápido solo-intención y otro separado con LLM.

Whisper para voz-a-texto local

Whisper transcribe tu voz localmente; los modelos Whisper más grandes son más precisos pero necesitan más cómputo. Añádelo como el add-on de Whisper (faster-whisper) y conéctalo vía Wyoming.

  • Whisper viene en tamaños de tiny a large — más pequeño es más rápido, más grande es más preciso.
  • Para una configuración STT enfocada (modelos, hardware, precisión), consulta Whisper local + Home Assistant.
  • Whisper es multilingüe, así que los comandos en otros idiomas se transcriben sin un servicio en la nube.

Piper para texto-a-voz local

Piper genera respuestas habladas localmente con voces de sonido natural, lo bastante rápido para respuestas en tiempo real en hardware modesto. Añádelo como el add-on de Piper y selecciona una voz.

  • Piper ofrece varios idiomas y voces; elige una por pipeline.
  • Funciona bien en una Raspberry Pi para longitudes de respuesta típicas.
  • No se envía audio a ningún sitio — el habla se sintetiza en tu dispositivo.

El protocolo Wyoming

Wyoming es el protocolo que Home Assistant usa para conectar Assist con servicios de voz locales como Whisper y Piper. Permite que los servicios de voz corran como add-ons separados o en máquinas separadas.

  • Cada servicio (Whisper, Piper, palabra de activación) corre como un endpoint Wyoming.
  • Assist los descubre y usa mediante la integración Wyoming.
  • Esta modularidad significa que puedes descargar Whisper a un equipo más potente si hace falta.

Añadir el cerebro LLM

Fija un LLM local como agente de conversación para entender lenguaje natural en vez de solo intenciones fijas. Es opcional pero desbloquea frases flexibles.

Necesidades de hardware

Un mini PC ejecuta cómodamente Assist, Whisper, Piper y un LLM pequeño; una Raspberry Pi maneja voz solo-intención pero tiene dificultades con modelos Whisper grandes e inferencia de LLM. El hardware de micrófono (satélites de voz) captura el audio por la casa.

  • Usa un mini PC si quieres el cerebro LLM y modelos Whisper más grandes — consulta mejor hardware para un smart home local.
  • Usa una Pi para un asistente ligero solo-intención.
  • Añade hardware de satélite de voz (endpoints de micrófono + altavoz) para la cobertura por habitaciones.
  • Compara los compromisos local vs nube en asistentes de voz local vs nube.

Preguntas frecuentes

¿Puede un asistente de voz local reemplazar por completo a Alexa?

Para el control del smart home y muchas rutinas, sí — Assist con Whisper, Piper y un LLM local cubre el control de dispositivos y las respuestas en lenguaje natural. No replica cada skill de Alexa de terceros ni funciones de compra en la nube, pero cubre el caso de uso central del control del hogar de forma privada.

¿Funciona un asistente de voz local sin conexión?

Sí. Voz-a-texto (Whisper), texto-a-voz (Piper), el manejo de intenciones y un LLM local opcional corren todos en tu hardware, así que el asistente funciona sin internet. Solo el acceso remoto desde fuera del hogar necesita conectividad.

¿Qué tan precisa es el reconocimiento de voz local?

La precisión depende del tamaño del modelo Whisper y tu micrófono. Los modelos Whisper más grandes son más precisos pero más lentos; un modelo de tamaño medio en un mini PC da un buen equilibrio para comandos del hogar. Consulta la guía de Whisper local para el dimensionado.

¿Qué hardware necesito para un asistente de voz local?

Un mini PC para el stack completo (LLM + Whisper más grande), o una Raspberry Pi para un asistente solo-intención, más hardware de satélite de voz de micrófono/altavoz para la cobertura por habitaciones. Una GPU o NPU reduce la latencia del LLM y de Whisper grande.

¿Puedo usar una palabra de activación personalizada?

Sí. Un motor de palabra de activación local como openWakeWord admite palabras de activación personalizadas y corre en tu hardware, así que el disparo manos libres no necesita nube.

← Volver a Smart Home

Asistente de Voz Local 2026: Reemplaza Alexa en Privado