Voz-a-Texto Local para Smart Homes: Whisper + HA (2026)

Última actualización: 2026-06-04·8 min de lectura·Por Hans Kuepper · Fundador de PromptQuorum, herramienta de despacho multi-modelo · PromptQuorum

Leer en:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt

Whisper local da a Home Assistant voz-a-texto privado: instala el add-on de Whisper, elige un tamaño de modelo que se ajuste a tu hardware y conéctalo a Assist sobre el protocolo Wyoming. Los modelos más pequeños son más rápidos; los más grandes son más precisos. Nada se envía a un servicio en la nube.

Whisper local da a Home Assistant voz-a-texto privado sin nube: eliges un tamaño de modelo Whisper para tu equilibrio de precisión, velocidad y hardware, y luego lo conectas a Assist sobre el protocolo Wyoming. Esta guía cubre por qué importa el STT local, los tamaños de modelo Whisper, la configuración de Wyoming, las necesidades de hardware y cómo ajustar la precisión.

Conclusiones clave

Whisper es un modelo abierto de voz-a-texto que corre localmente — ningún audio sale de tu hardware
Usa el add-on de Whisper (faster-whisper); se conecta a Assist sobre Wyoming
Los tamaños de modelo van tiny → base → small → medium → large; más grande es más preciso, más lento
En hardware solo-CPU, prefiere tiny/base/small; una GPU hace práctico medium/large
Whisper es multilingüe, así que los comandos en otros idiomas se transcriben sin un servicio en la nube
Ajusta la precisión con un mejor micrófono y el modelo correcto antes de ir más grande

¿Por qué usar voz-a-texto local?

La voz-a-texto local mantiene tus grabaciones de voz en tu propio hardware, así que ningún audio se sube a un tercero. También funciona sin conexión y no tiene coste por petición.

Privacidad: los asistentes en la nube transmiten y pueden retener grabaciones; Whisper local no — consulta riesgos de privacidad del smart home.
Sin conexión: la transcripción funciona durante caídas de internet.
Sin cuotas: no hay cargo por uso para la transcripción local.

¿Qué tamaño de modelo Whisper deberías usar?

Elige el modelo Whisper más pequeño que dé una precisión aceptable en tu hardware — tiny/base/small para solo-CPU, medium/large cuando tienes una GPU. Los modelos más grandes mejoran la precisión con acentos y audio ruidoso a costa de la velocidad.

Usa small como predeterminado en una CPU de mini PC; pasa a medium/large solo si falta precisión.
Usa tiny/base en una Raspberry Pi para mantener la latencia usable.

Modelo	Precisión relativa	Velocidad relativa	Mejor para
tiny	La más baja	La más rápida	CPU de bajo consumo, comandos cortos
base	Baja	Muy rápida	Raspberry Pi, frases simples
small	Buena	Rápida	CPU de mini PC, uso diario
medium	Alta	Moderada	GPU o CPU potente
large	La más alta	La más lenta	GPU, acentos/salas ruidosas

Configuración de Wyoming

El add-on de Whisper expone un endpoint Wyoming que Assist usa para voz-a-texto. La configuración es instalar → elegir modelo → seleccionar en el pipeline.

1
Instala el add-on de Whisper (faster-whisper) desde la tienda de add-ons.
2
Fija el tamaño de modelo en la configuración del add-on e inícialo.
3
El add-on se registra como un servicio de voz-a-texto Wyoming automáticamente.
4
En Ajustes → Asistentes de voz, fija Whisper como el motor STT para tu pipeline de Assist.
5
Prueba la transcripción desde las herramientas de depuración de Assist antes de añadir hardware de voz.

Necesidades de hardware

Whisper corre en CPU para modelos pequeños y se beneficia de una GPU para modelos medium/large. Ajusta el tamaño del modelo al equipo que lo aloja.

Raspberry Pi: quédate con tiny/base para una latencia aceptable.
Mini PC (CPU): small funciona bien; medium es posible pero más lento — consulta mejor hardware para un smart home local.
Con una GPU/NPU: medium y large se vuelven prácticos para alta precisión.
Puedes ejecutar Whisper en una máquina separada más potente vía Wyoming si tu hub es una Pi.

Ajustar la precisión

Mejora un buen micrófono y el modelo correcto antes de recurrir al Whisper más grande. La calidad del audio suele importar más que el tamaño del modelo para los comandos del hogar.

Usa un micrófono de calidad o hardware de satélite de voz cerca del hablante.
Reduce el ruido de fondo donde está el micrófono.
Fija el idioma correcto en el add-on para evitar transcripciones erróneas.
Sube un tamaño de modelo cada vez y vuelve a probar en vez de saltar a large.

Preguntas frecuentes

¿Qué modelo Whisper debería usar para Home Assistant?

Usa small como predeterminado en una CPU de mini PC, tiny o base en una Raspberry Pi, y medium o large solo si tienes una GPU y necesitas mayor precisión con acentos o salas ruidosas. Sube un tamaño cada vez y vuelve a probar.

¿Necesito una GPU para Whisper local?

No para small y por debajo — esos corren en CPU. Una GPU principalmente hace los modelos medium y large lo bastante rápidos para uso en tiempo real. También puedes descargar Whisper a una máquina más potente sobre el protocolo Wyoming.

¿Qué tan preciso es Whisper local sin conexión?

La precisión es fuerte con el modelo correcto y un buen micrófono; los modelos más grandes manejan mejor los acentos y el ruido. Para comandos del hogar claros, el modelo small en un mini PC suele ser lo bastante preciso, y corre totalmente sin conexión.

¿Es Whisper local multilingüe?

Sí. Whisper admite muchos idiomas, así que los comandos en otros idiomas se transcriben localmente sin ningún servicio en la nube. Fija el idioma en la configuración del add-on para mejores resultados.

← Volver a Smart Home