Conclusiones clave
- Whisper es un modelo abierto de voz-a-texto que corre localmente — ningún audio sale de tu hardware
- Usa el add-on de Whisper (faster-whisper); se conecta a Assist sobre Wyoming
- Los tamaños de modelo van tiny → base → small → medium → large; más grande es más preciso, más lento
- En hardware solo-CPU, prefiere tiny/base/small; una GPU hace práctico medium/large
- Whisper es multilingüe, así que los comandos en otros idiomas se transcriben sin un servicio en la nube
- Ajusta la precisión con un mejor micrófono y el modelo correcto antes de ir más grande
¿Por qué usar voz-a-texto local?
La voz-a-texto local mantiene tus grabaciones de voz en tu propio hardware, así que ningún audio se sube a un tercero. También funciona sin conexión y no tiene coste por petición.
- Privacidad: los asistentes en la nube transmiten y pueden retener grabaciones; Whisper local no — consulta riesgos de privacidad del smart home.
- Sin conexión: la transcripción funciona durante caídas de internet.
- Sin cuotas: no hay cargo por uso para la transcripción local.
¿Qué tamaño de modelo Whisper deberías usar?
Elige el modelo Whisper más pequeño que dé una precisión aceptable en tu hardware — tiny/base/small para solo-CPU, medium/large cuando tienes una GPU. Los modelos más grandes mejoran la precisión con acentos y audio ruidoso a costa de la velocidad.
- Usa small como predeterminado en una CPU de mini PC; pasa a medium/large solo si falta precisión.
- Usa tiny/base en una Raspberry Pi para mantener la latencia usable.
| Modelo | Precisión relativa | Velocidad relativa | Mejor para |
|---|---|---|---|
| tiny | La más baja | La más rápida | CPU de bajo consumo, comandos cortos |
| base | Baja | Muy rápida | Raspberry Pi, frases simples |
| small | Buena | Rápida | CPU de mini PC, uso diario |
| medium | Alta | Moderada | GPU o CPU potente |
| large | La más alta | La más lenta | GPU, acentos/salas ruidosas |
Configuración de Wyoming
El add-on de Whisper expone un endpoint Wyoming que Assist usa para voz-a-texto. La configuración es instalar → elegir modelo → seleccionar en el pipeline.
- 1Instala el add-on de Whisper (faster-whisper) desde la tienda de add-ons.
- 2Fija el tamaño de modelo en la configuración del add-on e inícialo.
- 3El add-on se registra como un servicio de voz-a-texto Wyoming automáticamente.
- 4En Ajustes → Asistentes de voz, fija Whisper como el motor STT para tu pipeline de Assist.
- 5Prueba la transcripción desde las herramientas de depuración de Assist antes de añadir hardware de voz.
Necesidades de hardware
Whisper corre en CPU para modelos pequeños y se beneficia de una GPU para modelos medium/large. Ajusta el tamaño del modelo al equipo que lo aloja.
- Raspberry Pi: quédate con tiny/base para una latencia aceptable.
- Mini PC (CPU): small funciona bien; medium es posible pero más lento — consulta mejor hardware para un smart home local.
- Con una GPU/NPU: medium y large se vuelven prácticos para alta precisión.
- Puedes ejecutar Whisper en una máquina separada más potente vía Wyoming si tu hub es una Pi.
Ajustar la precisión
Mejora un buen micrófono y el modelo correcto antes de recurrir al Whisper más grande. La calidad del audio suele importar más que el tamaño del modelo para los comandos del hogar.
- Usa un micrófono de calidad o hardware de satélite de voz cerca del hablante.
- Reduce el ruido de fondo donde está el micrófono.
- Fija el idioma correcto en el add-on para evitar transcripciones erróneas.
- Sube un tamaño de modelo cada vez y vuelve a probar en vez de saltar a large.
Preguntas frecuentes
¿Qué modelo Whisper debería usar para Home Assistant?
Usa small como predeterminado en una CPU de mini PC, tiny o base en una Raspberry Pi, y medium o large solo si tienes una GPU y necesitas mayor precisión con acentos o salas ruidosas. Sube un tamaño cada vez y vuelve a probar.
¿Necesito una GPU para Whisper local?
No para small y por debajo — esos corren en CPU. Una GPU principalmente hace los modelos medium y large lo bastante rápidos para uso en tiempo real. También puedes descargar Whisper a una máquina más potente sobre el protocolo Wyoming.
¿Qué tan preciso es Whisper local sin conexión?
La precisión es fuerte con el modelo correcto y un buen micrófono; los modelos más grandes manejan mejor los acentos y el ruido. Para comandos del hogar claros, el modelo small en un mini PC suele ser lo bastante preciso, y corre totalmente sin conexión.
¿Es Whisper local multilingüe?
Sí. Whisper admite muchos idiomas, así que los comandos en otros idiomas se transcriben localmente sin ningún servicio en la nube. Fija el idioma en la configuración del add-on para mejores resultados.