Principais conclusões
- O Whisper é um modelo aberto de voz-para-texto que roda localmente — nenhum áudio sai do seu hardware
- Use o add-on do Whisper (faster-whisper); ele se conecta ao Assist sobre Wyoming
- Os tamanhos de modelo vão tiny → base → small → medium → large; maior é mais preciso, mais lento
- Em hardware só-CPU, prefira tiny/base/small; uma GPU torna medium/large práticos
- O Whisper é multilíngue, então comandos em outros idiomas são transcritos sem um serviço na nuvem
- Ajuste a precisão com um microfone melhor e o modelo certo antes de ir maior
Por que usar voz-para-texto local?
A voz-para-texto local mantém suas gravações de voz no seu próprio hardware, então nenhum áudio é enviado a um terceiro. Ela também funciona offline e não tem custo por requisição.
- Privacidade: assistentes na nuvem transmitem e podem reter gravações; o Whisper local não — veja riscos de privacidade da casa inteligente.
- Offline: a transcrição funciona durante quedas de internet.
- Sem taxas: não há cobrança por uso para a transcrição local.
Que tamanho de modelo Whisper você deve usar?
Escolha o menor modelo Whisper que dê uma precisão aceitável no seu hardware — tiny/base/small para só-CPU, medium/large quando você tem uma GPU. Modelos maiores melhoram a precisão em sotaques e áudio ruidoso ao custo da velocidade.
- Use small como padrão em uma CPU de mini PC; passe para medium/large só se faltar precisão.
- Use tiny/base em uma Raspberry Pi para manter a latência utilizável.
| Modelo | Precisão relativa | Velocidade relativa | Melhor para |
|---|---|---|---|
| tiny | A mais baixa | A mais rápida | CPU de baixo consumo, comandos curtos |
| base | Baixa | Muito rápida | Raspberry Pi, frases simples |
| small | Boa | Rápida | CPU de mini PC, uso diário |
| medium | Alta | Moderada | GPU ou CPU forte |
| large | A mais alta | A mais lenta | GPU, sotaques/salas ruidosas |
Configuração do Wyoming
O add-on do Whisper expõe um endpoint Wyoming que o Assist usa para voz-para-texto. A configuração é instalar → escolher modelo → selecionar no pipeline.
- 1Instale o add-on do Whisper (faster-whisper) da loja de add-ons.
- 2Defina o tamanho do modelo na configuração do add-on e inicie-o.
- 3O add-on se registra como um serviço de voz-para-texto Wyoming automaticamente.
- 4Em Configurações → Assistentes de voz, defina o Whisper como o motor STT do seu pipeline do Assist.
- 5Teste a transcrição pelas ferramentas de depuração do Assist antes de adicionar hardware de voz.
Necessidades de hardware
O Whisper roda na CPU para modelos pequenos e se beneficia de uma GPU para modelos medium/large. Ajuste o tamanho do modelo à máquina que o hospeda.
- Raspberry Pi: fique com tiny/base para uma latência aceitável.
- Mini PC (CPU): small funciona bem; medium é possível mas mais lento — veja melhor hardware para uma casa inteligente local.
- Com uma GPU/NPU: medium e large se tornam práticos para alta precisão.
- Você pode rodar o Whisper em uma máquina separada mais potente via Wyoming se o seu hub for uma Pi.
Ajustar a precisão
Melhore um bom microfone e o modelo certo antes de recorrer ao maior Whisper. A qualidade do áudio muitas vezes importa mais que o tamanho do modelo para comandos do lar.
- Use um microfone de qualidade ou hardware de satélite de voz perto de quem fala.
- Reduza o ruído de fundo onde o microfone fica.
- Defina o idioma correto no add-on para evitar transcrições erradas.
- Suba um tamanho de modelo por vez e teste de novo em vez de pular para large.
Perguntas frequentes
Qual modelo Whisper devo usar para o Home Assistant?
Use small como padrão em uma CPU de mini PC, tiny ou base em uma Raspberry Pi, e medium ou large só se você tiver uma GPU e precisar de maior precisão com sotaques ou salas ruidosas. Suba um tamanho por vez e teste de novo.
Preciso de uma GPU para o Whisper local?
Não para small e abaixo — esses rodam na CPU. Uma GPU principalmente torna os modelos medium e large rápidos o bastante para uso em tempo real. Você também pode descarregar o Whisper para uma máquina mais potente sobre o protocolo Wyoming.
Quão preciso é o Whisper local offline?
A precisão é forte com o modelo certo e um bom microfone; modelos maiores lidam melhor com sotaques e ruído. Para comandos do lar claros, o modelo small em um mini PC costuma ser preciso o bastante, e roda totalmente offline.
O Whisper local é multilíngue?
Sim. O Whisper suporta muitos idiomas, então comandos em outros idiomas são transcritos localmente sem nenhum serviço na nuvem. Defina o idioma na configuração do add-on para melhores resultados.