Início/Smart Home/Voz-para-Texto Local para Casas Inteligentes: Whisper + HA (2026)

Local AI & LLMs in the Smart Home

Voz-para-Texto Local para Casas Inteligentes: Whisper + HA (2026)

Última atualização: 2026-06-04·8 min de leitura·Por Hans Kuepper · Fundador do PromptQuorum, ferramenta de despacho multi-modelo de IA · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt

O Whisper local dá ao Home Assistant voz-para-texto privado: instale o add-on do Whisper, escolha um tamanho de modelo que caiba no seu hardware e conecte-o ao Assist sobre o protocolo Wyoming. Modelos menores são mais rápidos; modelos maiores são mais precisos. Nada é enviado a um serviço na nuvem.

O Whisper local dá ao Home Assistant voz-para-texto privado sem nuvem: você escolhe um tamanho de modelo Whisper para o seu equilíbrio de precisão, velocidade e hardware, e depois o conecta ao Assist sobre o protocolo Wyoming. Este guia cobre por que o STT local importa, os tamanhos de modelo Whisper, a configuração do Wyoming, as necessidades de hardware e como ajustar a precisão.

Principais conclusões

O Whisper é um modelo aberto de voz-para-texto que roda localmente — nenhum áudio sai do seu hardware
Use o add-on do Whisper (faster-whisper); ele se conecta ao Assist sobre Wyoming
Os tamanhos de modelo vão tiny → base → small → medium → large; maior é mais preciso, mais lento
Em hardware só-CPU, prefira tiny/base/small; uma GPU torna medium/large práticos
O Whisper é multilíngue, então comandos em outros idiomas são transcritos sem um serviço na nuvem
Ajuste a precisão com um microfone melhor e o modelo certo antes de ir maior

Por que usar voz-para-texto local?

A voz-para-texto local mantém suas gravações de voz no seu próprio hardware, então nenhum áudio é enviado a um terceiro. Ela também funciona offline e não tem custo por requisição.

Privacidade: assistentes na nuvem transmitem e podem reter gravações; o Whisper local não — veja riscos de privacidade da casa inteligente.
Offline: a transcrição funciona durante quedas de internet.
Sem taxas: não há cobrança por uso para a transcrição local.

Que tamanho de modelo Whisper você deve usar?

Escolha o menor modelo Whisper que dê uma precisão aceitável no seu hardware — tiny/base/small para só-CPU, medium/large quando você tem uma GPU. Modelos maiores melhoram a precisão em sotaques e áudio ruidoso ao custo da velocidade.

Use small como padrão em uma CPU de mini PC; passe para medium/large só se faltar precisão.
Use tiny/base em uma Raspberry Pi para manter a latência utilizável.

Modelo	Precisão relativa	Velocidade relativa	Melhor para
tiny	A mais baixa	A mais rápida	CPU de baixo consumo, comandos curtos
base	Baixa	Muito rápida	Raspberry Pi, frases simples
small	Boa	Rápida	CPU de mini PC, uso diário
medium	Alta	Moderada	GPU ou CPU forte
large	A mais alta	A mais lenta	GPU, sotaques/salas ruidosas

Configuração do Wyoming

O add-on do Whisper expõe um endpoint Wyoming que o Assist usa para voz-para-texto. A configuração é instalar → escolher modelo → selecionar no pipeline.

1
Instale o add-on do Whisper (faster-whisper) da loja de add-ons.
2
Defina o tamanho do modelo na configuração do add-on e inicie-o.
3
O add-on se registra como um serviço de voz-para-texto Wyoming automaticamente.
4
Em Configurações → Assistentes de voz, defina o Whisper como o motor STT do seu pipeline do Assist.
5
Teste a transcrição pelas ferramentas de depuração do Assist antes de adicionar hardware de voz.

Necessidades de hardware

O Whisper roda na CPU para modelos pequenos e se beneficia de uma GPU para modelos medium/large. Ajuste o tamanho do modelo à máquina que o hospeda.

Raspberry Pi: fique com tiny/base para uma latência aceitável.
Mini PC (CPU): small funciona bem; medium é possível mas mais lento — veja melhor hardware para uma casa inteligente local.
Com uma GPU/NPU: medium e large se tornam práticos para alta precisão.
Você pode rodar o Whisper em uma máquina separada mais potente via Wyoming se o seu hub for uma Pi.

Ajustar a precisão

Melhore um bom microfone e o modelo certo antes de recorrer ao maior Whisper. A qualidade do áudio muitas vezes importa mais que o tamanho do modelo para comandos do lar.

Use um microfone de qualidade ou hardware de satélite de voz perto de quem fala.
Reduza o ruído de fundo onde o microfone fica.
Defina o idioma correto no add-on para evitar transcrições erradas.
Suba um tamanho de modelo por vez e teste de novo em vez de pular para large.

Perguntas frequentes

Qual modelo Whisper devo usar para o Home Assistant?

Use small como padrão em uma CPU de mini PC, tiny ou base em uma Raspberry Pi, e medium ou large só se você tiver uma GPU e precisar de maior precisão com sotaques ou salas ruidosas. Suba um tamanho por vez e teste de novo.

Preciso de uma GPU para o Whisper local?

Não para small e abaixo — esses rodam na CPU. Uma GPU principalmente torna os modelos medium e large rápidos o bastante para uso em tempo real. Você também pode descarregar o Whisper para uma máquina mais potente sobre o protocolo Wyoming.

Quão preciso é o Whisper local offline?

A precisão é forte com o modelo certo e um bom microfone; modelos maiores lidam melhor com sotaques e ruído. Para comandos do lar claros, o modelo small em um mini PC costuma ser preciso o bastante, e roda totalmente offline.

O Whisper local é multilíngue?

Sim. O Whisper suporta muitos idiomas, então comandos em outros idiomas são transcritos localmente sem nenhum serviço na nuvem. Defina o idioma na configuração do add-on para melhores resultados.

← Voltar para Smart Home