Principais conclusões
- O Home Assistant Assist é o pipeline de voz local que une tudo
- O Whisper faz voz-para-texto localmente; escolha um tamanho de modelo pelo seu equilíbrio precisão/velocidade/hardware
- O Piper faz texto-para-voz localmente com vozes de som natural
- O protocolo Wyoming conecta o Assist aos serviços Whisper e Piper
- Adicione um motor de palavra de ativação (como o openWakeWord) para o disparo mãos-livres
- Opcional: defina um LLM local como agente de conversa para a compreensão em linguagem natural
O stack de voz totalmente local
Um assistente de voz local são quatro papéis no seu próprio hardware: capturar e transcrever (Whisper), entender (intenções do Assist ou um LLM local), responder (Piper) e disparar (palavra de ativação). Cada um roda offline; o protocolo Wyoming os liga.
| Componente | Papel | Local? | Notas |
|---|---|---|---|
| Assist | Pipeline + intenção | Sim | Embutido no Home Assistant |
| Whisper | Voz-para-texto | Sim | O tamanho do modelo define precisão/velocidade |
| Piper | Texto-para-voz | Sim | Vozes locais naturais |
| Palavra de ativação | Disparo mãos-livres | Sim | ex.: openWakeWord |
| LLM local | Compreensão (opcional) | Sim | Via Ollama como agente de conversa |
Home Assistant Assist
O Assist é o pipeline de voz embutido que roteia o áudio por voz-para-texto, um agente e texto-para-voz. Ele é configurado em Configurações → Assistentes de voz.
- O Assist funciona com intenções embutidas de fábrica (sem LLM) para comandos comuns.
- Você seleciona o motor STT (Whisper), o motor TTS (Piper) e o agente de conversa.
- Use vários pipelines se quiser um assistente rápido só-intenção e outro separado movido a LLM.
Whisper para voz-para-texto local
O Whisper transcreve sua fala localmente; modelos Whisper maiores são mais precisos, mas precisam de mais processamento. Adicione-o como o add-on do Whisper (faster-whisper) e conecte via Wyoming.
- O Whisper vem em tamanhos de tiny a large — menor é mais rápido, maior é mais preciso.
- Para uma configuração STT focada (modelos, hardware, precisão), veja Whisper local + Home Assistant.
- O Whisper é multilíngue, então comandos em outros idiomas são transcritos sem um serviço na nuvem.
Piper para texto-para-voz local
O Piper gera respostas faladas localmente com vozes de som natural, rápido o bastante para respostas em tempo real em hardware modesto. Adicione-o como o add-on do Piper e selecione uma voz.
- O Piper oferece vários idiomas e vozes; escolha uma por pipeline.
- Ele roda bem em uma Raspberry Pi para comprimentos de resposta típicos.
- Nenhum áudio é enviado a lugar algum — a fala é sintetizada no seu dispositivo.
O protocolo Wyoming
O Wyoming é o protocolo que o Home Assistant usa para conectar o Assist a serviços de voz locais como Whisper e Piper. Ele permite que os serviços de voz rodem como add-ons separados ou em máquinas separadas.
- Cada serviço (Whisper, Piper, palavra de ativação) roda como um endpoint Wyoming.
- O Assist os descobre e usa por meio da integração Wyoming.
- Essa modularidade significa que você pode descarregar o Whisper para uma máquina mais potente, se preciso.
Adicionar o cérebro LLM
Defina um LLM local como agente de conversa para entender linguagem natural em vez de apenas intenções fixas. É opcional, mas libera frases flexíveis.
- Cableie o Ollama no Home Assistant primeiro — veja o guia de integração do Ollama.
- Use um modelo pequeno com chamada de funções para que as respostas de voz fiquem ágeis.
- Para o panorama de ponta a ponta, veja rodar sua casa inteligente em um LLM local.
Necessidades de hardware
Um mini PC roda com folga o Assist, Whisper, Piper e um LLM pequeno; uma Raspberry Pi lida com voz só-intenção, mas tem dificuldade com modelos Whisper grandes e inferência de LLM. O hardware de microfone (satélites de voz) capta o áudio pela casa.
- Use um mini PC se quiser o cérebro LLM e modelos Whisper maiores — veja melhor hardware para uma casa inteligente local.
- Use uma Pi para um assistente leve só-intenção.
- Adicione hardware de satélite de voz (endpoints de microfone + alto-falante) para a cobertura por cômodo.
- Compare os compromissos local vs nuvem em assistentes de voz local vs nuvem.
Perguntas frequentes
Um assistente de voz local pode substituir totalmente a Alexa?
Para o controle da casa inteligente e muitas rotinas, sim — o Assist com Whisper, Piper e um LLM local cobre o controle de dispositivos e as respostas em linguagem natural. Ele não replica cada skill da Alexa de terceiros nem funções de compra na nuvem, mas cobre o caso de uso central do controle do lar de forma privada.
Um assistente de voz local funciona offline?
Sim. Voz-para-texto (Whisper), texto-para-voz (Piper), o tratamento de intenções e um LLM local opcional rodam todos no seu hardware, então o assistente funciona sem internet. Só o acesso remoto de fora do lar precisa de conectividade.
Quão precisa é o reconhecimento de voz local?
A precisão depende do tamanho do modelo Whisper e do seu microfone. Modelos Whisper maiores são mais precisos, mas mais lentos; um modelo de tamanho médio em um mini PC dá um bom equilíbrio para comandos do lar. Veja o guia do Whisper local para o dimensionamento.
Que hardware preciso para um assistente de voz local?
Um mini PC para o stack completo (LLM + Whisper maior), ou uma Raspberry Pi para um assistente só-intenção, mais hardware de satélite de voz de microfone/alto-falante para a cobertura por cômodo. Uma GPU ou NPU reduz a latência do LLM e do Whisper grande.
Posso usar uma palavra de ativação personalizada?
Sim. Um motor de palavra de ativação local como o openWakeWord suporta palavras de ativação personalizadas e roda no seu hardware, então o disparo mãos-livres não precisa de nuvem.