Skip to main content
PromptQuorumPromptQuorum
Início/Smart Home/Monte um Assistente de Voz Totalmente Local para sua Casa Inteligente (2026)
Local AI & LLMs in the Smart Home

Monte um Assistente de Voz Totalmente Local para sua Casa Inteligente (2026)

·11 min de leitura·Por Hans Kuepper · Fundador do PromptQuorum, ferramenta de despacho multi-modelo de IA · PromptQuorum

Um assistente de voz totalmente local combina Home Assistant Assist (intenção), Whisper local (voz-para-texto), Piper (texto-para-voz) e um LLM local (raciocínio) — todos conectados sobre o protocolo Wyoming e rodando no seu próprio hardware. Nenhum áudio ou comando sai de casa, e funciona offline.

Você pode substituir a Alexa ou o Google por um assistente de voz totalmente local construído com Home Assistant Assist, Whisper local para voz-para-texto, Piper para texto-para-voz e um LLM local como cérebro. Este guia cobre o stack de voz offline, cada componente, o protocolo Wyoming que os conecta e o hardware necessário — tudo privado e funcionando sem a nuvem.

Principais conclusões

  • O Home Assistant Assist é o pipeline de voz local que une tudo
  • O Whisper faz voz-para-texto localmente; escolha um tamanho de modelo pelo seu equilíbrio precisão/velocidade/hardware
  • O Piper faz texto-para-voz localmente com vozes de som natural
  • O protocolo Wyoming conecta o Assist aos serviços Whisper e Piper
  • Adicione um motor de palavra de ativação (como o openWakeWord) para o disparo mãos-livres
  • Opcional: defina um LLM local como agente de conversa para a compreensão em linguagem natural

O stack de voz totalmente local

Um assistente de voz local são quatro papéis no seu próprio hardware: capturar e transcrever (Whisper), entender (intenções do Assist ou um LLM local), responder (Piper) e disparar (palavra de ativação). Cada um roda offline; o protocolo Wyoming os liga.

ComponentePapelLocal?Notas
AssistPipeline + intençãoSimEmbutido no Home Assistant
WhisperVoz-para-textoSimO tamanho do modelo define precisão/velocidade
PiperTexto-para-vozSimVozes locais naturais
Palavra de ativaçãoDisparo mãos-livresSimex.: openWakeWord
LLM localCompreensão (opcional)SimVia Ollama como agente de conversa

Home Assistant Assist

O Assist é o pipeline de voz embutido que roteia o áudio por voz-para-texto, um agente e texto-para-voz. Ele é configurado em Configurações → Assistentes de voz.

  • O Assist funciona com intenções embutidas de fábrica (sem LLM) para comandos comuns.
  • Você seleciona o motor STT (Whisper), o motor TTS (Piper) e o agente de conversa.
  • Use vários pipelines se quiser um assistente rápido só-intenção e outro separado movido a LLM.

Whisper para voz-para-texto local

O Whisper transcreve sua fala localmente; modelos Whisper maiores são mais precisos, mas precisam de mais processamento. Adicione-o como o add-on do Whisper (faster-whisper) e conecte via Wyoming.

  • O Whisper vem em tamanhos de tiny a large — menor é mais rápido, maior é mais preciso.
  • Para uma configuração STT focada (modelos, hardware, precisão), veja Whisper local + Home Assistant.
  • O Whisper é multilíngue, então comandos em outros idiomas são transcritos sem um serviço na nuvem.

Piper para texto-para-voz local

O Piper gera respostas faladas localmente com vozes de som natural, rápido o bastante para respostas em tempo real em hardware modesto. Adicione-o como o add-on do Piper e selecione uma voz.

  • O Piper oferece vários idiomas e vozes; escolha uma por pipeline.
  • Ele roda bem em uma Raspberry Pi para comprimentos de resposta típicos.
  • Nenhum áudio é enviado a lugar algum — a fala é sintetizada no seu dispositivo.

O protocolo Wyoming

O Wyoming é o protocolo que o Home Assistant usa para conectar o Assist a serviços de voz locais como Whisper e Piper. Ele permite que os serviços de voz rodem como add-ons separados ou em máquinas separadas.

  • Cada serviço (Whisper, Piper, palavra de ativação) roda como um endpoint Wyoming.
  • O Assist os descobre e usa por meio da integração Wyoming.
  • Essa modularidade significa que você pode descarregar o Whisper para uma máquina mais potente, se preciso.

Adicionar o cérebro LLM

Defina um LLM local como agente de conversa para entender linguagem natural em vez de apenas intenções fixas. É opcional, mas libera frases flexíveis.

Necessidades de hardware

Um mini PC roda com folga o Assist, Whisper, Piper e um LLM pequeno; uma Raspberry Pi lida com voz só-intenção, mas tem dificuldade com modelos Whisper grandes e inferência de LLM. O hardware de microfone (satélites de voz) capta o áudio pela casa.

Perguntas frequentes

Um assistente de voz local pode substituir totalmente a Alexa?

Para o controle da casa inteligente e muitas rotinas, sim — o Assist com Whisper, Piper e um LLM local cobre o controle de dispositivos e as respostas em linguagem natural. Ele não replica cada skill da Alexa de terceiros nem funções de compra na nuvem, mas cobre o caso de uso central do controle do lar de forma privada.

Um assistente de voz local funciona offline?

Sim. Voz-para-texto (Whisper), texto-para-voz (Piper), o tratamento de intenções e um LLM local opcional rodam todos no seu hardware, então o assistente funciona sem internet. Só o acesso remoto de fora do lar precisa de conectividade.

Quão precisa é o reconhecimento de voz local?

A precisão depende do tamanho do modelo Whisper e do seu microfone. Modelos Whisper maiores são mais precisos, mas mais lentos; um modelo de tamanho médio em um mini PC dá um bom equilíbrio para comandos do lar. Veja o guia do Whisper local para o dimensionamento.

Que hardware preciso para um assistente de voz local?

Um mini PC para o stack completo (LLM + Whisper maior), ou uma Raspberry Pi para um assistente só-intenção, mais hardware de satélite de voz de microfone/alto-falante para a cobertura por cômodo. Uma GPU ou NPU reduz a latência do LLM e do Whisper grande.

Posso usar uma palavra de ativação personalizada?

Sim. Um motor de palavra de ativação local como o openWakeWord suporta palavras de ativação personalizadas e roda no seu hardware, então o disparo mãos-livres não precisa de nuvem.

← Voltar para Smart Home

Assistente de Voz Local 2026: Substitua a Alexa em Privado