Início/Smart Home/Monte um Assistente de Voz Totalmente Local para sua Casa Inteligente (2026)

Local AI & LLMs in the Smart Home

Monte um Assistente de Voz Totalmente Local para sua Casa Inteligente (2026)

Última atualização: 4 de junho de 2026·11 min de leitura·Por Hans Kuepper · Fundador do PromptQuorum, ferramenta de despacho multi-modelo de IA · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Um assistente de voz totalmente local combina Home Assistant Assist (intenção), Whisper local (voz-para-texto), Piper (texto-para-voz) e um LLM local (raciocínio) — todos conectados sobre o protocolo Wyoming e rodando no seu próprio hardware. Nenhum áudio ou comando sai de casa, e funciona offline.

Você pode substituir a Alexa ou o Google por um assistente de voz totalmente local construído com Home Assistant Assist, Whisper local para voz-para-texto, Piper para texto-para-voz e um LLM local como cérebro. Este guia cobre o stack de voz offline, cada componente, o protocolo Wyoming que os conecta e o hardware necessário — tudo privado e funcionando sem a nuvem.

Principais conclusões

O Home Assistant Assist é o pipeline de voz local que une tudo
O Whisper faz voz-para-texto localmente; escolha um tamanho de modelo pelo seu equilíbrio precisão/velocidade/hardware
O Piper faz texto-para-voz localmente com vozes de som natural
O protocolo Wyoming conecta o Assist aos serviços Whisper e Piper
Adicione um motor de palavra de ativação (como o openWakeWord) para o disparo mãos-livres
Opcional: defina um LLM local como agente de conversa para a compreensão em linguagem natural

O stack de voz totalmente local

Um assistente de voz local são quatro papéis no seu próprio hardware: capturar e transcrever (Whisper), entender (intenções do Assist ou um LLM local), responder (Piper) e disparar (palavra de ativação). Cada um roda offline; o protocolo Wyoming os liga.

Componente	Papel	Local?	Notas
Assist	Pipeline + intenção	Sim	Embutido no Home Assistant
Whisper	Voz-para-texto	Sim	O tamanho do modelo define precisão/velocidade
Piper	Texto-para-voz	Sim	Vozes locais naturais
Palavra de ativação	Disparo mãos-livres	Sim	ex.: openWakeWord
LLM local	Compreensão (opcional)	Sim	Via Ollama como agente de conversa

Home Assistant Assist

O Assist é o pipeline de voz embutido que roteia o áudio por voz-para-texto, um agente e texto-para-voz. Ele é configurado em Configurações → Assistentes de voz.

O Assist funciona com intenções embutidas de fábrica (sem LLM) para comandos comuns.
Você seleciona o motor STT (Whisper), o motor TTS (Piper) e o agente de conversa.
Use vários pipelines se quiser um assistente rápido só-intenção e outro separado movido a LLM.

Whisper para voz-para-texto local

O Whisper transcreve sua fala localmente; modelos Whisper maiores são mais precisos, mas precisam de mais processamento. Adicione-o como o add-on do Whisper (faster-whisper) e conecte via Wyoming.

O Whisper vem em tamanhos de tiny a large — menor é mais rápido, maior é mais preciso.
Para uma configuração STT focada (modelos, hardware, precisão), veja Whisper local + Home Assistant.
O Whisper é multilíngue, então comandos em outros idiomas são transcritos sem um serviço na nuvem.

Piper para texto-para-voz local

O Piper gera respostas faladas localmente com vozes de som natural, rápido o bastante para respostas em tempo real em hardware modesto. Adicione-o como o add-on do Piper e selecione uma voz.

O Piper oferece vários idiomas e vozes; escolha uma por pipeline.
Ele roda bem em uma Raspberry Pi para comprimentos de resposta típicos.
Nenhum áudio é enviado a lugar algum — a fala é sintetizada no seu dispositivo.

O protocolo Wyoming

O Wyoming é o protocolo que o Home Assistant usa para conectar o Assist a serviços de voz locais como Whisper e Piper. Ele permite que os serviços de voz rodem como add-ons separados ou em máquinas separadas.

Cada serviço (Whisper, Piper, palavra de ativação) roda como um endpoint Wyoming.
O Assist os descobre e usa por meio da integração Wyoming.
Essa modularidade significa que você pode descarregar o Whisper para uma máquina mais potente, se preciso.

Adicionar o cérebro LLM

Defina um LLM local como agente de conversa para entender linguagem natural em vez de apenas intenções fixas. É opcional, mas libera frases flexíveis.

Cableie o Ollama no Home Assistant primeiro — veja o guia de integração do Ollama.
Use um modelo pequeno com chamada de funções para que as respostas de voz fiquem ágeis.
Para o panorama de ponta a ponta, veja rodar sua casa inteligente em um LLM local.

Necessidades de hardware

Um mini PC roda com folga o Assist, Whisper, Piper e um LLM pequeno; uma Raspberry Pi lida com voz só-intenção, mas tem dificuldade com modelos Whisper grandes e inferência de LLM. O hardware de microfone (satélites de voz) capta o áudio pela casa.

Use um mini PC se quiser o cérebro LLM e modelos Whisper maiores — veja melhor hardware para uma casa inteligente local.
Use uma Pi para um assistente leve só-intenção.
Adicione hardware de satélite de voz (endpoints de microfone + alto-falante) para a cobertura por cômodo.
Compare os compromissos local vs nuvem em assistentes de voz local vs nuvem.

Perguntas frequentes

Um assistente de voz local pode substituir totalmente a Alexa?

Para o controle da casa inteligente e muitas rotinas, sim — o Assist com Whisper, Piper e um LLM local cobre o controle de dispositivos e as respostas em linguagem natural. Ele não replica cada skill da Alexa de terceiros nem funções de compra na nuvem, mas cobre o caso de uso central do controle do lar de forma privada.

Um assistente de voz local funciona offline?

Sim. Voz-para-texto (Whisper), texto-para-voz (Piper), o tratamento de intenções e um LLM local opcional rodam todos no seu hardware, então o assistente funciona sem internet. Só o acesso remoto de fora do lar precisa de conectividade.

Quão precisa é o reconhecimento de voz local?

A precisão depende do tamanho do modelo Whisper e do seu microfone. Modelos Whisper maiores são mais precisos, mas mais lentos; um modelo de tamanho médio em um mini PC dá um bom equilíbrio para comandos do lar. Veja o guia do Whisper local para o dimensionamento.

Que hardware preciso para um assistente de voz local?

Um mini PC para o stack completo (LLM + Whisper maior), ou uma Raspberry Pi para um assistente só-intenção, mais hardware de satélite de voz de microfone/alto-falante para a cobertura por cômodo. Uma GPU ou NPU reduz a latência do LLM e do Whisper grande.

Posso usar uma palavra de ativação personalizada?

Sim. Um motor de palavra de ativação local como o openWakeWord suporta palavras de ativação personalizadas e roda no seu hardware, então o disparo mãos-livres não precisa de nuvem.

← Voltar para Smart Home