重要なポイント
- Home Assistant Assist は、すべてをつなぐローカル音声パイプライン
- Whisper が音声認識をローカルで処理;精度/速度/ハードウェアの兼ね合いでモデルサイズを選ぶ
- Piper が音声合成をローカルで、自然な声で処理
- Wyoming プロトコルが Assist を Whisper・Piper サービスにつなぐ
- ハンズフリーの起動にウェイクワードエンジン(openWakeWord など)を加える
- 任意:自然言語理解のため会話エージェントとしてローカル LLM を設定
完全ローカルな音声スタック
ローカル音声アシスタントは、自分のハードウェア上の四つの役割です:取り込んで文字起こし(Whisper)、理解(Assist のインテントまたはローカル LLM)、応答(Piper)、起動(ウェイクワード)。 いずれもオフラインで動き、Wyoming プロトコルがそれらを配線します。
| コンポーネント | 役割 | ローカル? | 備考 |
|---|---|---|---|
| Assist | パイプライン+インテント | はい | Home Assistant に内蔵 |
| Whisper | 音声認識 | はい | モデルサイズが精度/速度を決める |
| Piper | 音声合成 | はい | 自然なローカル音声 |
| ウェイクワード | ハンズフリーの起動 | はい | 例:openWakeWord |
| ローカル LLM | 理解(任意) | はい | Ollama を会話エージェントとして |
Home Assistant Assist
Assist は、音声を音声認識・エージェント・音声合成へと通す内蔵の音声パイプラインです。 設定 → 音声アシスタント で構成します。
- Assist は一般的な命令には、内蔵インテントでそのまま(LLM なしで)動きます。
- STT エンジン(Whisper)、TTS エンジン(Piper)、会話エージェントを選びます。
- 高速なインテントのみのアシスタントと、別の LLM 搭載のものが欲しければ複数パイプラインを使います。
ローカル音声認識のための Whisper
Whisper はあなたの音声をローカルで文字起こしします;大きな Whisper モデルほど高精度ですが、より多くの計算を要します。 Whisper(faster-whisper)アドオンとして追加し、Wyoming でつなぎます。
- Whisper は tiny から large までのサイズがあります——小さいほど速く、大きいほど高精度。
- 集中した STT 構成(モデル、ハードウェア、精度)はローカル Whisper + Home Assistantを参照。
- Whisper は多言語対応なので、英語以外の命令もクラウドサービスなしで文字起こしされます。
ローカル音声合成のための Piper
Piper は自然な声でローカルに音声応答を生成し、控えめなハードウェアでもリアルタイム応答に十分な速さです。 Piper アドオンとして追加し、声を選びます。
- Piper は複数の言語と声を提供します;パイプラインごとに一つ選びます。
- 典型的な応答長なら、Raspberry Pi でも良好に動きます。
- 音声はどこにも送られません——あなたの機器で合成されます。
Wyoming プロトコル
Wyoming は、Home Assistant が Assist を Whisper や Piper のようなローカル音声サービスにつなぐために使うプロトコルです。 音声サービスを別々のアドオンや別マシンで動かせます。
- 各サービス(Whisper、Piper、ウェイクワード)は Wyoming エンドポイントとして動きます。
- Assist は Wyoming 統合を通じてそれらを検出し利用します。
- このモジュール性により、必要なら Whisper をより強力な機器に逃がせます。
LLM の頭脳を加える
固定のインテントだけでなく自然言語を理解するため、ローカル LLM を会話エージェントに設定します。 任意ですが、柔軟な言い回しを解禁します。
- まず Ollama を Home Assistant に配線します——Ollama 統合ガイドを参照。
- 音声応答をキビキビ保つため、小型の関数呼び出しモデルを使います。
- エンドツーエンドの全体像はローカルLLMでスマートホームを動かすを参照。
ハードウェア要件
ミニPCは Assist、Whisper、Piper、小型 LLM を余裕で動かします;Raspberry Pi はインテントのみの音声を扱えますが、大きな Whisper モデルや LLM 推論には苦労します。 マイクのハードウェア(音声サテライト)が家中の音声を拾います。
- LLM の頭脳とより大きな Whisper モデルが欲しいならミニPCを使う——ローカルスマートホームに最適なハードウェアを参照。
- 軽量なインテントのみのアシスタントには Pi を使う。
- 部屋ごとのカバーのため、音声サテライト機器(マイク+スピーカーのエンドポイント)を追加する。
- ローカル対クラウドの兼ね合いはローカル対クラウドの音声アシスタントで比較。
よくある質問
ローカル音声アシスタントは Alexa を完全に置き換えられますか?
スマートホーム制御と多くのルーティンについてはそうです——Whisper、Piper、ローカル LLM を備えた Assist が、自然言語の機器制御と応答をカバーします。サードパーティの Alexa スキルやクラウドショッピング機能すべてを再現はしませんが、家庭制御の中核ユースケースをプライベートにカバーします。
ローカル音声アシスタントはオフラインで動きますか?
はい。音声認識(Whisper)、音声合成(Piper)、インテント処理、任意のローカル LLM はすべて自分のハードウェアで動くため、インターネットなしで動作します。家の外からのリモートアクセスだけが接続を必要とします。
ローカル音声認識の精度はどれくらいですか?
精度は Whisper のモデルサイズとマイク次第です。大きな Whisper モデルほど高精度ですが遅く、ミニPC上の中サイズモデルが家庭の命令には良いバランスです。サイズ選びはローカル Whisper ガイドを参照。
ローカル音声アシスタントにどんなハードウェアが必要ですか?
フルスタック(LLM+より大きな Whisper)にはミニPC、インテントのみのアシスタントには Raspberry Pi、加えて部屋ごとのカバー用にマイク/スピーカーの音声サテライト機器。GPU や NPU が LLM と大型 Whisper のレイテンシを下げます。
カスタムのウェイクワードを使えますか?
はい。openWakeWord のようなローカルのウェイクワードエンジンはカスタムウェイクワードに対応し、あなたのハードウェアで動くため、ハンズフリーの起動にクラウドは不要です。