スマートホーム向けのローカル音声認識：Whisper + HA（2026）

最終更新: 2026年6月4日·8分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

言語を選択:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

ローカル Whisper は Home Assistant にプライベートな音声認識を与えます：Whisper アドオンをインストールし、ハードウェアに合うモデルサイズを選び、Wyoming プロトコルで Assist につなぎます。小さいモデルほど速く、大きいモデルほど高精度。クラウドサービスへは何も送られません。

ローカル Whisper は、Home Assistant にクラウドなしのプライベートな音声認識を与えます：精度・速度・ハードウェアの兼ね合いで Whisper のモデルサイズを選び、Wyoming プロトコルで Assist につなぎます。本ガイドは、ローカル STT がなぜ重要か、Whisper のモデルサイズ、Wyoming の設定、ハードウェア要件、そして精度の調整方法を扱います。

重要なポイント

Whisper はローカルで動くオープンな音声認識モデル——音声はあなたのハードウェアを出ない
Whisper（faster-whisper）アドオンを使う；Wyoming で Assist につながる
モデルサイズは tiny → base → small → medium → large；大きいほど高精度・低速
CPU のみのハードウェアでは tiny/base/small を；GPU があれば medium/large が実用的
Whisper は多言語対応なので、英語以外の命令もクラウドサービスなしで文字起こしされる
大きくする前に、より良いマイクと適切なモデルで精度を調整する

なぜローカル音声認識を使うのか？

ローカル音声認識はあなたの音声録音を自分のハードウェアに保つため、音声が第三者へアップロードされません。 オフラインでも動き、リクエストごとのコストもありません。

プライバシー： クラウドアシスタントは録音を送信し保持し得ますが、ローカル Whisper はしません——スマートホームのプライバシーリスクを参照。
オフライン： 文字起こしはインターネット障害中も動きます。
料金なし： ローカルの文字起こしに利用料はありません。

どの Whisper モデルサイズを使うべきか？

あなたのハードウェアで許容できる精度を出す最小の Whisper モデルを選びましょう——CPU のみなら tiny/base/small、GPU があるなら medium/large。 大きなモデルは、速度を犠牲に、アクセントや雑音の多い音声で精度を上げます。

ミニPCのCPUでは small を既定にし、精度が足りない場合のみ medium/large へ移ります。
Raspberry Pi ではレイテンシを使える範囲に保つため tiny/base を使います。

モデル	相対精度	相対速度	最適な用途
tiny	最低	最速	低消費電力CPU、短い命令
base	低	非常に速い	Raspberry Pi、簡単なフレーズ
small	良好	速い	ミニPCのCPU、日常利用
medium	高い	中程度	GPU または強力なCPU
large	最高	最も遅い	GPU、アクセント/騒がしい部屋

Wyoming の設定

Whisper アドオンは、Assist が音声認識に使う Wyoming エンドポイントを公開します。 設定は、インストール → モデルを選ぶ → パイプラインで選択、です。

1
アドオンストアから Whisper（faster-whisper）アドオンをインストールします。
2
アドオン設定でモデルサイズを設定し、起動します。
3
アドオンは自動的に Wyoming の音声認識サービスとして登録されます。
4
設定 → 音声アシスタントで、Assist パイプラインの STT エンジンに Whisper を設定します。
5
音声ハードウェアを追加する前に、Assist のデバッグツールから文字起こしをテストします。

ハードウェア要件

Whisper は小型モデルなら CPU で動き、medium/large モデルでは GPU が役立ちます。 モデルサイズを、それをホストする機器に合わせましょう。

Raspberry Pi：許容できるレイテンシのため tiny/base にとどめます。
ミニPC（CPU）：small はよく動きます；medium は可能ですがより遅い——ローカルスマートホームに最適なハードウェアを参照。
GPU/NPU があれば：medium と large が高精度に実用的になります。
ハブが Pi なら、Wyoming 経由で Whisper を別のより強力なマシンで動かせます。

精度の調整

最大の Whisper に手を伸ばす前に、良いマイクと適切なモデルを整えましょう。 家庭の命令では、モデルサイズより音質が重要なことが多いです。

話者の近くに、質の良いマイクや音声サテライト機器を使います。
マイクのある場所の背景雑音を減らします。
誤認識を避けるため、アドオンで正しい言語を設定します。
large に飛ばず、モデルサイズを一段ずつ上げて再テストします。

よくある質問

Home Assistant にどの Whisper モデルを使うべきですか？

ミニPCのCPUでは small を既定に、Raspberry Pi では tiny か base を、そして GPU があり、アクセントや騒がしい部屋でより高い精度が必要な場合のみ medium か large を使いましょう。一段ずつ上げて再テストします。

ローカル Whisper に GPU は必要ですか？

small 以下には不要です——それらは CPU で動きます。GPU は主に medium と large をリアルタイム利用に十分な速さにします。Wyoming プロトコルで Whisper をより強力なマシンに逃がすこともできます。

ローカル Whisper はオフラインでどれくらい正確ですか？

適切なモデルと良いマイクなら精度は高く、大きなモデルほどアクセントや雑音をうまく扱います。明瞭な家庭の命令には、ミニPC上の small モデルで通常十分な精度で、完全にオフラインで動きます。

ローカル Whisper は多言語対応ですか？

はい。Whisper は多くの言語に対応するため、英語以外の命令もクラウドサービスなしでローカルに文字起こしされます。最良の結果のため、アドオン設定で言語を設定しましょう。

← Smart Home に戻る