重要なポイント
- Whisper はローカルで動くオープンな音声認識モデル——音声はあなたのハードウェアを出ない
- Whisper(faster-whisper)アドオンを使う;Wyoming で Assist につながる
- モデルサイズは tiny → base → small → medium → large;大きいほど高精度・低速
- CPU のみのハードウェアでは tiny/base/small を;GPU があれば medium/large が実用的
- Whisper は多言語対応なので、英語以外の命令もクラウドサービスなしで文字起こしされる
- 大きくする前に、より良いマイクと適切なモデルで精度を調整する
なぜローカル音声認識を使うのか?
ローカル音声認識はあなたの音声録音を自分のハードウェアに保つため、音声が第三者へアップロードされません。 オフラインでも動き、リクエストごとのコストもありません。
- プライバシー: クラウドアシスタントは録音を送信し保持し得ますが、ローカル Whisper はしません——スマートホームのプライバシーリスクを参照。
- オフライン: 文字起こしはインターネット障害中も動きます。
- 料金なし: ローカルの文字起こしに利用料はありません。
どの Whisper モデルサイズを使うべきか?
あなたのハードウェアで許容できる精度を出す最小の Whisper モデルを選びましょう——CPU のみなら tiny/base/small、GPU があるなら medium/large。 大きなモデルは、速度を犠牲に、アクセントや雑音の多い音声で精度を上げます。
- ミニPCのCPUでは small を既定にし、精度が足りない場合のみ medium/large へ移ります。
- Raspberry Pi ではレイテンシを使える範囲に保つため tiny/base を使います。
| モデル | 相対精度 | 相対速度 | 最適な用途 |
|---|---|---|---|
| tiny | 最低 | 最速 | 低消費電力CPU、短い命令 |
| base | 低 | 非常に速い | Raspberry Pi、簡単なフレーズ |
| small | 良好 | 速い | ミニPCのCPU、日常利用 |
| medium | 高い | 中程度 | GPU または強力なCPU |
| large | 最高 | 最も遅い | GPU、アクセント/騒がしい部屋 |
Wyoming の設定
Whisper アドオンは、Assist が音声認識に使う Wyoming エンドポイントを公開します。 設定は、インストール → モデルを選ぶ → パイプラインで選択、です。
- 1アドオンストアから Whisper(faster-whisper)アドオンをインストールします。
- 2アドオン設定でモデルサイズを設定し、起動します。
- 3アドオンは自動的に Wyoming の音声認識サービスとして登録されます。
- 4設定 → 音声アシスタント で、Assist パイプラインの STT エンジンに Whisper を設定します。
- 5音声ハードウェアを追加する前に、Assist のデバッグツールから文字起こしをテストします。
ハードウェア要件
Whisper は小型モデルなら CPU で動き、medium/large モデルでは GPU が役立ちます。 モデルサイズを、それをホストする機器に合わせましょう。
- Raspberry Pi:許容できるレイテンシのため tiny/base にとどめます。
- ミニPC(CPU):small はよく動きます;medium は可能ですがより遅い——ローカルスマートホームに最適なハードウェアを参照。
- GPU/NPU があれば:medium と large が高精度に実用的になります。
- ハブが Pi なら、Wyoming 経由で Whisper を別のより強力なマシンで動かせます。
精度の調整
最大の Whisper に手を伸ばす前に、良いマイクと適切なモデルを整えましょう。 家庭の命令では、モデルサイズより音質が重要なことが多いです。
- 話者の近くに、質の良いマイクや音声サテライト機器を使います。
- マイクのある場所の背景雑音を減らします。
- 誤認識を避けるため、アドオンで正しい言語を設定します。
- large に飛ばず、モデルサイズを一段ずつ上げて再テストします。
よくある質問
Home Assistant にどの Whisper モデルを使うべきですか?
ミニPCのCPUでは small を既定に、Raspberry Pi では tiny か base を、そして GPU があり、アクセントや騒がしい部屋でより高い精度が必要な場合のみ medium か large を使いましょう。一段ずつ上げて再テストします。
ローカル Whisper に GPU は必要ですか?
small 以下には不要です——それらは CPU で動きます。GPU は主に medium と large をリアルタイム利用に十分な速さにします。Wyoming プロトコルで Whisper をより強力なマシンに逃がすこともできます。
ローカル Whisper はオフラインでどれくらい正確ですか?
適切なモデルと良いマイクなら精度は高く、大きなモデルほどアクセントや雑音をうまく扱います。明瞭な家庭の命令には、ミニPC上の small モデルで通常十分な精度で、完全にオフラインで動きます。
ローカル Whisper は多言語対応ですか?
はい。Whisper は多くの言語に対応するため、英語以外の命令もクラウドサービスなしでローカルに文字起こしされます。最良の結果のため、アドオン設定で言語を設定しましょう。