关键要点
- Whisper 是一个在本地运行的开源语音转文字模型——没有音频离开你的硬件
- 使用 Whisper(faster-whisper)加载项;它经由 Wyoming 连接到 Assist
- 模型大小为 tiny → base → small → medium → large;越大越准、越慢
- 在仅 CPU 的硬件上,优先 tiny/base/small;有 GPU 时 medium/large 才实用
- Whisper 支持多语言,因此非英语命令也能在没有云服务的情况下转写
- 在加大之前,先用更好的麦克风和合适的模型来调优精度
为何使用本地语音转文字?
本地语音转文字把你的语音录音留在你自己的硬件上,因此没有音频被上传给第三方。 它还能离线工作,并且没有按次费用。
- 隐私: 云端助手会传输并可能保留录音;本地 Whisper 不会——参见智能家居隐私风险。
- 离线: 转写在断网期间也能工作。
- 无费用: 本地转写没有使用费。
你该使用哪个 Whisper 模型大小?
选择能在你硬件上给出可接受精度的最小 Whisper 模型——仅 CPU 用 tiny/base/small,有 GPU 用 medium/large。 更大的模型在口音和嘈杂音频上提升精度,但以速度为代价。
- 在迷你 PC 的 CPU 上以 small 为默认;仅在精度不足时才换到 medium/large。
- 在 Raspberry Pi 上用 tiny/base 以保持延迟可用。
| 模型 | 相对精度 | 相对速度 | 最适合 |
|---|---|---|---|
| tiny | 最低 | 最快 | 低功耗 CPU、短命令 |
| base | 低 | 非常快 | Raspberry Pi、简单短语 |
| small | 良好 | 快 | 迷你 PC 的 CPU、日常使用 |
| medium | 高 | 中等 | GPU 或强力 CPU |
| large | 最高 | 最慢 | GPU、口音/嘈杂房间 |
Wyoming 配置
Whisper 加载项会暴露一个 Wyoming 端点,供 Assist 用于语音转文字。 配置流程是:安装 → 选择模型 → 在流水线中选择。
- 1从加载项商店安装 Whisper(faster-whisper)加载项。
- 2在加载项配置中设置模型大小并启动它。
- 3加载项会自动注册为一个 Wyoming 语音转文字服务。
- 4在 设置 → 语音助手 中,把 Whisper 设为你 Assist 流水线的 STT 引擎。
- 5在添加语音硬件之前,从 Assist 的调试工具测试转写。
硬件需求
Whisper 的小型模型在 CPU 上运行,medium/large 模型则受益于 GPU。 把模型大小匹配到托管它的机器。
- Raspberry Pi:保持 tiny/base 以获得可接受的延迟。
- 迷你 PC(CPU):small 运行良好;medium 可行但更慢——参见本地智能家居的最佳硬件。
- 配 GPU/NPU 时:medium 和 large 在高精度下变得实用。
- 若你的中枢是 Pi,可经由 Wyoming 在一台更强的独立机器上运行 Whisper。
调优精度
在动用最大的 Whisper 之前,先改善一只好麦克风和合适的模型。 对家庭命令而言,音质往往比模型大小更重要。
- 在说话者附近使用优质麦克风或语音卫星硬件。
- 降低麦克风所在处的背景噪声。
- 在加载项中设置正确的语言以避免转写错误。
- 一次只上调一个模型大小并重新测试,而不是直接跳到 large。
常见问题
Home Assistant 该用哪个 Whisper 模型?
在迷你 PC 的 CPU 上以 small 为默认,在 Raspberry Pi 上用 tiny 或 base,仅当你有 GPU 并需要在口音或嘈杂房间获得更高精度时才用 medium 或 large。一次上调一个大小并重新测试。
本地 Whisper 需要 GPU 吗?
small 及以下不需要——它们在 CPU 上运行。GPU 主要让 medium 和 large 模型足够快以供实时使用。你也可以经由 Wyoming 协议把 Whisper 卸载到一台更强的机器。
本地 Whisper 离线时有多准?
配合合适的模型和好麦克风,精度很高;更大的模型能更好地处理口音和噪声。对清晰的家庭命令,迷你 PC 上的 small 模型通常已足够准确,并且完全离线运行。
本地 Whisper 支持多语言吗?
支持。Whisper 支持许多语言,因此非英语命令也能在没有任何云服务的情况下在本地转写。在加载项配置中设置语言以获得最佳结果。