Tabela de benchmarks completa: desempenho do Whisper no Apple Silicon (M1-M5)
| Chip | Tiny | Base | Small | Medium | Large-v3 |
|---|---|---|---|---|---|
| M1 | 32× | 20× | 12× | 5× | — |
| M1 Pro | 38× | 24× | 16× | 7× | — |
| M1 Max | 45× | 30× | 22× | 10× | — |
| M2 | 36× | 23× | 14× | 6× | — |
| M3 | 40× | 26× | 16× | 7× | — |
| M4 | 44× | 30× | 18× | 8× | — |
| M5 Pro | 55× | 40× | 30× | 14× | — |
| M5 Max | 65× | 48× | 38× | 18× | — |
×N tempo real = N segundos de áudio transcritos em 1 segundo. Benchmarks via whisper.cpp com aceleração Metal.
Tamanhos de modelos Whisper: qual você deve usar?
| Modelo | Parâmetros | Tamanho em disco | Uso de RAM | WER em inglês | Ideal para |
|---|---|---|---|---|---|
| — | — | — | — | — | — |
| — | — | — | — | — | — |
| — | — | — | — | — | — |
| — | — | — | — | — | — |
| — | — | — | — | — | — |
| — | — | — | — | — | — |
O português brasileiro (pt-BR) é suportado com WER de aproximadamente 3-6%. Large-v3-turbo recomendado para maioria dos casos de uso em tempo real.
Metal vs Core ML vs Apple Neural Engine: qual backend escolher?
- Metal (whisper.cpp): Mais rápido, ampla compatibilidade, configuração mais simples. Recomendado para a maioria dos usuários.
- Core ML: Otimização com Neural Engine, ganho de velocidade de 15-20% em algumas cargas (requer conversão do modelo).
- Apple Neural Engine: Benefício limitado para modelos grandes, ideal para tiny/base em laptops com bateria.
Configuração: whisper.cpp com aceleração Metal
- 1Instalar dependências
Why it matters: xcode-select --install brew install ffmpeg - 2Clonar e compilar whisper.cpp com Metal
Why it matters: git clone https://github.com/ggerganov/whisper.cpp cd whisper.cpp make WHISPER_METAL=1 - 3Baixar um modelo
Why it matters: bash ./models/download-ggml-model.sh large-v3-turbo - 4Transcrever um arquivo de áudio
Why it matters: ./main -m models/ggml-large-v3-turbo.bin -f audio.wav -l pt
Melhor configuração do Whisper por modelo de Mac
| Configuração Mac | Modelo recomendado | Múltiplo de tempo real | Caso de uso |
|---|---|---|---|
| — | — | — | — |
| — | — | — | — |
| — | — | — | — |
| — | — | — | — |
Para conformidade com LGPD: transcrição local garante que dados de áudio sensíveis nunca saiam da organização.
Whisper local vs serviços de transcrição na nuvem
| Métrica | Whisper local (M5 Pro) | Google Speech-to-Text | OpenAI Whisper API |
|---|---|---|---|
| — | — | — | — |
| — | — | — | — |
| — | — | — | — |
| — | — | — | — |
| — | — | — | — |
Para conformidade com a LGPD e proteção de dados sensíveis (médico, jurídico, financeiro), o Whisper local é a única opção que garante que os dados de áudio nunca saiam da organização.
O Whisper funciona bem em português?
Sim. O português (Brasil e Portugal) é um dos idiomas com melhor suporte. WER típico: 3-5% para português padrão, 5-10% para sotaques regionais. Especifique o idioma com -l pt para melhor desempenho.
O Whisper local é mais rápido que as APIs na nuvem?
Local no M5 Pro: 10× tempo real (latência 100ms). APIs na nuvem: 100-500ms de latência pela rede. O local é mais rápido e gratuito.
Qual modelo Whisper tem o melhor equilíbrio velocidade/qualidade?
Large-v3-turbo. Atinge ~95% da precisão do large-v3 a 4-6× a velocidade. Recomendado para a maioria dos casos de uso em tempo real.
Posso usar o Whisper local para conformidade com a LGPD?
Sim. O Whisper rodando localmente garante que nenhum dado de áudio seja enviado a servidores externos. Ideal para prontuários médicos, processos jurídicos e dados financeiros sob a LGPD (Lei nº 13.709/2018).