Início/LLMs locais/Whisper no Apple Silicon 2026: benchmarks Metal, configuração Core ML, guia M1-M5

Hardware & Performance

Whisper no Apple Silicon 2026: benchmarks Metal, configuração Core ML, guia M1-M5

Name: PromptQuorum
Availability: PreOrder

Last updated: 15 de maio de 2026·14 min de leitura·By Hans Kuepper · Founder of PromptQuorum, multi-model AI dispatch tool · PromptQuorum

Ler em:

🇺🇸en 🇩🇪de 🇫🇷fr 🇯🇵ja 🇨🇳zh 🇪🇸es 🇧🇷pt 🇸🇦ar 🇰🇷ko

Whisper large-v3 no M5 Pro: 10-12× tempo real. GPU Metal automático. Large-v3-turbo equilibra velocidade + precisão a 14-18×. Sem custo, totalmente offline.

Whisper de reconhecimento de voz no Apple Silicon: benchmarks de Metal e Core ML para M1 até M5 Max. Guia de configuração, seleção de modelo e transcrição em tempo real.

Tabela de benchmarks completa: desempenho do Whisper no Apple Silicon (M1-M5)

Chip	Tiny	Base	Small	Medium	Large-v3
M1	32×	20×	12×	5×	—
M1 Pro	38×	24×	16×	7×	—
M1 Max	45×	30×	22×	10×	—
M2	36×	23×	14×	6×	—
M3	40×	26×	16×	7×	—
M4	44×	30×	18×	8×	—
M5 Pro	55×	40×	30×	14×	—
M5 Max	65×	48×	38×	18×	—

×N tempo real = N segundos de áudio transcritos em 1 segundo. Benchmarks via whisper.cpp com aceleração Metal.

Tamanhos de modelos Whisper: qual você deve usar?

Modelo	Parâmetros	Tamanho em disco	Uso de RAM	WER em inglês	Ideal para
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—

O português brasileiro (pt-BR) é suportado com WER de aproximadamente 3-6%. Large-v3-turbo recomendado para maioria dos casos de uso em tempo real.

Metal vs Core ML vs Apple Neural Engine: qual backend escolher?

Metal (whisper.cpp): Mais rápido, ampla compatibilidade, configuração mais simples. Recomendado para a maioria dos usuários.
Core ML: Otimização com Neural Engine, ganho de velocidade de 15-20% em algumas cargas (requer conversão do modelo).
Apple Neural Engine: Benefício limitado para modelos grandes, ideal para tiny/base em laptops com bateria.

Configuração: whisper.cpp com aceleração Metal

1
Instalar dependências
Why it matters: xcode-select --install brew install ffmpeg
2
Clonar e compilar whisper.cpp com Metal
Why it matters: git clone https://github.com/ggerganov/whisper.cpp cd whisper.cpp make WHISPER_METAL=1
3
Baixar um modelo
Why it matters: bash ./models/download-ggml-model.sh large-v3-turbo
4
Transcrever um arquivo de áudio
Why it matters: ./main -m models/ggml-large-v3-turbo.bin -f audio.wav -l pt

Melhor configuração do Whisper por modelo de Mac

Configuração Mac	Modelo recomendado	Múltiplo de tempo real	Caso de uso
—	—	—	—
—	—	—	—
—	—	—	—
—	—	—	—

Para conformidade com LGPD: transcrição local garante que dados de áudio sensíveis nunca saiam da organização.

Whisper local vs serviços de transcrição na nuvem

Métrica	Whisper local (M5 Pro)	Google Speech-to-Text	OpenAI Whisper API
—	—	—	—
—	—	—	—
—	—	—	—
—	—	—	—
—	—	—	—

Para conformidade com a LGPD e proteção de dados sensíveis (médico, jurídico, financeiro), o Whisper local é a única opção que garante que os dados de áudio nunca saiam da organização.

O Whisper funciona bem em português?

Sim. O português (Brasil e Portugal) é um dos idiomas com melhor suporte. WER típico: 3-5% para português padrão, 5-10% para sotaques regionais. Especifique o idioma com -l pt para melhor desempenho.

O Whisper local é mais rápido que as APIs na nuvem?

Local no M5 Pro: 10× tempo real (latência 100ms). APIs na nuvem: 100-500ms de latência pela rede. O local é mais rápido e gratuito.

Qual modelo Whisper tem o melhor equilíbrio velocidade/qualidade?

Large-v3-turbo. Atinge ~95% da precisão do large-v3 a 4-6× a velocidade. Recomendado para a maioria dos casos de uso em tempo real.

Posso usar o Whisper local para conformidade com a LGPD?

Sim. O Whisper rodando localmente garante que nenhum dado de áudio seja enviado a servidores externos. Ideal para prontuários médicos, processos jurídicos e dados financeiros sob a LGPD (Lei nº 13.709/2018).

Nota sobre informações de terceiros

Este artigo faz referência a modelos de IA, benchmarks, preços e licenças de terceiros. O cenário da IA muda rapidamente. Pontuações de benchmark, termos de licença, nomes de modelos e preços de API podem mudar entre o momento em que foi escrito e quando você está lendo. Antes de tomar decisões de implantação ou conformidade com base neste artigo, verifique os dados atuais na fonte oficial de cada fornecedor: fichas de modelos do Hugging Face para licenças e benchmarks, sites dos fornecedores para preços de API e EUR-Lex para o texto atual do GDPR e da Lei de IA da UE. Este artigo reflete informações publicamente disponíveis em maio de 2026.

Run PromptQuorum with a local LLM, your own API keys, or both — you pick the backend.

Join the PromptQuorum Waitlist →

← Back to Local LLMs

Modelo	Parâmetros	Tamanho em disco	Uso de RAM	WER em inglês	Ideal para
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—

Métrica	Whisper local (M5 Pro)	Google Speech-to-Text	OpenAI Whisper API
—	—	—	—
—	—	—	—
—	—	—	—
—	—	—	—
—	—	—	—

Modelo	Parâmetros	Tamanho em disco	Uso de RAM	WER em inglês	Ideal para
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—
—	—	—	—	—	—

Métrica	Whisper local (M5 Pro)	Google Speech-to-Text	OpenAI Whisper API
—	—	—	—
—	—	—	—
—	—	—	—
—	—	—	—
—	—	—	—