Wichtigste Erkenntnisse
- whisper.cpp ist die beste lokale STT-Wahl für Apple Silicon. Der C/C++-Port nutzt Core ML und Apple Metal für Hardware-Beschleunigung – large-v3 mit ~10-facher Echtzeit auf dem M5 Pro, ohne Python-Abhängigkeit.
- faster-whisper ist die beste lokale STT-Wahl für NVIDIA-GPUs und Python-Pipelines. Die CTranslate2 int8-Quantisierung reduziert den VRAM-Bedarf um ~40 % und steigert den Durchsatz um ~4× gegenüber der ursprünglichen OpenAI-Implementierung – large-v3 mit ~12-facher Echtzeit auf dem RTX 4070 bei nur ~2,5 GB VRAM.
- Beide Tools verwenden identische Whisper-Modellgewichte von OpenAI. Der WER (Wortfehlerrate) ist bei beiden gleich – der Unterschied liegt ausschließlich in der Laufzeit-Performance und im Integrationspfad, nicht in der Transkriptionsgenauigkeit.
- Whisper large-v3 bietet die beste Genauigkeit mit 2,5 % WER auf Englisch. Für die meisten Produktivszenarien bietet Whisper small (3,4 % WER, 2 GB RAM) oder medium (2,9 % WER, 5 GB RAM) ein besseres Geschwindigkeit-Genauigkeits-Verhältnis.
- Echtzeit-Transkription ist mit beiden Tools erreichbar – whisper.cpp über den
--stream-Flag, faster-whisper über seine integrierte VAD-Pipeline (Sprachaktivitätserkennung). Die praktische Latenz liegt je nach Modellgröße bei 0,5–2 Sekunden hinter der Livesprache. - whisper.cpp läuft auf CPU, Metal, CUDA und Vulkan – und ist damit die einzige Wahl für plattformübergreifende Embedded-Nutzung (Raspberry Pi, Windows GPU-Setups, ARM-Server). faster-whisper unterstützt nur CPU und CUDA (kein Metal auf Mac).
- Für Raspberry Pi und Embedded Linux ist whisper.cpp tiny/base auf der CPU die praktische Obergrenze – tiny mit ~15-facher Echtzeit auf Pi 5, base mit ~6-facher Echtzeit. Beide passen in 1 GB RAM.
Auf einen Blick
- Beide Tools: Basieren auf OpenAIs quelloffenem Whisper-Modell (MIT-Lizenz). Gleiche Genauigkeit – unterschiedliche Laufzeiten.
- whisper.cpp: In C/C++ von Georgi Gerganov entwickelt. Unterstützt CPU (AVX2/NEON), CUDA, Metal (Apple), Vulkan. Kein Python erforderlich.
- faster-whisper: Python-Bibliothek auf Basis von CTranslate2. Unterstützt CPU (int8) und CUDA. Kein Apple Metal-Support.
- Whisper-Modellgrößen: tiny (39M), base (74M), small (244M), medium (769M), large-v3 (1,55B). Alle im GGML- / CTranslate2-Format.
- Bestes Modell für die meisten Anwendungsfälle: Whisper small – 3,4 % WER, läuft in 2 GB RAM, 6-fache Echtzeit auf modernem CPU.
- RTX 4070-Benchmark (large-v3): faster-whisper ~12-fache Echtzeit; whisper.cpp CUDA ~8-fache Echtzeit. faster-whisper gewinnt auf NVIDIA.
- M5 Pro-Benchmark (large-v3): whisper.cpp Metal ~10-fache Echtzeit; faster-whisper nur-CPU ~3-fache Echtzeit. whisper.cpp gewinnt auf Apple.
Warum lokale Spracherkennung?
Cloud-STT-Dienste (Google Speech-to-Text, AWS Transcribe, Azure Speech) berechnen Gebühren pro Audiominute – typischerweise ca. 0,005–0,022 €/Min. – und senden Audiodaten an externe Server. Für datenschutzsensible Anwendungen (medizinische Diktierlösungen, Rechtsaufzeichnungen, Journalisteninterviews, Unternehmensmeetings) eliminiert lokale Transkription das Datenschutzrisiko vollständig.
- Datenschutz: Audio verlässt niemals Ihr Gerät. Kein Auftragsverarbeitungsvertrag nach DSGVO Art. 28 erforderlich – die Verarbeitung erfolgt lokal.
- Kosten: Keine minutenbasierten Gebühren. Ein Entwickler, der 8 Stunden Meetings pro Woche transkribiert, spart ca. 110–440 €/Monat gegenüber Cloud-STT-Preisen.
- Offline: Funktioniert im Flugzeug, in Sicherheitsbereichen, in Gebieten ohne stabiles Internet. Kein API-Schlüsselmanagement.
- Latenz: Kein Upload/Download-Roundtrip. Für Echtzeit-Sprachinterfaces reduziert lokale Verarbeitung die STT-Latenz von 300–800 ms (Cloud) auf 50–300 ms.
- Anpassbarkeit: Feinabstimmung auf domänenspezifisches Vokabular. Beliebige Modellgröße, die zur Hardware passt.
Whisper-Modellgrößen – Grundlage beider Tools
Sowohl whisper.cpp als auch faster-whisper verwenden dieselben Whisper-Modellgewichte, konvertiert in das jeweilige Format (GGML für whisper.cpp, CTranslate2 für faster-whisper). Wählen Sie die Modellgröße anhand Ihres VRAM/RAM-Budgets und Ihrer Genauigkeitsanforderungen.
| Modell | Parameter | VRAM / RAM | Englisch WER | Geschwindigkeitsfaktor (ggü. Echtzeit, RTX 4070) |
|---|---|---|---|---|
| tiny | 39M | ~1 GB | 7,6 % | ~32× |
| base | 74M | ~1 GB | 5,0 % | ~16× |
| small | 244M | ~2 GB | 3,4 % | ~6× |
| medium | 769M | ~5 GB | 2,9 % | ~2× |
| large-v3 | 1,55B | ~10 GB | 2,5 % | 1× (Referenz) |
| distil-large-v3 | ~756M | ~4 GB | ~2,6 % | ~6× |
WER-Werte (Wortfehlerrate) aus dem Whisper-Paper auf dem LibriSpeech Clean Test Set. Niedrigerer Wert ist besser. Geschwindigkeitsfaktoren für faster-whisper int8 auf RTX 4070. distil-large-v3-Werte aus dem Distil-Whisper-Paper.
Distil-Whisper: Die schnellere Alternative
distil-whisper/distil-large-v3 ist eine destillierte Variante von large-v3 mit ~50 % weniger Parametern, die ~6× schneller läuft und dabei den WER nur um ~1 % erhöht.** Es ist die richtige Wahl, wenn Transkriptionsgeschwindigkeit wichtiger ist als das letzte Stück Genauigkeit. distil-large-v3 funktioniert sowohl mit faster-whisper (native CTranslate2-Unterstützung) als auch mit whisper.cpp (über GGML-Format-Konvertierung).
- Parameter: ~756M – etwa halb so viele wie large-v3s 1,55B; passt in ~4 GB VRAM statt ~10 GB.
- Geschwindigkeit: ~6-fache Echtzeit auf RTX 4070 (vs. 1× Referenz für large-v3) – vergleichbar mit medium in der Geschwindigkeit, bei large-v3-naher Genauigkeit.
- WER: ~2,6 % auf Englisch – nur ~0,1 % höher als large-v3s 2,5 %. In der Praxis kaum hörbarer Unterschied bei typischer Sprachqualität.
- Kompatibilität: Funktioniert mit faster-whisper nativ (
WhisperModel("distil-large-v3", device="cuda", compute_type="int8")). Für whisper.cpp: Konvertierung ins GGML-Format mit dem distil-whisper GGML-Konvertierungsskript. - Am besten geeignet für: Batch-Transkriptionsjobs, Server-Deployments mit begrenztem VRAM und alle Anwendungsfälle, bei denen large-v3-Qualität bei medium-Modell-Geschwindigkeit benötigt wird.
- Nicht geeignet für: Mehrsprachige Transkription – distil-large-v3 ist ausschließlich für Englisch optimiert. Für andere Sprachen: large-v3 oder medium verwenden.
whisper.cpp – Der C/C++-Port
whisper.cpp (von Georgi Gerganov) ist eine reine C/C++-Neuimplementierung von OpenAIs Whisper-Modell, optimiert für ressourcenarme und plattformübergreifende Inferenz. Kein Python, kein CUDA-Toolkit erforderlich – läuft auf nahezu jeder Hardware, vom Raspberry Pi bis zum Apple M5 Pro und Windows CUDA-Setups.
- Plattformunterstützung: CPU (AVX2, AVX512, ARM NEON), Apple Metal (Core ML), CUDA (NVIDIA), Vulkan (AMD/Intel GPU), OpenCL.
- Apple-Silicon-Vorteil: whisper.cpp exportiert Modelle ins Core ML-Format und ermöglicht damit Inferenz auf der Apple Neural Engine. Large-v3 läuft mit ~10-facher Echtzeit auf dem M5 Pro über Metal – schneller als jeder Cloud-Roundtrip.
- Installation: Repository klonen,
make(odercmake) ausführen. Vorgefertigte Binaries für gängige Plattformen verfügbar. Keine Python-Abhängigkeit. - Modell-Download:
bash ./models/download-ggml-model.sh base.en– lädt die GGML-Modelldatei herunter (~142 MB für base). - CLI-Beispiel:
./main -m models/ggml-base.bin -f audio.wav– transkribiert eine WAV-Datei nach stdout.-l defür Deutsch hinzufügen. - Echtzeit-Stream-Modus:
./stream -m models/ggml-base.bin --step 3000 --length 10000– transkribiert in 3-Sekunden-Chunks vom Mikrofon. - Python-Wrapper: pywhispercpp bietet eine Python-Anbindung für whisper.cpp und ermöglicht die Nutzung in Python-Pipelines ohne Verlust der Metal-Beschleunigung.
- Einschränkung: Kein nativer VAD (Sprachaktivitätserkennung). Der Stream-Modus erfordert die Feinabstimmung der Parameter
--stepund--lengthfür den jeweiligen Anwendungsfall.
# Build from source (macOS / Linux)
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make -j4
# Download a model
bash ./models/download-ggml-model.sh large-v3
# Transcribe a file
./main -m models/ggml-large-v3.bin -f recording.wav
# Enable Metal on Apple Silicon (Core ML)
make -j4 WHISPER_COREML=1
./main -m models/ggml-large-v3-encoder.mlmodelc -f recording.wavfaster-whisper – Der CTranslate2-Port
faster-whisper (von SYSTRAN) ist eine Python-Bibliothek, die Whisper-Inferenz mit CTranslate2 – einer hochoptimierten C++-Inferenz-Engine mit int8-Quantisierungsunterstützung – neu implementiert und dadurch VRAM-Bedarf reduziert und Durchsatz erhöht. Auf NVIDIA-GPUs ist faster-whisper die schnellste verfügbare lokale Whisper-Implementierung.
- Plattformunterstützung: CPU (int8-Quantisierung) und NVIDIA CUDA GPU. Kein Apple Metal-Support – läuft auf Mac nur über CPU.
- int8-Vorteil: CTranslate2 int8-Quantisierung reduziert den VRAM-Bedarf um ~40 % und erhöht die Inferenzgeschwindigkeit um ~2× gegenüber float16 bei vernachlässigbarer WER-Auswirkung (< 0,1 % absolut).
- Installation:
pip install faster-whisper– keine Kompilierung erforderlich. CUDA-Unterstützung erfordert CUDA 11.8+ und cuDNN 8.x. - Integrierter VAD: faster-whisper enthält Silero VAD-Integration, die stille Audiosegmente automatisch überspringt – entscheidend für Echtzeit-Transkriptions-Pipelines.
- Python-nativ: Die direkte Python-API macht es trivial, faster-whisper mit LLMs, Audio-Verarbeitungsbibliotheken und Web-Frameworks zu verbinden.
- Geschwindigkeit: large-v3 int8 auf RTX 4070 mit ~12-facher Echtzeit und ~2,5 GB VRAM. CPU int8 erreicht ~20-fache Echtzeit für das tiny-Modell.
- Batch-Verarbeitung: faster-whisper unterstützt Batch-Inferenz für die effiziente Verarbeitung großer Audio-Archive.
- Einschränkung: Kein Metal-Support auf Mac – läuft auf Apple Silicon nur über CPU mit ~3-facher Echtzeit für large-v3 vs. whisper.cpps ~10-fache mit Metal.
from faster_whisper import WhisperModel
# Load model (downloads automatically on first run)
model = WhisperModel("large-v3", device="cuda", compute_type="int8")
# Transcribe
segments, info = model.transcribe("audio.wav", beam_size=5)
print(f"Detected language: {info.language} (probability: {info.language_probability:.2f})")
for segment in segments:
print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")Direktvergleich: Benchmark-Tabelle
Alle Benchmarks verwenden das large-v3-Modell, sofern nicht anders angegeben. Die Geschwindigkeit wird in Vielfachen der Echtzeit gemessen (z. B. 10× bedeutet: 60 Minuten Audio werden in 6 Minuten transkribiert). VRAM-Angaben für GPU-Läufe; RAM-Angaben für CPU-Läufe.
📍 In einem Satz
Auf Apple Silicon läuft whisper.cpp mit Metal large-v3 mit ~10-facher Echtzeit; auf NVIDIA-GPUs erreicht faster-whisper mit int8 ~12-fache Echtzeit – jedes Tool gewinnt klar auf seiner Zielplattform.
💬 In einfachen Worten
Auf dem Mac: whisper.cpp wählen (nutzt die Apple Neural Engine); auf Windows/Linux mit NVIDIA GPU: faster-whisper wählen (verarbeitet Audio 12× schneller als Echtzeit bei 40 % weniger GPU-Speicher).
| Metrik | whisper.cpp (large-v3) | faster-whisper (large-v3) |
|---|---|---|
| Plattform / Sprache | C/C++ (plattformübergreifend) | Python (CTranslate2) |
| GPU-Unterstützung | CUDA, Metal, Vulkan | Nur CUDA |
| CPU-Optimierung | AVX2, ARM NEON | int8-Quantisierung |
| Geschwindigkeit – RTX 4070, large-v3 | ~8-fache Echtzeit | ~12-fache Echtzeit ✓ |
| Geschwindigkeit – M5 Pro, large-v3 | ~10-fache Echtzeit (Metal) ✓ | ~3-fache Echtzeit (nur CPU) |
| Geschwindigkeit – nur CPU (x86), base | ~15-fache Echtzeit | ~20-fache Echtzeit ✓ |
| VRAM – large-v3, GPU | ~3 GB | ~2,5 GB (int8) ✓ |
| Python-Integration | Wrapper nötig (pywhispercpp) | Nativ ✓ |
| VAD (Stilles Audio erkennen) | Manuell (--step-Tuning) | Integriert (Silero VAD) ✓ |
| Echtzeit-Streaming | Ja (--stream-Flag) ✓ | Ja (VAD-Pipeline) |
| WER-Genauigkeit (large-v3) | 2,5 % (identisch) | 2,5 % (identisch) |
| Python-Abhängigkeit | Keine ✓ | Python 3.8+ |
| Raspberry Pi / Embedded | Ja – C-Binary ✓ | Eingeschränkt – Python-Overhead |
| Ausgabeformate | SRT, VTT, JSON, CSV, txt | Python-Objekte (start, end, text) |
whisper.cpp schreibt die Ausgabe direkt in gängige Untertitel- und Transkriptformate (SRT, VTT, JSON, CSV, txt) – ideal für Untertitel-Workflows. faster-whisper liefert einen Python-Generator von Segment-Objekten mit start-, end- und text-Attributen – ideal für LLM-Pipeline-Chaining. Für Untertitel-Generierung ist whisper.cpp einfacher; für Pipelines, die Segmente programmatisch verarbeiten, ist faster-whisper einfacher.
Echtzeit-Transkription einrichten
Echtzeit-Transkription verarbeitet Audio in Chunks, wie es vom Mikrofon ankommt, und erzeugt Text mit einer kurzen Verzögerung gegenüber der Sprache. Beide Tools unterstützen dies, jedoch mit unterschiedlichen Trade-offs.
- whisper.cpp Stream-Modus:
./stream -m models/ggml-small.bin --step 3000 --length 10000 -t 4ausführen. Verarbeitet 3-Sekunden-Audio-Chunks; ~0,5–1,5 Sekunden Verzögerung mit dem small-Modell. Kein Python erforderlich. - faster-whisper VAD-Pipeline:
vad_filter=Trueinmodel.transcribe()verwenden. Silero VAD segmentiert Audio automatisch an Stille-Grenzen – natürlichere Chunks als bei festen Zeitfenstern. - Praktische Latenz: 0,5–2 Sekunden hinter der Livesprache mit small- oder medium-Modellen. Tiny verwenden für geringste Latenz (< 0,5 Sekunden, aber höherer WER).
- Modellwahl für Echtzeit: small oder base ist der praktische Sweet Spot – schnell genug, um mit der Sprache mitzuhalten, genau genug für sauberes Audio. large-v3 nur für Echtzeit verwenden, wenn eine dedizierte GPU verfügbar ist.
- Mikrofon-Eingabe: whisper.cpp liest Rohaudiosignale über SDL2 oder portaudio. faster-whisper liest Audio-Arrays aus beliebigen Python-Audiobibliotheken (sounddevice, pyaudio, soundfile).
- Stabilität: whisper.cpp stream mode kann bei Stille wiederholte Tokens erzeugen. Mit
--suppress-blankund--no-speech-thresholdunterdrücken.
Apple Silicon: whisper.cpp gewinnt
Auf M1, M2, M3, M4 und M5 Macs ist whisper.cpp mit Core ML / Metal-Beschleunigung das richtige Tool – ohne Frage. faster-whisper hat keinen Metal-Support und läuft auf dem Mac nur über CPU mit rund 3-facher Echtzeit für large-v3. whisper.cpp mit Metal erreicht ~10-fache Echtzeit auf dem M5 Pro – ein 3-facher Geschwindigkeitsvorteil.
- Core ML-Export:
./models/generate-coreml-model.sh large-v3ausführen, um den Encoder ins Core ML-Format zu exportieren. Dies verlagert die Encoder-Inferenz auf die Apple Neural Engine. - M5 Pro-Benchmark (large-v3, Metal): ~10-fache Echtzeit. 60 Minuten Audio werden in ~6 Minuten transkribiert. Hinweis: Der M5 Pro wurde im März 2026 eingeführt – dies sind frühe Community-Benchmarks. Die Performance kann sich mit whisper.cpp-Updates verbessern, die für die M5 Neural Engine optimiert sind.
- M3 MacBook Air-Benchmark (large-v3, Metal): ~7-fache Echtzeit. 60 Minuten in ~8,5 Minuten.
- Arbeitsspeicher: Unified Memory bedeutet kein separater VRAM – ein 16 GB M5 Pro kann large-v3 (~3 GB) problemlos neben anderen Prozessen ausführen.
- faster-whisper auf Mac: Nur CPU, int8. Large-v3 mit ~3-facher Echtzeit. Für Batch-Transkription über Nacht nutzbar, aber nicht für Echtzeit oder zeitkritische Workflows.
- Empfehlung: whisper.cpp für alle Mac-STT-Aufgaben verwenden. pywhispercpp hinzufügen, wenn Python-Integration bei gleichzeitiger Metal-Beschleunigung benötigt wird.
NVIDIA GPU: faster-whisper gewinnt
Auf Windows und Linux mit NVIDIA-GPUs ist faster-whisper die überlegene Wahl. Der CTranslate2 CUDA-Backend ist besser optimiert als whisper.cpps CUDA-Pfad – ~12× vs. ~8-fache Echtzeit für large-v3 auf dem RTX 4070, bei geringerem VRAM-Verbrauch.
- RTX 4070 (12 GB)-Benchmark (large-v3 int8): ~12-fache Echtzeit, ~2,5 GB VRAM.
- RTX 3060 (12 GB)-Benchmark (large-v3 int8): ~8-fache Echtzeit, ~2,5 GB VRAM.
- RTX 4060 (8 GB)-Benchmark (large-v3 int8): ~7-fache Echtzeit, ~2,5 GB VRAM – passt problemlos.
- int8 vs. float16: int8 ist ~2× schneller und benötigt ~40 % weniger VRAM bei vernachlässigbarem Genauigkeitsverlust.
compute_type="int8"auf NVIDIA immer verwenden. - Batch-Verarbeitung: Der
batched=True-Parameter von faster-whisper ermöglicht die parallele Verarbeitung mehrerer Audiodateien und maximiert die GPU-Auslastung bei großen Transkriptionsjobs. - Python-Pipeline-Integration: faster-whisper fügt sich direkt in LangChain, Haystack und eigene Python-Pipelines ein. Kein Subprocess-Overhead im Vergleich zum Wrapping von whisper.cpp.
Wann welches Tool verwenden?
Eine direkte Zuordnung vom Anwendungsfall zum richtigen Tool:
📍 In einem Satz
whisper.cpp auf Apple Silicon und Embedded/plattformübergreifenden Targets verwenden; faster-whisper auf NVIDIA-GPUs und in Python-Pipelines.
💬 In einfachen Worten
Mit einem Mac: whisper.cpp wählen – es ist 3× schneller als faster-whisper auf Apple-Hardware. Mit einer NVIDIA GPU und Python: faster-whisper wählen – es ist schneller und benötigt 40 % weniger GPU-Speicher.
| Szenario | Empfehlung | Begründung |
|---|---|---|
| Apple Silicon Mac (beliebiges Modell) | whisper.cpp | Metal / Core ML-Beschleunigung – 3× schneller als faster-whisper (nur CPU auf Mac) |
| NVIDIA GPU-Server (Linux/Windows) | faster-whisper | CTranslate2 int8 – schneller und geringerer VRAM als whisper.cpp CUDA-Pfad |
| Python-Datenpipeline | faster-whisper | Native Python-API; kein Subprocess-Wrapper; VAD integriert |
| Raspberry Pi / Embedded Linux | whisper.cpp | Reines C-Binary; kein Python-Runtime-Overhead; ARM NEON-optimiert |
| Echtzeit-Sprachassistent | whisper.cpp | Stream-Modus mit niedrigem Overhead; funktioniert ohne Python auf Pi / Embedded |
| Batch-Transkription (großes Audio-Archiv) | faster-whisper | Batch-Inferenz, GPU-Auslastung, Python-Async-Integration |
| AMD GPU (Vulkan) | whisper.cpp | Vulkan-Backend-Unterstützung; faster-whisper ist CUDA-only |
| Nur-CPU Linux-Server | faster-whisper | int8-Quantisierung gibt ~30 % Geschwindigkeitsvorteil auf x86 CPU |
Über whisper.cpp und faster-whisper hinaus
Zwei weitere Tools erweitern Whisper um Funktionen, die weder whisper.cpp noch faster-whisper standardmäßig bieten: Sprecherdiarisierung und extrem schnelle Batch-GPU-Inferenz.
- WhisperX:** Basiert auf faster-whisper und fügt wortgenaue Zeitstempel sowie Sprecherdiarisierung hinzu – es wird identifiziert, welcher Sprecher was gesagt hat. Am besten für: Meeting-Transkription mit Sprecher-Labels, Podcast-Bearbeitung und Interview-Transkripte. Installation mit
pip install whisperxund Hugging-Face-Token für das Diarisierungsmodell. - insanely-fast-whisper:** Ein Hugging Face Transformers Pipeline-Wrapper mit Flash-Attention-2-Unterstützung für deutlich schnellere GPU-Inferenz als standard faster-whisper auf NVIDIA-Hardware. Am besten für: Batch-Verarbeitung großer Audio-Archive auf NVIDIA-GPUs. Erfordert eine Flash-Attention-2-kompatible GPU (Ampere oder neuer: RTX 3000+, A100, H100).
Häufige Probleme und Lösungen
Die häufigsten Setup- und Laufzeit-Probleme mit direkten Lösungen:
- CUDA-Versionskonflikt: faster-whisper erfordert CUDA 11.8 oder höher. Prüfen mit
nvcc --version. Bei älterer CUDA-Version: Treiber aktualisieren oder faster-whisper in einer conda-Umgebung mitcudatoolkit=11.8installieren. - Metal-Modell-Export schlägt fehl: Xcode Command Line Tools müssen installiert sein –
xcode-select --installausführen. Das Core ML-Exportskript erfordert das Python-Paketcoremltools:pip install coremltools. - Halluzination bei Stille: Beide Tools können bei stillen Audiosegmenten wiederholte Füll-Tokens erzeugen.
--no-speech-threshold 0.6im whisper.cpp Stream-Modus verwenden odervad_filter=Truein faster-whispersmodel.transcribe(), um stille Segmente automatisch zu überspringen. - Speichermangel bei large-v3: Auf int8-Quantisierung in faster-whisper wechseln (
compute_type="int8") – reduziert VRAM von ~5 GB (float16) auf ~2,5 GB. Bei whisper.cpp: quantisierte GGML-Variante verwenden (z. B.ggml-large-v3-q5_0.bin), was den Speicher auf ~3–4 GB reduziert. - Unleserliche Ausgabe bei nicht-englischen Aufnahmen: Keine
.en-Modellvarianten (tiny.en, base.en) für nicht-englische Sprache verwenden – diese sind English-only. Mehrsprachige Modelle (base, small, medium, large-v3) verwenden und die Sprache explizit angeben:-l dein whisper.cpp oderlanguage="de"in faster-whisper. - Langsame CPU-Inferenz: Sicherstellen, dass die CPU AVX2-Instruktionen unterstützt (für optimierte CPU-Inferenz erforderlich). Prüfen mit
grep avx2 /proc/cpuinfounter Linux odersysctl machdep.cpu.featuresauf Mac. CPUs ohne AVX2 greifen auf generisches SIMD zurück und sind 2–3× langsamer.
Häufig gestellte Fragen
Ist die Transkriptionsgenauigkeit bei whisper.cpp und faster-whisper gleich?
Ja. Beide Tools verwenden dieselben OpenAI-Whisper-Modellgewichte – das Modell selbst ist identisch. Der Unterschied liegt ausschließlich in der Inferenz-Laufzeit (C/C++ vs. CTranslate2 Python). Der WER auf derselben Audiodatei liegt innerhalb von 0,1 % absolut voneinander – das liegt im Rahmen der normalen Variation durch Beam-Search-Zufälligkeit.
Kann ich faster-whisper auf einem Mac mit Apple Silicon verwenden?
Ja, aber es läuft nur über CPU – faster-whisper hat keinen Metal-Support. Auf einem M5 Pro läuft faster-whisper large-v3 mit ~3-facher Echtzeit (CPU int8), verglichen mit whisper.cpps ~10-facher Echtzeit mit Metal. Für die meisten Mac-Nutzer ist whisper.cpp 3× schneller für dasselbe Modell. Der einzige Grund, faster-whisper auf dem Mac zu verwenden, ist, wenn eine Python-Pipeline bereits davon abhängt und Geschwindigkeit keine kritische Rolle spielt.
Welche Whisper-Modellgröße sollte ich für einen Sprachassistenten verwenden?
Für Echtzeit-Sprachinterfaces ist Whisper small die Standardempfehlung – 3,4 % WER auf sauberem Englisch, ~200 ms STT-Latenz auf einer modernen CPU oder GPU und passt in 2 GB RAM. tiny verwenden bei sehr eingeschränkter Hardware (Raspberry Pi Zero 2W, ältere Smartphones) und wenn ~7,6 % WER akzeptabel sind. medium oder large-v3 nur für Batch-Transkription verwenden, bei der Latenz keine Rolle spielt.
Unterstützt whisper.cpp andere Sprachen als Englisch?
Ja. Alle mehrsprachigen Whisper-Modelle (base, small, medium, large-v3) unterstützen 99 Sprachen. `-l [Sprachcode] in der CLI hinzufügen: -l de für Deutsch, -l fr für Französisch, -l ja` für Japanisch usw. Die Modelle tiny.en und base.en sind English-only und etwas genauer für Englisch als ihre mehrsprachigen Äquivalente.
Wie installiere ich faster-whisper mit CUDA-Unterstützung?
Installation mit pip install faster-whisper. CUDA-Unterstützung erfordert CUDA 11.8 oder höher und cuDNN 8.x auf dem System. CUDA-Version prüfen mit nvcc --version. Dann device="cuda" beim Laden des Modells angeben: WhisperModel("large-v3", device="cuda", compute_type="int8"). Wird CUDA nicht erkannt, wechselt faster-whisper automatisch zur CPU.
Welches ist genauer – whisper.cpp oder faster-whisper?
Identisch. Beide Tools verwenden dieselben OpenAI-Whisper-Modellgewichte und erzeugen denselben WER für dieselbe Audiodatei. Der Unterschied zwischen whisper.cpp und faster-whisper liegt in Geschwindigkeit und Plattformunterstützung, nicht in der Transkriptionsgenauigkeit. Jede WER-Differenz zwischen Läufen liegt im Rahmen normaler Beam-Search-Variation, nicht an der Laufzeit.
Kann ich Whisper large-v3 mit 8 GB RAM betreiben?
Ja auf der GPU – large-v3 int8 in faster-whisper benötigt ~2,5 GB VRAM und läuft auf jeder 8-GB-GPU. Auf reiner CPU-Hardware sind 8 GB RAM für large-v3 knapp (float32 benötigt ~10 GB). medium (5 GB RAM) oder small (2 GB RAM) auf Nur-CPU-Systemen verwenden. whisper.cpp ist auf der CPU speichereffizienter als faster-whisper durch geringeren Laufzeit-Overhead.
Was kostet lokales Whisper im Vergleich zu Cloud-STT?
Null laufende Kosten. Cloud-STT-Dienste berechnen ca. 0,005–0,022 €/Min. – ein Entwickler, der 8 Stunden Meetings pro Woche transkribiert, zahlt ca. 110–440 €/Monat. Lokales Whisper läuft auf bereits vorhandener Hardware, ohne minutenbasierte Gebühren, ohne API-Schlüsselverwaltung und ohne dass Audiodaten das eigene Gerät verlassen.
Ist lokale Whisper-Transkription DSGVO-konform?
Ja – für personenbezogene Audiodaten (Kundengespräche, Arzt-Patient-Dialoge, Mitarbeitermeetings) ist lokale Transkription mit whisper.cpp oder faster-whisper die datenschutzkonforme Lösung. Da die Audiodaten das eigene Gerät nie verlassen und keine Übertragung an externe Dienstleister stattfindet, entfällt die Pflicht zum Abschluss eines Auftragsverarbeitungsvertrags (AVV) nach DSGVO Art. 28. Das BSI empfiehlt für sicherheitskritische Anwendungen lokale Verarbeitung gegenüber Cloud-Diensten, da keine Datenübermittlung an Dritte erfolgt.
Ist Whisper für den deutschen Mittelstand geeignet?
Ja – insbesondere für Branchen mit hohen Datenschutzanforderungen wie Anwaltskanzleien, Arztpraxen, Steuerberater und Unternehmensberatungen. Der Einsatz von whisper.cpp oder faster-whisper ermöglicht DSGVO-konforme Protokollierung von Kundengesprächen und Besprechungen ohne Cloud-Abhängigkeit. Kein laufendes Abonnement, keine API-Kosten, volle Kontrolle über die Audiodaten. Für den Einstieg empfiehlt sich Whisper small (3,4 % WER, 2 GB RAM) oder medium (2,9 % WER, 5 GB RAM) – beide laufen auf handelsüblicher Hardware ohne NVIDIA-GPU.
Quellen
- whisper.cpp auf GitHub — Quellcode, Build-Anleitungen, Modell-Download-Skripte und Metal/Core ML-Setup-Guide.
- faster-whisper auf GitHub — Quellcode, Python-API-Dokumentation und Benchmark-Ergebnisse.
- distil-whisper/distil-large-v3 auf Hugging Face — Modellkarte, Benchmark-Ergebnisse und Nutzungshinweise für die destillierte Whisper-Variante.
- WhisperX auf GitHub — Wortgenaue Zeitstempel und Sprecherdiarisierung basierend auf faster-whisper.
- insanely-fast-whisper auf GitHub — Flash-Attention-2 Whisper-Pipeline für maximalen NVIDIA-GPU-Durchsatz.
- OpenAI Whisper auf GitHub — Originales Whisper-Modell, Paper und Modellkarten für alle Größen.
- OpenAI Whisper Paper (Radford et al., 2022) — „Robust Speech Recognition via Large-Scale Weak Supervision." Quelle der WER-Werte.
- CTranslate2-Dokumentation — Quantisierungsdetails, Hardware-Unterstützung und int8-Optimierungsgrundlagen.