PromptQuorumPromptQuorum
Startseite/Power Local LLM/Whisper.cpp vs faster-whisper 2026: Lokale STT-Benchmarks, Setup & GPU-Beschleunigung
Voice, Speech & Multimodal

Whisper.cpp vs faster-whisper 2026: Lokale STT-Benchmarks, Setup & GPU-Beschleunigung

·10 Min. Lesezeit·Von Hans Kuepper · Gründer von PromptQuorum, Multi-Model-AI-Dispatch-Tool · PromptQuorum

whisper.cpp vs faster-whisper – die zwei dominanten lokalen Whisper-Runtimes – gewinnen jeweils deutlich auf ihrer Zielplattform. Für Apple Silicon (M-Series Macs) ist whisper.cpp mit Metal-Beschleunigung die schnellste lokale STT-Option im Jahr 2026 – large-v3 läuft auf einem M5 Pro mit ~10-facher Echtzeit. Für NVIDIA-GPU-Server und Python-Pipelines ist faster-whisper mit CTranslate2 int8-Quantisierung die bessere Wahl und erreicht auf einem RTX 4070 ~12-fache Echtzeit bei nur 2,5 GB VRAM für das large-v3-Modell. Beide Tools verwenden dieselben zugrunde liegenden Whisper-Modelle von OpenAI (tiny bis large-v3); der Unterschied liegt in der Laufzeit-Optimierung und im Integrationspfad. Auf reiner CPU-Hardware sind beide für die Modelle tiny und base nutzbar – faster-whisper hat einen leichten Vorsprung (~20-fache Echtzeit vs. ~15-fache) auf der CPU über int8.

whisper.cpp und faster-whisper sind die zwei dominanten Implementierungen von OpenAIs Whisper-Spracherkennungsmodell für lokale, offline Transkription im Jahr 2026. Dieser whisper.cpp vs faster-whisper Vergleich zeigt, welches Tool auf welcher Hardware gewinnt. whisper.cpp ist ein reiner C/C++-Port, der auf Apple Metal, CUDA, Vulkan und CPU läuft – ideal für Apple Silicon, Embedded-Systeme und Echtzeit-Sprachanwendungen. faster-whisper ist eine Python-Bibliothek auf Basis von CTranslate2, die durch int8-Quantisierung rund 4-fachen Durchsatz des ursprünglichen Whisper auf NVIDIA-GPUs erreicht. Dieser Leitfaden behandelt Installation, Performance-Benchmarks, Echtzeit-Transkriptions-Setup und einen direkten Plattformvergleich.

Wichtigste Erkenntnisse

  • whisper.cpp ist die beste lokale STT-Wahl für Apple Silicon. Der C/C++-Port nutzt Core ML und Apple Metal für Hardware-Beschleunigung – large-v3 mit ~10-facher Echtzeit auf dem M5 Pro, ohne Python-Abhängigkeit.
  • faster-whisper ist die beste lokale STT-Wahl für NVIDIA-GPUs und Python-Pipelines. Die CTranslate2 int8-Quantisierung reduziert den VRAM-Bedarf um ~40 % und steigert den Durchsatz um ~4× gegenüber der ursprünglichen OpenAI-Implementierung – large-v3 mit ~12-facher Echtzeit auf dem RTX 4070 bei nur ~2,5 GB VRAM.
  • Beide Tools verwenden identische Whisper-Modellgewichte von OpenAI. Der WER (Wortfehlerrate) ist bei beiden gleich – der Unterschied liegt ausschließlich in der Laufzeit-Performance und im Integrationspfad, nicht in der Transkriptionsgenauigkeit.
  • Whisper large-v3 bietet die beste Genauigkeit mit 2,5 % WER auf Englisch. Für die meisten Produktivszenarien bietet Whisper small (3,4 % WER, 2 GB RAM) oder medium (2,9 % WER, 5 GB RAM) ein besseres Geschwindigkeit-Genauigkeits-Verhältnis.
  • Echtzeit-Transkription ist mit beiden Tools erreichbar – whisper.cpp über den --stream-Flag, faster-whisper über seine integrierte VAD-Pipeline (Sprachaktivitätserkennung). Die praktische Latenz liegt je nach Modellgröße bei 0,5–2 Sekunden hinter der Livesprache.
  • whisper.cpp läuft auf CPU, Metal, CUDA und Vulkan – und ist damit die einzige Wahl für plattformübergreifende Embedded-Nutzung (Raspberry Pi, Windows GPU-Setups, ARM-Server). faster-whisper unterstützt nur CPU und CUDA (kein Metal auf Mac).
  • Für Raspberry Pi und Embedded Linux ist whisper.cpp tiny/base auf der CPU die praktische Obergrenze – tiny mit ~15-facher Echtzeit auf Pi 5, base mit ~6-facher Echtzeit. Beide passen in 1 GB RAM.

Auf einen Blick

  • Beide Tools: Basieren auf OpenAIs quelloffenem Whisper-Modell (MIT-Lizenz). Gleiche Genauigkeit – unterschiedliche Laufzeiten.
  • whisper.cpp: In C/C++ von Georgi Gerganov entwickelt. Unterstützt CPU (AVX2/NEON), CUDA, Metal (Apple), Vulkan. Kein Python erforderlich.
  • faster-whisper: Python-Bibliothek auf Basis von CTranslate2. Unterstützt CPU (int8) und CUDA. Kein Apple Metal-Support.
  • Whisper-Modellgrößen: tiny (39M), base (74M), small (244M), medium (769M), large-v3 (1,55B). Alle im GGML- / CTranslate2-Format.
  • Bestes Modell für die meisten Anwendungsfälle: Whisper small – 3,4 % WER, läuft in 2 GB RAM, 6-fache Echtzeit auf modernem CPU.
  • RTX 4070-Benchmark (large-v3): faster-whisper ~12-fache Echtzeit; whisper.cpp CUDA ~8-fache Echtzeit. faster-whisper gewinnt auf NVIDIA.
  • M5 Pro-Benchmark (large-v3): whisper.cpp Metal ~10-fache Echtzeit; faster-whisper nur-CPU ~3-fache Echtzeit. whisper.cpp gewinnt auf Apple.

Warum lokale Spracherkennung?

Cloud-STT-Dienste (Google Speech-to-Text, AWS Transcribe, Azure Speech) berechnen Gebühren pro Audiominute – typischerweise ca. 0,005–0,022 €/Min. – und senden Audiodaten an externe Server. Für datenschutzsensible Anwendungen (medizinische Diktierlösungen, Rechtsaufzeichnungen, Journalisteninterviews, Unternehmensmeetings) eliminiert lokale Transkription das Datenschutzrisiko vollständig.

  • Datenschutz: Audio verlässt niemals Ihr Gerät. Kein Auftragsverarbeitungsvertrag nach DSGVO Art. 28 erforderlich – die Verarbeitung erfolgt lokal.
  • Kosten: Keine minutenbasierten Gebühren. Ein Entwickler, der 8 Stunden Meetings pro Woche transkribiert, spart ca. 110–440 €/Monat gegenüber Cloud-STT-Preisen.
  • Offline: Funktioniert im Flugzeug, in Sicherheitsbereichen, in Gebieten ohne stabiles Internet. Kein API-Schlüsselmanagement.
  • Latenz: Kein Upload/Download-Roundtrip. Für Echtzeit-Sprachinterfaces reduziert lokale Verarbeitung die STT-Latenz von 300–800 ms (Cloud) auf 50–300 ms.
  • Anpassbarkeit: Feinabstimmung auf domänenspezifisches Vokabular. Beliebige Modellgröße, die zur Hardware passt.

Whisper-Modellgrößen – Grundlage beider Tools

Sowohl whisper.cpp als auch faster-whisper verwenden dieselben Whisper-Modellgewichte, konvertiert in das jeweilige Format (GGML für whisper.cpp, CTranslate2 für faster-whisper). Wählen Sie die Modellgröße anhand Ihres VRAM/RAM-Budgets und Ihrer Genauigkeitsanforderungen.

ModellParameterVRAM / RAMEnglisch WERGeschwindigkeitsfaktor (ggü. Echtzeit, RTX 4070)
tiny39M~1 GB7,6 %~32×
base74M~1 GB5,0 %~16×
small244M~2 GB3,4 %~6×
medium769M~5 GB2,9 %~2×
large-v31,55B~10 GB2,5 %1× (Referenz)
distil-large-v3~756M~4 GB~2,6 %~6×

WER-Werte (Wortfehlerrate) aus dem Whisper-Paper auf dem LibriSpeech Clean Test Set. Niedrigerer Wert ist besser. Geschwindigkeitsfaktoren für faster-whisper int8 auf RTX 4070. distil-large-v3-Werte aus dem Distil-Whisper-Paper.

Distil-Whisper: Die schnellere Alternative

distil-whisper/distil-large-v3 ist eine destillierte Variante von large-v3 mit ~50 % weniger Parametern, die ~6× schneller läuft und dabei den WER nur um ~1 % erhöht.** Es ist die richtige Wahl, wenn Transkriptionsgeschwindigkeit wichtiger ist als das letzte Stück Genauigkeit. distil-large-v3 funktioniert sowohl mit faster-whisper (native CTranslate2-Unterstützung) als auch mit whisper.cpp (über GGML-Format-Konvertierung).

  • Parameter: ~756M – etwa halb so viele wie large-v3s 1,55B; passt in ~4 GB VRAM statt ~10 GB.
  • Geschwindigkeit: ~6-fache Echtzeit auf RTX 4070 (vs. 1× Referenz für large-v3) – vergleichbar mit medium in der Geschwindigkeit, bei large-v3-naher Genauigkeit.
  • WER: ~2,6 % auf Englisch – nur ~0,1 % höher als large-v3s 2,5 %. In der Praxis kaum hörbarer Unterschied bei typischer Sprachqualität.
  • Kompatibilität: Funktioniert mit faster-whisper nativ (WhisperModel("distil-large-v3", device="cuda", compute_type="int8")). Für whisper.cpp: Konvertierung ins GGML-Format mit dem distil-whisper GGML-Konvertierungsskript.
  • Am besten geeignet für: Batch-Transkriptionsjobs, Server-Deployments mit begrenztem VRAM und alle Anwendungsfälle, bei denen large-v3-Qualität bei medium-Modell-Geschwindigkeit benötigt wird.
  • Nicht geeignet für: Mehrsprachige Transkription – distil-large-v3 ist ausschließlich für Englisch optimiert. Für andere Sprachen: large-v3 oder medium verwenden.

whisper.cpp – Der C/C++-Port

whisper.cpp (von Georgi Gerganov) ist eine reine C/C++-Neuimplementierung von OpenAIs Whisper-Modell, optimiert für ressourcenarme und plattformübergreifende Inferenz. Kein Python, kein CUDA-Toolkit erforderlich – läuft auf nahezu jeder Hardware, vom Raspberry Pi bis zum Apple M5 Pro und Windows CUDA-Setups.

  • Plattformunterstützung: CPU (AVX2, AVX512, ARM NEON), Apple Metal (Core ML), CUDA (NVIDIA), Vulkan (AMD/Intel GPU), OpenCL.
  • Apple-Silicon-Vorteil: whisper.cpp exportiert Modelle ins Core ML-Format und ermöglicht damit Inferenz auf der Apple Neural Engine. Large-v3 läuft mit ~10-facher Echtzeit auf dem M5 Pro über Metal – schneller als jeder Cloud-Roundtrip.
  • Installation: Repository klonen, make (oder cmake) ausführen. Vorgefertigte Binaries für gängige Plattformen verfügbar. Keine Python-Abhängigkeit.
  • Modell-Download: bash ./models/download-ggml-model.sh base.en – lädt die GGML-Modelldatei herunter (~142 MB für base).
  • CLI-Beispiel: ./main -m models/ggml-base.bin -f audio.wav – transkribiert eine WAV-Datei nach stdout. -l de für Deutsch hinzufügen.
  • Echtzeit-Stream-Modus: ./stream -m models/ggml-base.bin --step 3000 --length 10000 – transkribiert in 3-Sekunden-Chunks vom Mikrofon.
  • Python-Wrapper: pywhispercpp bietet eine Python-Anbindung für whisper.cpp und ermöglicht die Nutzung in Python-Pipelines ohne Verlust der Metal-Beschleunigung.
  • Einschränkung: Kein nativer VAD (Sprachaktivitätserkennung). Der Stream-Modus erfordert die Feinabstimmung der Parameter --step und --length für den jeweiligen Anwendungsfall.
bash
# Build from source (macOS / Linux)
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make -j4

# Download a model
bash ./models/download-ggml-model.sh large-v3

# Transcribe a file
./main -m models/ggml-large-v3.bin -f recording.wav

# Enable Metal on Apple Silicon (Core ML)
make -j4 WHISPER_COREML=1
./main -m models/ggml-large-v3-encoder.mlmodelc -f recording.wav

faster-whisper – Der CTranslate2-Port

faster-whisper (von SYSTRAN) ist eine Python-Bibliothek, die Whisper-Inferenz mit CTranslate2 – einer hochoptimierten C++-Inferenz-Engine mit int8-Quantisierungsunterstützung – neu implementiert und dadurch VRAM-Bedarf reduziert und Durchsatz erhöht. Auf NVIDIA-GPUs ist faster-whisper die schnellste verfügbare lokale Whisper-Implementierung.

  • Plattformunterstützung: CPU (int8-Quantisierung) und NVIDIA CUDA GPU. Kein Apple Metal-Support – läuft auf Mac nur über CPU.
  • int8-Vorteil: CTranslate2 int8-Quantisierung reduziert den VRAM-Bedarf um ~40 % und erhöht die Inferenzgeschwindigkeit um ~2× gegenüber float16 bei vernachlässigbarer WER-Auswirkung (< 0,1 % absolut).
  • Installation: pip install faster-whisper – keine Kompilierung erforderlich. CUDA-Unterstützung erfordert CUDA 11.8+ und cuDNN 8.x.
  • Integrierter VAD: faster-whisper enthält Silero VAD-Integration, die stille Audiosegmente automatisch überspringt – entscheidend für Echtzeit-Transkriptions-Pipelines.
  • Python-nativ: Die direkte Python-API macht es trivial, faster-whisper mit LLMs, Audio-Verarbeitungsbibliotheken und Web-Frameworks zu verbinden.
  • Geschwindigkeit: large-v3 int8 auf RTX 4070 mit ~12-facher Echtzeit und ~2,5 GB VRAM. CPU int8 erreicht ~20-fache Echtzeit für das tiny-Modell.
  • Batch-Verarbeitung: faster-whisper unterstützt Batch-Inferenz für die effiziente Verarbeitung großer Audio-Archive.
  • Einschränkung: Kein Metal-Support auf Mac – läuft auf Apple Silicon nur über CPU mit ~3-facher Echtzeit für large-v3 vs. whisper.cpps ~10-fache mit Metal.
python
from faster_whisper import WhisperModel

# Load model (downloads automatically on first run)
model = WhisperModel("large-v3", device="cuda", compute_type="int8")

# Transcribe
segments, info = model.transcribe("audio.wav", beam_size=5)

print(f"Detected language: {info.language} (probability: {info.language_probability:.2f})")
for segment in segments:
    print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")

Direktvergleich: Benchmark-Tabelle

Alle Benchmarks verwenden das large-v3-Modell, sofern nicht anders angegeben. Die Geschwindigkeit wird in Vielfachen der Echtzeit gemessen (z. B. 10× bedeutet: 60 Minuten Audio werden in 6 Minuten transkribiert). VRAM-Angaben für GPU-Läufe; RAM-Angaben für CPU-Läufe.

📍 In einem Satz

Auf Apple Silicon läuft whisper.cpp mit Metal large-v3 mit ~10-facher Echtzeit; auf NVIDIA-GPUs erreicht faster-whisper mit int8 ~12-fache Echtzeit – jedes Tool gewinnt klar auf seiner Zielplattform.

💬 In einfachen Worten

Auf dem Mac: whisper.cpp wählen (nutzt die Apple Neural Engine); auf Windows/Linux mit NVIDIA GPU: faster-whisper wählen (verarbeitet Audio 12× schneller als Echtzeit bei 40 % weniger GPU-Speicher).

Metrikwhisper.cpp (large-v3)faster-whisper (large-v3)
Plattform / SpracheC/C++ (plattformübergreifend)Python (CTranslate2)
GPU-UnterstützungCUDA, Metal, VulkanNur CUDA
CPU-OptimierungAVX2, ARM NEONint8-Quantisierung
Geschwindigkeit – RTX 4070, large-v3~8-fache Echtzeit~12-fache Echtzeit ✓
Geschwindigkeit – M5 Pro, large-v3~10-fache Echtzeit (Metal) ✓~3-fache Echtzeit (nur CPU)
Geschwindigkeit – nur CPU (x86), base~15-fache Echtzeit~20-fache Echtzeit ✓
VRAM – large-v3, GPU~3 GB~2,5 GB (int8) ✓
Python-IntegrationWrapper nötig (pywhispercpp)Nativ ✓
VAD (Stilles Audio erkennen)Manuell (--step-Tuning)Integriert (Silero VAD) ✓
Echtzeit-StreamingJa (--stream-Flag) ✓Ja (VAD-Pipeline)
WER-Genauigkeit (large-v3)2,5 % (identisch)2,5 % (identisch)
Python-AbhängigkeitKeine ✓Python 3.8+
Raspberry Pi / EmbeddedJa – C-Binary ✓Eingeschränkt – Python-Overhead
AusgabeformateSRT, VTT, JSON, CSV, txtPython-Objekte (start, end, text)

whisper.cpp schreibt die Ausgabe direkt in gängige Untertitel- und Transkriptformate (SRT, VTT, JSON, CSV, txt) – ideal für Untertitel-Workflows. faster-whisper liefert einen Python-Generator von Segment-Objekten mit start-, end- und text-Attributen – ideal für LLM-Pipeline-Chaining. Für Untertitel-Generierung ist whisper.cpp einfacher; für Pipelines, die Segmente programmatisch verarbeiten, ist faster-whisper einfacher.

Echtzeit-Transkription einrichten

Echtzeit-Transkription verarbeitet Audio in Chunks, wie es vom Mikrofon ankommt, und erzeugt Text mit einer kurzen Verzögerung gegenüber der Sprache. Beide Tools unterstützen dies, jedoch mit unterschiedlichen Trade-offs.

  • whisper.cpp Stream-Modus: ./stream -m models/ggml-small.bin --step 3000 --length 10000 -t 4 ausführen. Verarbeitet 3-Sekunden-Audio-Chunks; ~0,5–1,5 Sekunden Verzögerung mit dem small-Modell. Kein Python erforderlich.
  • faster-whisper VAD-Pipeline: vad_filter=True in model.transcribe() verwenden. Silero VAD segmentiert Audio automatisch an Stille-Grenzen – natürlichere Chunks als bei festen Zeitfenstern.
  • Praktische Latenz: 0,5–2 Sekunden hinter der Livesprache mit small- oder medium-Modellen. Tiny verwenden für geringste Latenz (< 0,5 Sekunden, aber höherer WER).
  • Modellwahl für Echtzeit: small oder base ist der praktische Sweet Spot – schnell genug, um mit der Sprache mitzuhalten, genau genug für sauberes Audio. large-v3 nur für Echtzeit verwenden, wenn eine dedizierte GPU verfügbar ist.
  • Mikrofon-Eingabe: whisper.cpp liest Rohaudiosignale über SDL2 oder portaudio. faster-whisper liest Audio-Arrays aus beliebigen Python-Audiobibliotheken (sounddevice, pyaudio, soundfile).
  • Stabilität: whisper.cpp stream mode kann bei Stille wiederholte Tokens erzeugen. Mit --suppress-blank und --no-speech-threshold unterdrücken.

Apple Silicon: whisper.cpp gewinnt

Auf M1, M2, M3, M4 und M5 Macs ist whisper.cpp mit Core ML / Metal-Beschleunigung das richtige Tool – ohne Frage. faster-whisper hat keinen Metal-Support und läuft auf dem Mac nur über CPU mit rund 3-facher Echtzeit für large-v3. whisper.cpp mit Metal erreicht ~10-fache Echtzeit auf dem M5 Pro – ein 3-facher Geschwindigkeitsvorteil.

  • Core ML-Export: ./models/generate-coreml-model.sh large-v3 ausführen, um den Encoder ins Core ML-Format zu exportieren. Dies verlagert die Encoder-Inferenz auf die Apple Neural Engine.
  • M5 Pro-Benchmark (large-v3, Metal): ~10-fache Echtzeit. 60 Minuten Audio werden in ~6 Minuten transkribiert. Hinweis: Der M5 Pro wurde im März 2026 eingeführt – dies sind frühe Community-Benchmarks. Die Performance kann sich mit whisper.cpp-Updates verbessern, die für die M5 Neural Engine optimiert sind.
  • M3 MacBook Air-Benchmark (large-v3, Metal): ~7-fache Echtzeit. 60 Minuten in ~8,5 Minuten.
  • Arbeitsspeicher: Unified Memory bedeutet kein separater VRAM – ein 16 GB M5 Pro kann large-v3 (~3 GB) problemlos neben anderen Prozessen ausführen.
  • faster-whisper auf Mac: Nur CPU, int8. Large-v3 mit ~3-facher Echtzeit. Für Batch-Transkription über Nacht nutzbar, aber nicht für Echtzeit oder zeitkritische Workflows.
  • Empfehlung: whisper.cpp für alle Mac-STT-Aufgaben verwenden. pywhispercpp hinzufügen, wenn Python-Integration bei gleichzeitiger Metal-Beschleunigung benötigt wird.

NVIDIA GPU: faster-whisper gewinnt

Auf Windows und Linux mit NVIDIA-GPUs ist faster-whisper die überlegene Wahl. Der CTranslate2 CUDA-Backend ist besser optimiert als whisper.cpps CUDA-Pfad – ~12× vs. ~8-fache Echtzeit für large-v3 auf dem RTX 4070, bei geringerem VRAM-Verbrauch.

  • RTX 4070 (12 GB)-Benchmark (large-v3 int8): ~12-fache Echtzeit, ~2,5 GB VRAM.
  • RTX 3060 (12 GB)-Benchmark (large-v3 int8): ~8-fache Echtzeit, ~2,5 GB VRAM.
  • RTX 4060 (8 GB)-Benchmark (large-v3 int8): ~7-fache Echtzeit, ~2,5 GB VRAM – passt problemlos.
  • int8 vs. float16: int8 ist ~2× schneller und benötigt ~40 % weniger VRAM bei vernachlässigbarem Genauigkeitsverlust. compute_type="int8" auf NVIDIA immer verwenden.
  • Batch-Verarbeitung: Der batched=True-Parameter von faster-whisper ermöglicht die parallele Verarbeitung mehrerer Audiodateien und maximiert die GPU-Auslastung bei großen Transkriptionsjobs.
  • Python-Pipeline-Integration: faster-whisper fügt sich direkt in LangChain, Haystack und eigene Python-Pipelines ein. Kein Subprocess-Overhead im Vergleich zum Wrapping von whisper.cpp.

Wann welches Tool verwenden?

Eine direkte Zuordnung vom Anwendungsfall zum richtigen Tool:

📍 In einem Satz

whisper.cpp auf Apple Silicon und Embedded/plattformübergreifenden Targets verwenden; faster-whisper auf NVIDIA-GPUs und in Python-Pipelines.

💬 In einfachen Worten

Mit einem Mac: whisper.cpp wählen – es ist 3× schneller als faster-whisper auf Apple-Hardware. Mit einer NVIDIA GPU und Python: faster-whisper wählen – es ist schneller und benötigt 40 % weniger GPU-Speicher.

SzenarioEmpfehlungBegründung
Apple Silicon Mac (beliebiges Modell)whisper.cppMetal / Core ML-Beschleunigung – 3× schneller als faster-whisper (nur CPU auf Mac)
NVIDIA GPU-Server (Linux/Windows)faster-whisperCTranslate2 int8 – schneller und geringerer VRAM als whisper.cpp CUDA-Pfad
Python-Datenpipelinefaster-whisperNative Python-API; kein Subprocess-Wrapper; VAD integriert
Raspberry Pi / Embedded Linuxwhisper.cppReines C-Binary; kein Python-Runtime-Overhead; ARM NEON-optimiert
Echtzeit-Sprachassistentwhisper.cppStream-Modus mit niedrigem Overhead; funktioniert ohne Python auf Pi / Embedded
Batch-Transkription (großes Audio-Archiv)faster-whisperBatch-Inferenz, GPU-Auslastung, Python-Async-Integration
AMD GPU (Vulkan)whisper.cppVulkan-Backend-Unterstützung; faster-whisper ist CUDA-only
Nur-CPU Linux-Serverfaster-whisperint8-Quantisierung gibt ~30 % Geschwindigkeitsvorteil auf x86 CPU

Über whisper.cpp und faster-whisper hinaus

Zwei weitere Tools erweitern Whisper um Funktionen, die weder whisper.cpp noch faster-whisper standardmäßig bieten: Sprecherdiarisierung und extrem schnelle Batch-GPU-Inferenz.

  • WhisperX:** Basiert auf faster-whisper und fügt wortgenaue Zeitstempel sowie Sprecherdiarisierung hinzu – es wird identifiziert, welcher Sprecher was gesagt hat. Am besten für: Meeting-Transkription mit Sprecher-Labels, Podcast-Bearbeitung und Interview-Transkripte. Installation mit pip install whisperx und Hugging-Face-Token für das Diarisierungsmodell.
  • insanely-fast-whisper:** Ein Hugging Face Transformers Pipeline-Wrapper mit Flash-Attention-2-Unterstützung für deutlich schnellere GPU-Inferenz als standard faster-whisper auf NVIDIA-Hardware. Am besten für: Batch-Verarbeitung großer Audio-Archive auf NVIDIA-GPUs. Erfordert eine Flash-Attention-2-kompatible GPU (Ampere oder neuer: RTX 3000+, A100, H100).

Häufige Probleme und Lösungen

Die häufigsten Setup- und Laufzeit-Probleme mit direkten Lösungen:

  • CUDA-Versionskonflikt: faster-whisper erfordert CUDA 11.8 oder höher. Prüfen mit nvcc --version. Bei älterer CUDA-Version: Treiber aktualisieren oder faster-whisper in einer conda-Umgebung mit cudatoolkit=11.8 installieren.
  • Metal-Modell-Export schlägt fehl: Xcode Command Line Tools müssen installiert sein – xcode-select --install ausführen. Das Core ML-Exportskript erfordert das Python-Paket coremltools: pip install coremltools.
  • Halluzination bei Stille: Beide Tools können bei stillen Audiosegmenten wiederholte Füll-Tokens erzeugen. --no-speech-threshold 0.6 im whisper.cpp Stream-Modus verwenden oder vad_filter=True in faster-whispers model.transcribe(), um stille Segmente automatisch zu überspringen.
  • Speichermangel bei large-v3: Auf int8-Quantisierung in faster-whisper wechseln (compute_type="int8") – reduziert VRAM von ~5 GB (float16) auf ~2,5 GB. Bei whisper.cpp: quantisierte GGML-Variante verwenden (z. B. ggml-large-v3-q5_0.bin), was den Speicher auf ~3–4 GB reduziert.
  • Unleserliche Ausgabe bei nicht-englischen Aufnahmen: Keine .en-Modellvarianten (tiny.en, base.en) für nicht-englische Sprache verwenden – diese sind English-only. Mehrsprachige Modelle (base, small, medium, large-v3) verwenden und die Sprache explizit angeben: -l de in whisper.cpp oder language="de" in faster-whisper.
  • Langsame CPU-Inferenz: Sicherstellen, dass die CPU AVX2-Instruktionen unterstützt (für optimierte CPU-Inferenz erforderlich). Prüfen mit grep avx2 /proc/cpuinfo unter Linux oder sysctl machdep.cpu.features auf Mac. CPUs ohne AVX2 greifen auf generisches SIMD zurück und sind 2–3× langsamer.

Häufig gestellte Fragen

Ist die Transkriptionsgenauigkeit bei whisper.cpp und faster-whisper gleich?

Ja. Beide Tools verwenden dieselben OpenAI-Whisper-Modellgewichte – das Modell selbst ist identisch. Der Unterschied liegt ausschließlich in der Inferenz-Laufzeit (C/C++ vs. CTranslate2 Python). Der WER auf derselben Audiodatei liegt innerhalb von 0,1 % absolut voneinander – das liegt im Rahmen der normalen Variation durch Beam-Search-Zufälligkeit.

Kann ich faster-whisper auf einem Mac mit Apple Silicon verwenden?

Ja, aber es läuft nur über CPU – faster-whisper hat keinen Metal-Support. Auf einem M5 Pro läuft faster-whisper large-v3 mit ~3-facher Echtzeit (CPU int8), verglichen mit whisper.cpps ~10-facher Echtzeit mit Metal. Für die meisten Mac-Nutzer ist whisper.cpp 3× schneller für dasselbe Modell. Der einzige Grund, faster-whisper auf dem Mac zu verwenden, ist, wenn eine Python-Pipeline bereits davon abhängt und Geschwindigkeit keine kritische Rolle spielt.

Welche Whisper-Modellgröße sollte ich für einen Sprachassistenten verwenden?

Für Echtzeit-Sprachinterfaces ist Whisper small die Standardempfehlung – 3,4 % WER auf sauberem Englisch, ~200 ms STT-Latenz auf einer modernen CPU oder GPU und passt in 2 GB RAM. tiny verwenden bei sehr eingeschränkter Hardware (Raspberry Pi Zero 2W, ältere Smartphones) und wenn ~7,6 % WER akzeptabel sind. medium oder large-v3 nur für Batch-Transkription verwenden, bei der Latenz keine Rolle spielt.

Unterstützt whisper.cpp andere Sprachen als Englisch?

Ja. Alle mehrsprachigen Whisper-Modelle (base, small, medium, large-v3) unterstützen 99 Sprachen. `-l [Sprachcode] in der CLI hinzufügen: -l de für Deutsch, -l fr für Französisch, -l ja` für Japanisch usw. Die Modelle tiny.en und base.en sind English-only und etwas genauer für Englisch als ihre mehrsprachigen Äquivalente.

Wie installiere ich faster-whisper mit CUDA-Unterstützung?

Installation mit pip install faster-whisper. CUDA-Unterstützung erfordert CUDA 11.8 oder höher und cuDNN 8.x auf dem System. CUDA-Version prüfen mit nvcc --version. Dann device="cuda" beim Laden des Modells angeben: WhisperModel("large-v3", device="cuda", compute_type="int8"). Wird CUDA nicht erkannt, wechselt faster-whisper automatisch zur CPU.

Welches ist genauer – whisper.cpp oder faster-whisper?

Identisch. Beide Tools verwenden dieselben OpenAI-Whisper-Modellgewichte und erzeugen denselben WER für dieselbe Audiodatei. Der Unterschied zwischen whisper.cpp und faster-whisper liegt in Geschwindigkeit und Plattformunterstützung, nicht in der Transkriptionsgenauigkeit. Jede WER-Differenz zwischen Läufen liegt im Rahmen normaler Beam-Search-Variation, nicht an der Laufzeit.

Kann ich Whisper large-v3 mit 8 GB RAM betreiben?

Ja auf der GPU – large-v3 int8 in faster-whisper benötigt ~2,5 GB VRAM und läuft auf jeder 8-GB-GPU. Auf reiner CPU-Hardware sind 8 GB RAM für large-v3 knapp (float32 benötigt ~10 GB). medium (5 GB RAM) oder small (2 GB RAM) auf Nur-CPU-Systemen verwenden. whisper.cpp ist auf der CPU speichereffizienter als faster-whisper durch geringeren Laufzeit-Overhead.

Was kostet lokales Whisper im Vergleich zu Cloud-STT?

Null laufende Kosten. Cloud-STT-Dienste berechnen ca. 0,005–0,022 €/Min. – ein Entwickler, der 8 Stunden Meetings pro Woche transkribiert, zahlt ca. 110–440 €/Monat. Lokales Whisper läuft auf bereits vorhandener Hardware, ohne minutenbasierte Gebühren, ohne API-Schlüsselverwaltung und ohne dass Audiodaten das eigene Gerät verlassen.

Ist lokale Whisper-Transkription DSGVO-konform?

Ja – für personenbezogene Audiodaten (Kundengespräche, Arzt-Patient-Dialoge, Mitarbeitermeetings) ist lokale Transkription mit whisper.cpp oder faster-whisper die datenschutzkonforme Lösung. Da die Audiodaten das eigene Gerät nie verlassen und keine Übertragung an externe Dienstleister stattfindet, entfällt die Pflicht zum Abschluss eines Auftragsverarbeitungsvertrags (AVV) nach DSGVO Art. 28. Das BSI empfiehlt für sicherheitskritische Anwendungen lokale Verarbeitung gegenüber Cloud-Diensten, da keine Datenübermittlung an Dritte erfolgt.

Ist Whisper für den deutschen Mittelstand geeignet?

Ja – insbesondere für Branchen mit hohen Datenschutzanforderungen wie Anwaltskanzleien, Arztpraxen, Steuerberater und Unternehmensberatungen. Der Einsatz von whisper.cpp oder faster-whisper ermöglicht DSGVO-konforme Protokollierung von Kundengesprächen und Besprechungen ohne Cloud-Abhängigkeit. Kein laufendes Abonnement, keine API-Kosten, volle Kontrolle über die Audiodaten. Für den Einstieg empfiehlt sich Whisper small (3,4 % WER, 2 GB RAM) oder medium (2,9 % WER, 5 GB RAM) – beide laufen auf handelsüblicher Hardware ohne NVIDIA-GPU.

Quellen

← Zurück zu Power Local LLM

Whisper.cpp vs faster-whisper 2026: Lokale STT-Benchmarks & Setup