PromptQuorumPromptQuorum
ホーム/Power Local LLM/ローカル音声認識2026:Whisper.cpp vs faster-whisper — ベンチマーク・セットアップ・GPU高速化
Voice, Speech & Multimodal

ローカル音声認識2026:Whisper.cpp vs faster-whisper — ベンチマーク・セットアップ・GPU高速化

·10分で読める·Hans Kuepper 著 · PromptQuorumの創設者、マルチモデルAIディスパッチツール · PromptQuorum

whisper.cppとfaster-whisper — ローカルWhisperの2大ランタイム — はそれぞれのターゲットプラットフォームで圧倒的な優位性を持ちます。 Apple Silicon(MシリーズMac)では、Metal高速化付きのwhisper.cppが2026年における最速のローカルSTTオプションです — M5 Proでlarge-v3が約10倍速でリアルタイム動作します。 NVIDIA GPUサーバーおよびPythonパイプラインでは、CTranslate2 int8量子化を使ったfaster-whisperが優れた選択肢で、RTX 4070でlarge-v3が約12倍速でリアルタイム動作し、VRAMは2.5 GBのみです。両ツールとも同じOpenAIのWhisperモデルウェイト(tiny〜large-v3)を使用し、違いはランタイム最適化と統合方法のみです。CPU専用ハードウェアでは、tinyとbaseモデルで両方とも使用可能ですが、int8経由でfaster-whisperがわずかに優位(約20倍速 vs 約15倍速)です。

whisper.cppとfaster-whisperは、2026年にローカル・オフラインの文字起こしに使用されるOpenAIのWhisper音声認識モデルの2大実装です。whisper.cppはApple Metal、CUDA、Vulkan、CPUで動作する純粋なC/C++ポートで、Apple Silicon、組み込みシステム、リアルタイム音声アプリケーションに最適です。faster-whisperはCTranslate2を使用したPythonライブラリで、int8量子化によりNVIDIA GPU上でオリジナルWhisperの約4倍のスループットを実現します。このガイドでは、インストール、パフォーマンスベンチマーク、リアルタイム文字起こしのセットアップ、そして各プラットフォームでの比較を詳しく解説します。

重要なポイント

  • whisper.cppはApple Silicon向けの最高のローカルSTTです。 C/C++ポートはCore MLとApple Metalによるハードウェア高速化を活用し、M5 Proでlarge-v3が約10倍速のリアルタイム動作、Python依存なし。
  • faster-whisperはNVIDIA GPUとPythonパイプライン向けの最高のローカルSTTです。 CTranslate2 int8量子化でVRAMを約40%削減し、元のOpenAI実装の約4倍のスループットを実現 — RTX 4070でlarge-v3が約12倍速、VRAM約2.5 GB。
  • 両ツールともOpenAIの同一のWhisperモデルウェイトを使用しています。 WER(単語誤り率)は両方とも同じ — 違いはランタイムパフォーマンスと統合方法のみで、文字起こし精度ではありません。
  • Whisper large-v3は英語で2.5% WERの最高精度を提供します。 ほとんどの本番ユースケースでは、Whisper small(3.4% WER、2 GB RAM)またはmedium(2.9% WER、5 GB RAM)の方が速度と精度のバランスが良いです。
  • リアルタイム文字起こしは両ツールとも実現可能です — whisper.cppは--streamフラグ経由、faster-whisperは内蔵VAD(音声アクティビティ検出)パイプライン経由。モデルサイズによって実用レイテンシは音声より0.5〜2秒遅れます。
  • whisper.cppはCPU、Metal、CUDA、Vulkanで動作します — クロスプラットフォーム組み込み用途(Raspberry Pi、Windows GPUセットアップ、ARMサーバー)では唯一の選択肢。faster-whisperはCPUとCUDAのみ対応(MacではMetalなし)。
  • Raspberry PiとEmbedded Linuxでは、whisper.cpp tiny/baseをCPUで実行するのが現実的な上限です — Pi 5でtinyが約15倍速、baseが約6倍速。両方とも1 GB RAM内に収まります。

クイックファクト

  • 両ツール: OpenAIのオープンソースWhisperモデル(MITライセンス)をベースにしています。同じ精度 — 異なるランタイム。
  • whisper.cpp: ggerganovによってC/C++で書かれています。CPU(AVX2/NEON)、CUDA、Metal(Apple)、Vulkanをサポート。Python不要。
  • faster-whisper: CTranslate2を使ったPythonライブラリ。CPU(int8)とCUDAをサポート。Apple Metalのサポートなし。
  • Whisperモデルサイズ: tiny(39M)、base(74M)、small(244M)、medium(769M)、large-v3(1.55B)。すべてggml / CTranslate2フォーマット。
  • ほとんどのユースケースに最適なモデル: Whisper small — 3.4% WER、2 GB RAMで動作、最新CPUで6倍速のリアルタイム。
  • RTX 4070ベンチマーク(large-v3): faster-whisper約12倍速;whisper.cpp CUDA約8倍速。faster-whisperがNVIDIAで勝つ。
  • M5 Proベンチマーク(large-v3): whisper.cpp Metal約10倍速;faster-whisper CPU専用約3倍速。whisper.cppがAppleで勝つ。

なぜローカル音声認識なのか?

クラウドSTTサービス(Google Speech-to-Text、AWS Transcribe、Azure Speech)は音声分当たりの費用を請求し、通常$0.006〜$0.024/分 — そして音声をリモートサーバーに送信します。プライバシーが重要なアプリケーション(医療口述、法的録音、ジャーナリストのインタビュー、企業会議)では、ローカル文字起こしによってデータ漏洩リスクを完全に排除できます。

  • プライバシー: 音声はデバイスから外に出ません。ローカルで処理されるため、個人データに関する法的保護への対応が容易です。
  • コスト: 分単位の費用はゼロ。週8時間の会議を文字起こしする開発者は、クラウドSTT価格と比べて月$120〜480を節約できます。
  • オフライン: 飛行機内、セキュア施設内、安定したインターネットがない場所でも動作。APIキー管理不要。
  • レイテンシ: アップロード/ダウンロードの往復遅延なし。リアルタイム音声インターフェースでは、ローカル処理によりSTTレイテンシをクラウドの300〜800msから50〜300msに削減。
  • カスタマイズ: ドメイン固有の語彙でファインチューニング可能。ハードウェアに合ったモデルサイズを実行。

Whisperモデルサイズ — 両ツールの基盤

whisper.cppとfaster-whisperはどちらも同じWhisperモデルウェイトを使用し、それぞれのフォーマット(whisper.cppはGGML、faster-whisperはCTranslate2)に変換されています。VRAMとRAMの予算と精度要件に基づいてモデルサイズを選択してください。

モデルパラメータ数VRAM / RAM英語WER速度係数(RTX 4070実時間比)
tiny39M~1 GB7.6%~32×
base74M~1 GB5.0%~16×
small244M~2 GB3.4%~6×
medium769M~5 GB2.9%~2×
large-v31.55B~10 GB2.5%1×(基準値)
distil-large-v3~756M~4 GB~2.6%~6×

WER(単語誤り率)はLibriSpeechクリーンテストセットに関するWhisperの論文からのもの。低い方が優秀。速度係数はRTX 4070でのfaster-whisper int8のもの。distil-large-v3の数値はDistil-Whisperの論文から。

Distil-Whisper:高速な代替手段

distil-whisper/distil-large-v3はlarge-v3の蒸留バリアントで、パラメータ数が約50%少なく、WERはオリジナルの約1%以内に抑えながら約6倍高速です。** 文字起こし速度が最後の精度より重要な場合に適した選択です。distil-large-v3はfaster-whisper(ネイティブCTranslate2サポート)とwhisper.cpp(GGML形式への変換経由)の両方で動作するため、すでに使用しているランタイムに統合できます。

  • パラメータ数: ~756M — large-v3の1.55Bの約半分で、約4 GB VRAMで動作(large-v3は約10 GB)。
  • 速度: RTX 4070で約6倍速のリアルタイム(large-v3の1倍速の基準値と比べて)— mediumモデルと同程度の速度でlarge-v3レベルの精度。
  • WER: 英語で約2.6% — large-v3の2.5%よりわずかに高いだけ。実際の音声では差は聞き取れません。
  • 互換性: faster-whisperとネイティブで動作(WhisperModel("distil-large-v3", device="cuda", compute_type="int8"))。whisper.cppの場合は、distil-whisper GGMLコンバージョンスクリプトを使用してGGML形式に変換。
  • 最適な用途: バッチ文字起こしジョブ、VRAM制限のあるサーバーデプロイ、大型モデルレベルの品質をmediumモデルの速度で求めるユースケース。
  • 不適な用途: 多言語文字起こし — distil-large-v3は英語のみ。他言語にはlarge-v3またはmediumを使用。

whisper.cpp — C/C++ポート

whisper.cpp(Georgi Gerganov作)はOpenAIのWhisperモデルを純粋なC/C++で再実装したもので、低リソースかつクロスプラットフォームの推論向けに最適化されています。 Pythonも、CUDAツールキットも不要で、Raspberry PiからApple M5 ProまでWindowsCUDAセットアップまで、実質的にあらゆるハードウェアで動作します。

  • プラットフォームサポート: CPU(AVX2、AVX512、ARM NEON)、Apple Metal(Core ML)、CUDA(NVIDIA)、Vulkan(AMD/Intel GPU)、OpenCL。
  • Apple Siliconの優位性: whisper.cppはモデルをCore ML形式にエクスポートし、Apple Neural Engineでの推論を可能にします。large-v3はM5 ProでMetalにより約10倍速のリアルタイム動作 — クラウドへの往復より高速。
  • インストール: リポジトリをクローンし、make(またはcmake)を実行。一般的なプラットフォーム向けのビルド済みバイナリも利用可能。Python依存なし。
  • モデルダウンロード: bash ./models/download-ggml-model.sh base.en — GGMLフォーマットのモデルファイルをダウンロード(baseで約142 MB)。
  • CLIの例: ./main -m models/ggml-base.bin -f audio.wav — WAVファイルを標準出力に文字起こし。-l jaで日本語。
  • リアルタイムストリームモード: ./stream -m models/ggml-base.bin --step 3000 --length 10000 — マイクから3秒チャンクで文字起こし。
  • Pythonラッパー: pywhispercppがwhisper.cpp用のPythonバインディングを提供し、Metal高速化を維持したままPythonパイプラインで使用可能。
  • 制限事項: ネイティブVAD(音声アクティビティ検出)なし。ストリームモードはユースケースに応じた--step--lengthパラメータのチューニングが必要。
bash
# Build from source (macOS / Linux)
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make -j4

# Download a model
bash ./models/download-ggml-model.sh large-v3

# Transcribe a file
./main -m models/ggml-large-v3.bin -f recording.wav

# Enable Metal on Apple Silicon (Core ML)
make -j4 WHISPER_COREML=1
./main -m models/ggml-large-v3-encoder.mlmodelc -f recording.wav

faster-whisper — CTranslate2ポート

faster-whisper(SYSTRAN社製)はCTranslate2 — int8量子化をサポートする高度に最適化されたC++推論エンジン — を使ってWhisper推論を再実装したPythonライブラリです。 NVIDIA GPUでは、faster-whisperが利用可能な中で最速のローカルWhisper実装です。

  • プラットフォームサポート: CPU(int8量子化)とNVIDIA CUDA GPU。Apple Metalサポートなし — MacではCPU専用で動作。
  • int8の優位性: CTranslate2 int8量子化でVRAMを約40%削減し、float16比でスループットを約2倍向上、WERへの影響は無視できる程度(絶対値で0.1%未満)。
  • インストール: pip install faster-whisper — コンパイル不要。CUDAサポートにはCUDA 11.8以上とcuDNN 8.xが必要。
  • 内蔵VAD: faster-whisperにはSilero VAD統合が含まれており、無音セグメントを自動的にスキップします — リアルタイム文字起こしパイプラインに不可欠。
  • Python対応: 直接PythonのAPIにより、LLM、音声処理ライブラリ、Webフレームワークとの連携が簡単。
  • 速度: RTX 4070でのlarge-v3 int8は約12倍速のリアルタイムでVRAM約2.5 GB使用。CPU int8ではtinyモデルで約20倍速を達成。
  • バッチ処理: faster-whisperはバッチ推論をサポートし、大量の音声ファイルを効率的に処理。
  • 制限事項: MacでのMetalサポートなし — Apple SiliconではCPU専用で動作し、large-v3で約3倍速(whisper.cppのMetalでの約10倍速と比較)。
python
from faster_whisper import WhisperModel

# Load model (downloads automatically on first run)
model = WhisperModel("large-v3", device="cuda", compute_type="int8")

# Transcribe
segments, info = model.transcribe("audio.wav", beam_size=5)

print(f"Detected language: {info.language} (probability: {info.language_probability:.2f})")
for segment in segments:
    print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")

直接比較:ベンチマークテーブル

すべてのベンチマークは特記ない限りlarge-v3モデルを使用。速度はリアルタイムの倍率で計測(例:10×は60分の音声が6分で文字起こしできることを意味する)。GPU実行のVRAM数値;CPU実行のRAM数値。

📍 一文で説明

Apple SiliconでのMetalを使ったwhisper.cppはlarge-v3を約10倍速でリアルタイム処理し;NVIDIA GPUでのint8を使ったfaster-whisperは約12倍速 — 各ツールはそれぞれのターゲットプラットフォームで圧倒的な優位性を持ちます。

💬 簡潔に説明

Macではwhisper.cppを選択(Appleニューラルエンジンを使用)、Windows/LinuxでNVIDIA GPUがある場合はfaster-whisperを選択(音声を12倍速で処理し、GPUメモリを40%節約)。

指標whisper.cpp (large-v3)faster-whisper (large-v3)
プラットフォーム / 言語C/C++(クロスプラットフォーム)Python(CTranslate2)
GPUサポートCUDA、Metal、VulkanCUDAのみ
CPU最適化AVX2、ARM NEONint8量子化
速度 — RTX 4070、large-v3~8倍速~12倍速 ✓
速度 — M5 Pro、large-v3~10倍速(Metal)✓~3倍速(CPU専用)
速度 — CPU専用(x86)、base~15倍速~20倍速 ✓
VRAM — large-v3、GPU~3 GB~2.5 GB(int8)✓
Python統合ラッパーが必要(pywhispercpp)ネイティブ ✓
VAD(無音検出)手動(--stepチューニング)内蔵(Silero VAD)✓
リアルタイムストリーミングあり(--streamフラグ)✓あり(VADパイプライン)
WER精度(large-v3)2.5%(同一)2.5%(同一)
Python依存なし ✓Python 3.8+
Raspberry Pi / 組み込みあり — Cバイナリ ✓限定的 — Pythonオーバーヘッド
出力フォーマットSRT、VTT、JSON、CSV、txtPythonオブジェクト(start、end、text)

whisper.cppは標準的な字幕・トランスクリプトファイル形式(SRT、VTT、JSON、CSV、txt)に直接出力します — 追加コードなしでディスクにファイルが必要な字幕ワークフローに最適。faster-whisperはstartendtext属性を持つセグメントオブジェクトのPythonジェネレータを生成します — 中間ファイルを書かずにセグメントテキストを直接ダウンストリームモデルに渡すLLMパイプライン連携に最適。字幕生成にはwhisper.cppが簡単で、セグメントをプログラムで処理するパイプラインにはfaster-whisperが簡単です。

リアルタイム文字起こしのセットアップ

リアルタイム文字起こしは、マイクから届いた音声をチャンクで処理し、音声から短い遅延でテキストを生成します。 両ツールとも対応していますが、トレードオフが異なります。

  • whisper.cppのstreamモード: ./stream -m models/ggml-small.bin --step 3000 --length 10000 -t 4を実行。3秒の音声チャンクを処理;smallモデルで約0.5〜1.5秒の遅延。Python不要。
  • faster-whisperのVADパイプライン: model.transcribe()vad_filter=Trueを使用。Silero VADが無音境界で自動的に音声をセグメント化 — 固定長ウィンドウよりも自然なチャンク。
  • 実用レイテンシ: smallまたはmediumモデルでリアルタイム音声より0.5〜2秒遅延。最低レイテンシにはtinyを使用(0.5秒未満、ただしWERが高い)。
  • リアルタイム向けモデル選択: smallまたはbaseが実用的なスイートスポット — 音声に追いつくのに十分な速度で、クリアな音声に対して十分な精度。専用GPUがない限り、リアルタイムでlarge-v3は避けること。
  • マイク入力: whisper.cppはSDL2またはportaudio経由で生音声を読み込む。faster-whisperは任意のPython音声ライブラリ(sounddevice、pyaudio、soundfile)からの音声配列を読み込む。
  • 安定性: whisper.cppのstreamモードは無音時に繰り返しトークンを生成(短いフィラーを「幻聴」)することがある。--suppress-blank--no-speech-thresholdで抑制。

Apple Silicon:whisper.cppが勝つ

M1、M2、M3、M4、M5のMacでは、Core ML / Metal高速化付きのwhisper.cppが正しいツールです — 疑いの余地なし。 faster-whisperはMetalサポートがなく、Macでは専らCPUのみで動作し、large-v3で約3倍速のリアルタイム。whisper.cppのMetalはM5 Proで約10倍速のリアルタイムを達成 — 3倍の速度優位性。

  • Core MLエクスポート: ./models/generate-coreml-model.sh large-v3を実行してエンコーダをCore ML形式にエクスポート。これによりエンコーダの推論がApple Neural Engineにオフロードされます。
  • M5 Proベンチマーク(large-v3、Metal): 約10倍速。60分の音声が約6分で文字起こし完了。注記:M5 Proは2026年3月に発売 — これらはコミュニティの早期ベンチマークです。M5ニューラルエンジン向けのwhisper.cppの最適化が進むにつれてパフォーマンスは向上する可能性があります。
  • M3 MacBook Airベンチマーク(large-v3、Metal): 約7倍速。60分が約8.5分で完了。
  • メモリ: ユニファイドメモリにより独立したVRAMは不要 — 16 GB M5 Proは他のプロセスと共存しながらもlarge-v3(~3 GB)を快適に動作させられます。
  • Macでのfaster-whisper: CPU専用、int8。large-v3で約3倍速。一晩かけたバッチ文字起こしには使えますが、リアルタイムや時間が重要なワークフローには不向き。
  • 推奨: MacのすべてのSTT作業にwhisper.cppを使用。Metal高速化を維持しながらPython統合が必要な場合はpywhispercppを追加。

NVIDIA GPU:faster-whisperが勝つ

NVIDIA GPUを搭載したWindowsとLinuxでは、faster-whisperが優れた選択肢です。 CTranslate2のCUDAバックエンドはwhisper.cppのCUDAパスよりも最適化されており — RTX 4070でのlarge-v3では約12倍速対約8倍速で、VRAMも少なく済みます。

  • RTX 4070(12 GB)ベンチマーク(large-v3 int8): 約12倍速、VRAM約2.5 GB。
  • RTX 3060(12 GB)ベンチマーク(large-v3 int8): 約8倍速、VRAM約2.5 GB。
  • RTX 4060(8 GB)ベンチマーク(large-v3 int8): 約7倍速、VRAM約2.5 GB — 余裕で収まる。
  • int8対float16: int8は約2倍速でVRAMを約40%削減し、精度への影響は無視できます。NVIDIAでは常にcompute_type="int8"を使用。
  • バッチ処理: faster-whisperのbatched=Trueパラメータにより複数の音声ファイルの並列処理が可能となり、大規模な文字起こしジョブでGPU利用率を最大化。
  • Pythonパイプライン統合: faster-whisperはLangChain、Haystack、カスタムPythonパイプラインに直接組み込めます。whisper.cppをラップする際のサブプロセスオーバーヘッドなし。

どちらをいつ使うか

シナリオから最適なツールへの直接マッピング:

📍 一文で説明

Apple Siliconと組み込み/クロスプラットフォームのターゲットにはwhisper.cppを使用;NVIDIA GPUとPythonパイプラインにはfaster-whisperを使用。

💬 簡潔に説明

Macをお持ちならwhisper.cppを選択 — Appleハードウェアでfaster-whisperより3倍速。NVIDIA GPUを持ちPythonを書くならfaster-whisperを選択 — 高速でGPUメモリを40%節約。

シナリオ最適なツール理由
Apple Silicon Mac(すべてのモデル)whisper.cppMetal / Core ML高速化 — MacでCPU専用のfaster-whisperより3倍速
NVIDIA GPUサーバー(Linux/Windows)faster-whisperCTranslate2 int8 — whisper.cppのCUDAパスより高速かつ低VRAM
Pythonデータパイプラインfaster-whisperネイティブPython API;サブプロセスラッパー不要;VAD内蔵
Raspberry Pi / 組み込みLinuxwhisper.cpp純粋なCバイナリ;Pythonランタイムオーバーヘッドなし;ARM NEON最適化
リアルタイム音声アシスタントwhisper.cpp低オーバーヘッドのstreamモード;Pi / 組み込みでPythonなしで動作
バッチ文字起こし(大量音声アーカイブ)faster-whisperバッチ推論、GPU利用率、Python非同期統合
AMD GPU(Vulkan)whisper.cppVulkanバックエンドサポート;faster-whisperはCUDA専用
CPU専用Linuxサーバーfaster-whisperint8量子化でx86 CPUに対して約30%の速度優位性

whisper.cppとfaster-whisperを超えて

whisper.cppとfaster-whisperのどちらも標準では提供しない2つの機能 — 話者識別と超高速バッチGPU推論 — を追加する2つのツールがあります。

  • WhisperX:** faster-whisperをベースに構築し、単語レベルのタイムスタンプと話者識別を追加 — どの話者がどの言葉を話したかを特定。最適用途:話者ラベル付き会議文字起こし、ポッドキャスト編集、インタビュートランスクリプト。pip install whisperxでインストールし、識別モデル用のHugging Faceトークンを提供。
  • insanely-fast-whisper:** Flash Attention 2サポートを追加するHugging Face Transformersパイプラインラッパーで、NVIDIA ハードウェアで標準faster-whisperよりもはるかに高速なGPU推論を実現。最適用途:NVIDIA GPUでの大量音声アーカイブのバッチ処理。Flash Attention 2対応GPU(Ampere以降:RTX 3000+、A100、H100)が必要。

よくある問題と解決策

よくあるセットアップとランタイムの問題、そして直接の解決策:

  • CUDAバージョンの不一致: faster-whisperにはCUDA 11.8以降が必要。nvcc --versionで確認。CUDAが古い場合は、ドライバーをアップグレードするか、cudatoolkit=11.8でconda環境にfaster-whisperをインストール。
  • Metalモデルエクスポートの失敗: Xcode Command Line Toolsのインストールを確認 — xcode-select --installを実行。Core MLエクスポートスクリプトにはcoremltools Pythonパッケージが必要:pip install coremltools
  • 無音時の幻聴: 両ツールとも無音の音声セグメントで繰り返しフィラートークンを生成することがある。whisper.cppのstreamモードでは--no-speech-threshold 0.6を使用するか、faster-whisperのmodel.transcribe()vad_filter=Trueを使用して無音セグメントを自動的にスキップ。
  • large-v3でのメモリ不足: faster-whisperでint8量子化に切り替え(compute_type="int8")— VRAMを~5 GB(float16)から~2.5 GBに削減。whisper.cppでは量子化されたGGMLバリアントを使用(例:ggml-large-v3-q5_0.bin)でメモリを~3〜4 GBに削減。
  • 非英語音声での文字化け: 非英語音声に.enモデルバリアント(tiny.en、base.en)を使用しないこと — これらは英語専用。多言語モデル(base、small、medium、large-v3)を使用し、言語を明示的に指定:whisper.cppでは-l ja、faster-whisperではlanguage="ja"
  • CPUの推論が遅い: CPUがAVX2命令をサポートしているか確認(最適化されたCPU推論に必要)。Linuxではgrep avx2 /proc/cpuinfo、Macではsysctl machdep.cpu.featuresで確認。AVX2なしのCPUは汎用SIMDにフォールバックし、2〜3倍遅くなります。

よくある質問

whisper.cppとfaster-whisperで文字起こし精度は同じですか?

はい。両ツールとも同じOpenAI Whisperモデルウェイトを使用しています — モデル自体は同一です。違いは推論ランタイム(C/C++対CTranslate2 Python)のみです。同じ音声ファイルでのWERは絶対値で0.1%以内 — これはビームサーチのランダム性による通常の変動範囲内です。

Apple SiliconのMacでfaster-whisperを使えますか?

はい、ただしCPU専用で動作します — faster-whisperにはMetalサポートがありません。M5 Proでは、faster-whisperのlarge-v3はCPU int8で約3倍速のリアルタイムで動作し、whisper.cppのMetalでの約10倍速と比べると遅いです。ほとんどのMacユーザーにとって、同じモデルでwhisper.cppは3倍速です。Macでfaster-whisperを使う唯一の理由は、すでにPythonパイプラインがfaster-whisperに依存していて速度が重要でない場合です。

音声アシスタントにはどのWhisperモデルサイズを使うべきですか?

リアルタイム音声インターフェースには、Whisper smallが標準推奨です — クリアな英語で3.4% WER、最新のCPUまたはGPUで約200 ms のSTTレイテンシ、2 GB RAMに収まる。非常に制約のあるハードウェア(Raspberry Pi Zero 2W、古いスマートフォン)で約7.6% WERが許容できる場合はtinyを使用。mediumまたはlarge-v3はレイテンシが制約にならないバッチ文字起こしのみに使用。

whisper.cppは英語以外の言語をサポートしていますか?

はい。すべてのWhisper多言語モデル(base、small、medium、large-v3)は99言語をサポートしています。CLIに`-l [言語コード]を追加:日本語は-l ja、ドイツ語は-l de、フランス語は-l fr`など。tiny.enとbase.enモデルは英語専用で、多言語版と比べて英語でわずかに正確です。

CUDAサポート付きのfaster-whisperはどうインストールしますか?

pip install faster-whisperでインストール。CUDAサポートにはCUDA 11.8以降とシステムにcuDNN 8.xのインストールが必要。nvcc --versionでCUDAバージョンを確認。その後、モデルロード時にdevice="cuda"を指定:WhisperModel("large-v3", device="cuda", compute_type="int8")。CUDAが検出されない場合、faster-whisperは自動的にCPUにフォールバックします。

どちらがより正確ですか — whisper.cppかfaster-whisperか?

同一です。両ツールとも同じOpenAI Whisperモデルウェイトを使用し、同じ音声ファイルで同じWERを生成します。whisper.cppとfaster-whisperの違いは速度とプラットフォームサポートであり、文字起こし精度ではありません。実行間で測定されるWERの差はビームサーチの通常の変動範囲内であり、ランタイム自体によるものではありません。

Whisper large-v3を8 GB RAMで実行できますか?

GPUでは可能 — faster-whisperのlarge-v3 int8はVRAMを約2.5 GB使用し、8 GB GPUで動作します。CPU専用ハードウェアでは、8 GB RAMはlarge-v3には不足気味です(float32は約10 GB使用)。CPU専用システムではmedium(5 GB RAM)またはsmall(2 GB RAM)を使用してください。whisper.cppはランタイムオーバーヘッドが低いため、CPUでfaster-whisperよりメモリ効率が高いです。

ローカルWhisperはクラウドSTTと比べてコストはどのくらいですか?

継続的なコストはゼロです。クラウドSTTサービスは音声1分当たり$0.006〜$0.024を請求します — 週8時間の会議を文字起こしする開発者は月$120〜480になります。ローカルWhisperはすでに所有しているハードウェアで動作し、分単位の料金なし、APIキー管理なし、音声データがデバイスから外に出ることもありません。

情報源

← Power Local LLM に戻る

Whisper.cpp vs faster-whisper 2026:ローカルSTTベンチマーク&セットアップ