重要なポイント
- whisper.cppはApple Silicon向けの最高のローカルSTTです。 C/C++ポートはCore MLとApple Metalによるハードウェア高速化を活用し、M5 Proでlarge-v3が約10倍速のリアルタイム動作、Python依存なし。
- faster-whisperはNVIDIA GPUとPythonパイプライン向けの最高のローカルSTTです。 CTranslate2 int8量子化でVRAMを約40%削減し、元のOpenAI実装の約4倍のスループットを実現 — RTX 4070でlarge-v3が約12倍速、VRAM約2.5 GB。
- 両ツールともOpenAIの同一のWhisperモデルウェイトを使用しています。 WER(単語誤り率)は両方とも同じ — 違いはランタイムパフォーマンスと統合方法のみで、文字起こし精度ではありません。
- Whisper large-v3は英語で2.5% WERの最高精度を提供します。 ほとんどの本番ユースケースでは、Whisper small(3.4% WER、2 GB RAM)またはmedium(2.9% WER、5 GB RAM)の方が速度と精度のバランスが良いです。
- リアルタイム文字起こしは両ツールとも実現可能です — whisper.cppは
--streamフラグ経由、faster-whisperは内蔵VAD(音声アクティビティ検出)パイプライン経由。モデルサイズによって実用レイテンシは音声より0.5〜2秒遅れます。 - whisper.cppはCPU、Metal、CUDA、Vulkanで動作します — クロスプラットフォーム組み込み用途(Raspberry Pi、Windows GPUセットアップ、ARMサーバー)では唯一の選択肢。faster-whisperはCPUとCUDAのみ対応(MacではMetalなし)。
- Raspberry PiとEmbedded Linuxでは、whisper.cpp tiny/baseをCPUで実行するのが現実的な上限です — Pi 5でtinyが約15倍速、baseが約6倍速。両方とも1 GB RAM内に収まります。
クイックファクト
- 両ツール: OpenAIのオープンソースWhisperモデル(MITライセンス)をベースにしています。同じ精度 — 異なるランタイム。
- whisper.cpp: ggerganovによってC/C++で書かれています。CPU(AVX2/NEON)、CUDA、Metal(Apple)、Vulkanをサポート。Python不要。
- faster-whisper: CTranslate2を使ったPythonライブラリ。CPU(int8)とCUDAをサポート。Apple Metalのサポートなし。
- Whisperモデルサイズ: tiny(39M)、base(74M)、small(244M)、medium(769M)、large-v3(1.55B)。すべてggml / CTranslate2フォーマット。
- ほとんどのユースケースに最適なモデル: Whisper small — 3.4% WER、2 GB RAMで動作、最新CPUで6倍速のリアルタイム。
- RTX 4070ベンチマーク(large-v3): faster-whisper約12倍速;whisper.cpp CUDA約8倍速。faster-whisperがNVIDIAで勝つ。
- M5 Proベンチマーク(large-v3): whisper.cpp Metal約10倍速;faster-whisper CPU専用約3倍速。whisper.cppがAppleで勝つ。
なぜローカル音声認識なのか?
クラウドSTTサービス(Google Speech-to-Text、AWS Transcribe、Azure Speech)は音声分当たりの費用を請求し、通常$0.006〜$0.024/分 — そして音声をリモートサーバーに送信します。プライバシーが重要なアプリケーション(医療口述、法的録音、ジャーナリストのインタビュー、企業会議)では、ローカル文字起こしによってデータ漏洩リスクを完全に排除できます。
- プライバシー: 音声はデバイスから外に出ません。ローカルで処理されるため、個人データに関する法的保護への対応が容易です。
- コスト: 分単位の費用はゼロ。週8時間の会議を文字起こしする開発者は、クラウドSTT価格と比べて月$120〜480を節約できます。
- オフライン: 飛行機内、セキュア施設内、安定したインターネットがない場所でも動作。APIキー管理不要。
- レイテンシ: アップロード/ダウンロードの往復遅延なし。リアルタイム音声インターフェースでは、ローカル処理によりSTTレイテンシをクラウドの300〜800msから50〜300msに削減。
- カスタマイズ: ドメイン固有の語彙でファインチューニング可能。ハードウェアに合ったモデルサイズを実行。
Whisperモデルサイズ — 両ツールの基盤
whisper.cppとfaster-whisperはどちらも同じWhisperモデルウェイトを使用し、それぞれのフォーマット(whisper.cppはGGML、faster-whisperはCTranslate2)に変換されています。VRAMとRAMの予算と精度要件に基づいてモデルサイズを選択してください。
| モデル | パラメータ数 | VRAM / RAM | 英語WER | 速度係数(RTX 4070実時間比) |
|---|---|---|---|---|
| tiny | 39M | ~1 GB | 7.6% | ~32× |
| base | 74M | ~1 GB | 5.0% | ~16× |
| small | 244M | ~2 GB | 3.4% | ~6× |
| medium | 769M | ~5 GB | 2.9% | ~2× |
| large-v3 | 1.55B | ~10 GB | 2.5% | 1×(基準値) |
| distil-large-v3 | ~756M | ~4 GB | ~2.6% | ~6× |
WER(単語誤り率)はLibriSpeechクリーンテストセットに関するWhisperの論文からのもの。低い方が優秀。速度係数はRTX 4070でのfaster-whisper int8のもの。distil-large-v3の数値はDistil-Whisperの論文から。
Distil-Whisper:高速な代替手段
distil-whisper/distil-large-v3はlarge-v3の蒸留バリアントで、パラメータ数が約50%少なく、WERはオリジナルの約1%以内に抑えながら約6倍高速です。** 文字起こし速度が最後の精度より重要な場合に適した選択です。distil-large-v3はfaster-whisper(ネイティブCTranslate2サポート)とwhisper.cpp(GGML形式への変換経由)の両方で動作するため、すでに使用しているランタイムに統合できます。
- パラメータ数: ~756M — large-v3の1.55Bの約半分で、約4 GB VRAMで動作(large-v3は約10 GB)。
- 速度: RTX 4070で約6倍速のリアルタイム(large-v3の1倍速の基準値と比べて)— mediumモデルと同程度の速度でlarge-v3レベルの精度。
- WER: 英語で約2.6% — large-v3の2.5%よりわずかに高いだけ。実際の音声では差は聞き取れません。
- 互換性: faster-whisperとネイティブで動作(
WhisperModel("distil-large-v3", device="cuda", compute_type="int8"))。whisper.cppの場合は、distil-whisper GGMLコンバージョンスクリプトを使用してGGML形式に変換。 - 最適な用途: バッチ文字起こしジョブ、VRAM制限のあるサーバーデプロイ、大型モデルレベルの品質をmediumモデルの速度で求めるユースケース。
- 不適な用途: 多言語文字起こし — distil-large-v3は英語のみ。他言語にはlarge-v3またはmediumを使用。
whisper.cpp — C/C++ポート
whisper.cpp(Georgi Gerganov作)はOpenAIのWhisperモデルを純粋なC/C++で再実装したもので、低リソースかつクロスプラットフォームの推論向けに最適化されています。 Pythonも、CUDAツールキットも不要で、Raspberry PiからApple M5 ProまでWindowsCUDAセットアップまで、実質的にあらゆるハードウェアで動作します。
- プラットフォームサポート: CPU(AVX2、AVX512、ARM NEON)、Apple Metal(Core ML)、CUDA(NVIDIA)、Vulkan(AMD/Intel GPU)、OpenCL。
- Apple Siliconの優位性: whisper.cppはモデルをCore ML形式にエクスポートし、Apple Neural Engineでの推論を可能にします。large-v3はM5 ProでMetalにより約10倍速のリアルタイム動作 — クラウドへの往復より高速。
- インストール: リポジトリをクローンし、
make(またはcmake)を実行。一般的なプラットフォーム向けのビルド済みバイナリも利用可能。Python依存なし。 - モデルダウンロード:
bash ./models/download-ggml-model.sh base.en— GGMLフォーマットのモデルファイルをダウンロード(baseで約142 MB)。 - CLIの例:
./main -m models/ggml-base.bin -f audio.wav— WAVファイルを標準出力に文字起こし。-l jaで日本語。 - リアルタイムストリームモード:
./stream -m models/ggml-base.bin --step 3000 --length 10000— マイクから3秒チャンクで文字起こし。 - Pythonラッパー: pywhispercppがwhisper.cpp用のPythonバインディングを提供し、Metal高速化を維持したままPythonパイプラインで使用可能。
- 制限事項: ネイティブVAD(音声アクティビティ検出)なし。ストリームモードはユースケースに応じた
--stepと--lengthパラメータのチューニングが必要。
# Build from source (macOS / Linux)
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make -j4
# Download a model
bash ./models/download-ggml-model.sh large-v3
# Transcribe a file
./main -m models/ggml-large-v3.bin -f recording.wav
# Enable Metal on Apple Silicon (Core ML)
make -j4 WHISPER_COREML=1
./main -m models/ggml-large-v3-encoder.mlmodelc -f recording.wavfaster-whisper — CTranslate2ポート
faster-whisper(SYSTRAN社製)はCTranslate2 — int8量子化をサポートする高度に最適化されたC++推論エンジン — を使ってWhisper推論を再実装したPythonライブラリです。 NVIDIA GPUでは、faster-whisperが利用可能な中で最速のローカルWhisper実装です。
- プラットフォームサポート: CPU(int8量子化)とNVIDIA CUDA GPU。Apple Metalサポートなし — MacではCPU専用で動作。
- int8の優位性: CTranslate2 int8量子化でVRAMを約40%削減し、float16比でスループットを約2倍向上、WERへの影響は無視できる程度(絶対値で0.1%未満)。
- インストール:
pip install faster-whisper— コンパイル不要。CUDAサポートにはCUDA 11.8以上とcuDNN 8.xが必要。 - 内蔵VAD: faster-whisperにはSilero VAD統合が含まれており、無音セグメントを自動的にスキップします — リアルタイム文字起こしパイプラインに不可欠。
- Python対応: 直接PythonのAPIにより、LLM、音声処理ライブラリ、Webフレームワークとの連携が簡単。
- 速度: RTX 4070でのlarge-v3 int8は約12倍速のリアルタイムでVRAM約2.5 GB使用。CPU int8ではtinyモデルで約20倍速を達成。
- バッチ処理: faster-whisperはバッチ推論をサポートし、大量の音声ファイルを効率的に処理。
- 制限事項: MacでのMetalサポートなし — Apple SiliconではCPU専用で動作し、large-v3で約3倍速(whisper.cppのMetalでの約10倍速と比較)。
from faster_whisper import WhisperModel
# Load model (downloads automatically on first run)
model = WhisperModel("large-v3", device="cuda", compute_type="int8")
# Transcribe
segments, info = model.transcribe("audio.wav", beam_size=5)
print(f"Detected language: {info.language} (probability: {info.language_probability:.2f})")
for segment in segments:
print(f"[{segment.start:.2f}s → {segment.end:.2f}s] {segment.text}")直接比較:ベンチマークテーブル
すべてのベンチマークは特記ない限りlarge-v3モデルを使用。速度はリアルタイムの倍率で計測(例:10×は60分の音声が6分で文字起こしできることを意味する)。GPU実行のVRAM数値;CPU実行のRAM数値。
📍 一文で説明
Apple SiliconでのMetalを使ったwhisper.cppはlarge-v3を約10倍速でリアルタイム処理し;NVIDIA GPUでのint8を使ったfaster-whisperは約12倍速 — 各ツールはそれぞれのターゲットプラットフォームで圧倒的な優位性を持ちます。
💬 簡潔に説明
Macではwhisper.cppを選択(Appleニューラルエンジンを使用)、Windows/LinuxでNVIDIA GPUがある場合はfaster-whisperを選択(音声を12倍速で処理し、GPUメモリを40%節約)。
| 指標 | whisper.cpp (large-v3) | faster-whisper (large-v3) |
|---|---|---|
| プラットフォーム / 言語 | C/C++(クロスプラットフォーム) | Python(CTranslate2) |
| GPUサポート | CUDA、Metal、Vulkan | CUDAのみ |
| CPU最適化 | AVX2、ARM NEON | int8量子化 |
| 速度 — RTX 4070、large-v3 | ~8倍速 | ~12倍速 ✓ |
| 速度 — M5 Pro、large-v3 | ~10倍速(Metal)✓ | ~3倍速(CPU専用) |
| 速度 — CPU専用(x86)、base | ~15倍速 | ~20倍速 ✓ |
| VRAM — large-v3、GPU | ~3 GB | ~2.5 GB(int8)✓ |
| Python統合 | ラッパーが必要(pywhispercpp) | ネイティブ ✓ |
| VAD(無音検出) | 手動(--stepチューニング) | 内蔵(Silero VAD)✓ |
| リアルタイムストリーミング | あり(--streamフラグ)✓ | あり(VADパイプライン) |
| WER精度(large-v3) | 2.5%(同一) | 2.5%(同一) |
| Python依存 | なし ✓ | Python 3.8+ |
| Raspberry Pi / 組み込み | あり — Cバイナリ ✓ | 限定的 — Pythonオーバーヘッド |
| 出力フォーマット | SRT、VTT、JSON、CSV、txt | Pythonオブジェクト(start、end、text) |
whisper.cppは標準的な字幕・トランスクリプトファイル形式(SRT、VTT、JSON、CSV、txt)に直接出力します — 追加コードなしでディスクにファイルが必要な字幕ワークフローに最適。faster-whisperはstart、end、text属性を持つセグメントオブジェクトのPythonジェネレータを生成します — 中間ファイルを書かずにセグメントテキストを直接ダウンストリームモデルに渡すLLMパイプライン連携に最適。字幕生成にはwhisper.cppが簡単で、セグメントをプログラムで処理するパイプラインにはfaster-whisperが簡単です。
リアルタイム文字起こしのセットアップ
リアルタイム文字起こしは、マイクから届いた音声をチャンクで処理し、音声から短い遅延でテキストを生成します。 両ツールとも対応していますが、トレードオフが異なります。
- whisper.cppのstreamモード:
./stream -m models/ggml-small.bin --step 3000 --length 10000 -t 4を実行。3秒の音声チャンクを処理;smallモデルで約0.5〜1.5秒の遅延。Python不要。 - faster-whisperのVADパイプライン:
model.transcribe()でvad_filter=Trueを使用。Silero VADが無音境界で自動的に音声をセグメント化 — 固定長ウィンドウよりも自然なチャンク。 - 実用レイテンシ: smallまたはmediumモデルでリアルタイム音声より0.5〜2秒遅延。最低レイテンシにはtinyを使用(0.5秒未満、ただしWERが高い)。
- リアルタイム向けモデル選択: smallまたはbaseが実用的なスイートスポット — 音声に追いつくのに十分な速度で、クリアな音声に対して十分な精度。専用GPUがない限り、リアルタイムでlarge-v3は避けること。
- マイク入力: whisper.cppはSDL2またはportaudio経由で生音声を読み込む。faster-whisperは任意のPython音声ライブラリ(sounddevice、pyaudio、soundfile)からの音声配列を読み込む。
- 安定性: whisper.cppのstreamモードは無音時に繰り返しトークンを生成(短いフィラーを「幻聴」)することがある。
--suppress-blankと--no-speech-thresholdで抑制。
Apple Silicon:whisper.cppが勝つ
M1、M2、M3、M4、M5のMacでは、Core ML / Metal高速化付きのwhisper.cppが正しいツールです — 疑いの余地なし。 faster-whisperはMetalサポートがなく、Macでは専らCPUのみで動作し、large-v3で約3倍速のリアルタイム。whisper.cppのMetalはM5 Proで約10倍速のリアルタイムを達成 — 3倍の速度優位性。
- Core MLエクスポート:
./models/generate-coreml-model.sh large-v3を実行してエンコーダをCore ML形式にエクスポート。これによりエンコーダの推論がApple Neural Engineにオフロードされます。 - M5 Proベンチマーク(large-v3、Metal): 約10倍速。60分の音声が約6分で文字起こし完了。注記:M5 Proは2026年3月に発売 — これらはコミュニティの早期ベンチマークです。M5ニューラルエンジン向けのwhisper.cppの最適化が進むにつれてパフォーマンスは向上する可能性があります。
- M3 MacBook Airベンチマーク(large-v3、Metal): 約7倍速。60分が約8.5分で完了。
- メモリ: ユニファイドメモリにより独立したVRAMは不要 — 16 GB M5 Proは他のプロセスと共存しながらもlarge-v3(~3 GB)を快適に動作させられます。
- Macでのfaster-whisper: CPU専用、int8。large-v3で約3倍速。一晩かけたバッチ文字起こしには使えますが、リアルタイムや時間が重要なワークフローには不向き。
- 推奨: MacのすべてのSTT作業にwhisper.cppを使用。Metal高速化を維持しながらPython統合が必要な場合はpywhispercppを追加。
NVIDIA GPU:faster-whisperが勝つ
NVIDIA GPUを搭載したWindowsとLinuxでは、faster-whisperが優れた選択肢です。 CTranslate2のCUDAバックエンドはwhisper.cppのCUDAパスよりも最適化されており — RTX 4070でのlarge-v3では約12倍速対約8倍速で、VRAMも少なく済みます。
- RTX 4070(12 GB)ベンチマーク(large-v3 int8): 約12倍速、VRAM約2.5 GB。
- RTX 3060(12 GB)ベンチマーク(large-v3 int8): 約8倍速、VRAM約2.5 GB。
- RTX 4060(8 GB)ベンチマーク(large-v3 int8): 約7倍速、VRAM約2.5 GB — 余裕で収まる。
- int8対float16: int8は約2倍速でVRAMを約40%削減し、精度への影響は無視できます。NVIDIAでは常に
compute_type="int8"を使用。 - バッチ処理: faster-whisperの
batched=Trueパラメータにより複数の音声ファイルの並列処理が可能となり、大規模な文字起こしジョブでGPU利用率を最大化。 - Pythonパイプライン統合: faster-whisperはLangChain、Haystack、カスタムPythonパイプラインに直接組み込めます。whisper.cppをラップする際のサブプロセスオーバーヘッドなし。
どちらをいつ使うか
シナリオから最適なツールへの直接マッピング:
📍 一文で説明
Apple Siliconと組み込み/クロスプラットフォームのターゲットにはwhisper.cppを使用;NVIDIA GPUとPythonパイプラインにはfaster-whisperを使用。
💬 簡潔に説明
Macをお持ちならwhisper.cppを選択 — Appleハードウェアでfaster-whisperより3倍速。NVIDIA GPUを持ちPythonを書くならfaster-whisperを選択 — 高速でGPUメモリを40%節約。
| シナリオ | 最適なツール | 理由 |
|---|---|---|
| Apple Silicon Mac(すべてのモデル) | whisper.cpp | Metal / Core ML高速化 — MacでCPU専用のfaster-whisperより3倍速 |
| NVIDIA GPUサーバー(Linux/Windows) | faster-whisper | CTranslate2 int8 — whisper.cppのCUDAパスより高速かつ低VRAM |
| Pythonデータパイプライン | faster-whisper | ネイティブPython API;サブプロセスラッパー不要;VAD内蔵 |
| Raspberry Pi / 組み込みLinux | whisper.cpp | 純粋なCバイナリ;Pythonランタイムオーバーヘッドなし;ARM NEON最適化 |
| リアルタイム音声アシスタント | whisper.cpp | 低オーバーヘッドのstreamモード;Pi / 組み込みでPythonなしで動作 |
| バッチ文字起こし(大量音声アーカイブ) | faster-whisper | バッチ推論、GPU利用率、Python非同期統合 |
| AMD GPU(Vulkan) | whisper.cpp | Vulkanバックエンドサポート;faster-whisperはCUDA専用 |
| CPU専用Linuxサーバー | faster-whisper | int8量子化でx86 CPUに対して約30%の速度優位性 |
whisper.cppとfaster-whisperを超えて
whisper.cppとfaster-whisperのどちらも標準では提供しない2つの機能 — 話者識別と超高速バッチGPU推論 — を追加する2つのツールがあります。
- WhisperX:** faster-whisperをベースに構築し、単語レベルのタイムスタンプと話者識別を追加 — どの話者がどの言葉を話したかを特定。最適用途:話者ラベル付き会議文字起こし、ポッドキャスト編集、インタビュートランスクリプト。
pip install whisperxでインストールし、識別モデル用のHugging Faceトークンを提供。 - insanely-fast-whisper:** Flash Attention 2サポートを追加するHugging Face Transformersパイプラインラッパーで、NVIDIA ハードウェアで標準faster-whisperよりもはるかに高速なGPU推論を実現。最適用途:NVIDIA GPUでの大量音声アーカイブのバッチ処理。Flash Attention 2対応GPU(Ampere以降:RTX 3000+、A100、H100)が必要。
よくある問題と解決策
よくあるセットアップとランタイムの問題、そして直接の解決策:
- CUDAバージョンの不一致: faster-whisperにはCUDA 11.8以降が必要。
nvcc --versionで確認。CUDAが古い場合は、ドライバーをアップグレードするか、cudatoolkit=11.8でconda環境にfaster-whisperをインストール。 - Metalモデルエクスポートの失敗: Xcode Command Line Toolsのインストールを確認 —
xcode-select --installを実行。Core MLエクスポートスクリプトにはcoremltoolsPythonパッケージが必要:pip install coremltools。 - 無音時の幻聴: 両ツールとも無音の音声セグメントで繰り返しフィラートークンを生成することがある。whisper.cppのstreamモードでは
--no-speech-threshold 0.6を使用するか、faster-whisperのmodel.transcribe()でvad_filter=Trueを使用して無音セグメントを自動的にスキップ。 - large-v3でのメモリ不足: faster-whisperでint8量子化に切り替え(
compute_type="int8")— VRAMを~5 GB(float16)から~2.5 GBに削減。whisper.cppでは量子化されたGGMLバリアントを使用(例:ggml-large-v3-q5_0.bin)でメモリを~3〜4 GBに削減。 - 非英語音声での文字化け: 非英語音声に
.enモデルバリアント(tiny.en、base.en)を使用しないこと — これらは英語専用。多言語モデル(base、small、medium、large-v3)を使用し、言語を明示的に指定:whisper.cppでは-l ja、faster-whisperではlanguage="ja"。 - CPUの推論が遅い: CPUがAVX2命令をサポートしているか確認(最適化されたCPU推論に必要)。Linuxでは
grep avx2 /proc/cpuinfo、Macではsysctl machdep.cpu.featuresで確認。AVX2なしのCPUは汎用SIMDにフォールバックし、2〜3倍遅くなります。
よくある質問
whisper.cppとfaster-whisperで文字起こし精度は同じですか?
はい。両ツールとも同じOpenAI Whisperモデルウェイトを使用しています — モデル自体は同一です。違いは推論ランタイム(C/C++対CTranslate2 Python)のみです。同じ音声ファイルでのWERは絶対値で0.1%以内 — これはビームサーチのランダム性による通常の変動範囲内です。
Apple SiliconのMacでfaster-whisperを使えますか?
はい、ただしCPU専用で動作します — faster-whisperにはMetalサポートがありません。M5 Proでは、faster-whisperのlarge-v3はCPU int8で約3倍速のリアルタイムで動作し、whisper.cppのMetalでの約10倍速と比べると遅いです。ほとんどのMacユーザーにとって、同じモデルでwhisper.cppは3倍速です。Macでfaster-whisperを使う唯一の理由は、すでにPythonパイプラインがfaster-whisperに依存していて速度が重要でない場合です。
音声アシスタントにはどのWhisperモデルサイズを使うべきですか?
リアルタイム音声インターフェースには、Whisper smallが標準推奨です — クリアな英語で3.4% WER、最新のCPUまたはGPUで約200 ms のSTTレイテンシ、2 GB RAMに収まる。非常に制約のあるハードウェア(Raspberry Pi Zero 2W、古いスマートフォン)で約7.6% WERが許容できる場合はtinyを使用。mediumまたはlarge-v3はレイテンシが制約にならないバッチ文字起こしのみに使用。
whisper.cppは英語以外の言語をサポートしていますか?
はい。すべてのWhisper多言語モデル(base、small、medium、large-v3)は99言語をサポートしています。CLIに`-l [言語コード]を追加:日本語は-l ja、ドイツ語は-l de、フランス語は-l fr`など。tiny.enとbase.enモデルは英語専用で、多言語版と比べて英語でわずかに正確です。
CUDAサポート付きのfaster-whisperはどうインストールしますか?
pip install faster-whisperでインストール。CUDAサポートにはCUDA 11.8以降とシステムにcuDNN 8.xのインストールが必要。nvcc --versionでCUDAバージョンを確認。その後、モデルロード時にdevice="cuda"を指定:WhisperModel("large-v3", device="cuda", compute_type="int8")。CUDAが検出されない場合、faster-whisperは自動的にCPUにフォールバックします。
どちらがより正確ですか — whisper.cppかfaster-whisperか?
同一です。両ツールとも同じOpenAI Whisperモデルウェイトを使用し、同じ音声ファイルで同じWERを生成します。whisper.cppとfaster-whisperの違いは速度とプラットフォームサポートであり、文字起こし精度ではありません。実行間で測定されるWERの差はビームサーチの通常の変動範囲内であり、ランタイム自体によるものではありません。
Whisper large-v3を8 GB RAMで実行できますか?
GPUでは可能 — faster-whisperのlarge-v3 int8はVRAMを約2.5 GB使用し、8 GB GPUで動作します。CPU専用ハードウェアでは、8 GB RAMはlarge-v3には不足気味です(float32は約10 GB使用)。CPU専用システムではmedium(5 GB RAM)またはsmall(2 GB RAM)を使用してください。whisper.cppはランタイムオーバーヘッドが低いため、CPUでfaster-whisperよりメモリ効率が高いです。
ローカルWhisperはクラウドSTTと比べてコストはどのくらいですか?
継続的なコストはゼロです。クラウドSTTサービスは音声1分当たり$0.006〜$0.024を請求します — 週8時間の会議を文字起こしする開発者は月$120〜480になります。ローカルWhisperはすでに所有しているハードウェアで動作し、分単位の料金なし、APIキー管理なし、音声データがデバイスから外に出ることもありません。
情報源
- whisper.cpp(GitHub) — ソースコード、ビルド手順、モデルダウンロードスクリプト、Metal/Core MLセットアップガイド。
- faster-whisper(GitHub) — ソースコード、Python APIドキュメント、ベンチマーク結果。
- distil-whisper/distil-large-v3(Hugging Face) — モデルカード、ベンチマーク結果、蒸留Whisperバリアントの使用手順。
- WhisperX(GitHub) — faster-whisperをベースとした単語レベルタイムスタンプと話者識別。
- insanely-fast-whisper(GitHub) — 最大NVIDIA GPUスループットのためのFlash Attention 2 Whisperパイプライン。
- OpenAI Whisper(GitHub) — オリジナルのWhisperモデル、論文、全サイズのモデルカード。
- OpenAI Whisper論文(Radford他、2022年) — 「Robust Speech Recognition via Large-Scale Weak Supervision」。WER値の出典。
- CTranslate2ドキュメント — 量子化の詳細、ハードウェアサポート、int8最適化の根拠。