ķµģ¬ ģģ
- whisper.cppė Apple Siliconģ ģķ ģµģ ģ ė”컬 STT ģ ķģ ėė¤. C/C++ ķ¬ķøė ķėģØģ“ ź°ģģ ģķ“ Core MLź³¼ Apple Metalģ ķģ©ķ©ėė¤ ā Python ģģ”“ģ± ģģ“ M5 Proģģ large-v3ź° ~10ė°° ģ¤ģź° ģėė” ėģķ©ėė¤.
- faster-whisperė NVIDIA GPU ė° Python ķģ“ķė¼ģøģ ģķ ģµģ ģ ė”컬 STT ģ ķģ ėė¤. CTranslate2ģ int8 ģģķė VRAMģ ~40% ģ¤ģ“ź³ ģ²ė¦¬ėģ ģė³ø OpenAI 구ķ ėė¹ ~4ė°° ķ„ģģķµėė¤ ā RTX 4070ģģ large-v3ź° ~2.5GB VRAMė§ģ¼ė” ~12ė°° ģ¤ģź° ģė넼 ė¬ģ±ķ©ėė¤.
- ė ėźµ¬ ėŖØė ėģ¼ķ OpenAI Whisper ėŖØėø ź°ģ¤ģ¹ė„¼ ģ¬ģ©ķ©ėė¤. WER(ėØģ“ ģ¤ė„ģØ)ģ ėģ¼ķ©ėė¤ ā ģ°Øģ“ģ ģ ė°ķģ ģ±ė„ź³¼ ķµķ© ė°©ģģė§ ģģ¼ė©°, ģ ģ¬ ģ ķėģė ģ°Øģ“ź° ģģµėė¤.
- Whisper large-v3ė ģģ“ģģ 2.5% WERė” ģµź³ ģ ģ ķė넼 ģ ź³µķ©ėė¤. ėė¶ė¶ģ ķė”ėģ ģ¬ģ© ģ¬ė”ģģė Whisper small(3.4% WER, 2GB RAM) ėė medium(2.9% WER, 5GB RAM)ģ“ ģėģ ģ ķė ģ¬ģ“ģģ ė ėģ ź· ķģ ģ ź³µķ©ėė¤.
- ģ¤ģź° ģ ģ¬ė ė ėźµ¬ ėŖØėė” ė¬ģ± ź°ė„ķ©ėė¤ ā whisper.cppė
--streamķėź·øė„¼ ķµķ“, faster-whisperė ė“ģ„ VAD(ģģ± ķė ź°ģ§) ķģ“ķė¼ģøģ ķµķ“ ģ§ģķ©ėė¤. ģ¤ģ ģ§ģ° ģź°ģ ėŖØėø ķ¬źø°ģ ė°ė¼ ė¼ģ“ėø ģģ±ė³“ė¤ 0.5~2ģ“ ģ§ģ°ė©ėė¤. - whisper.cppė CPU, Metal, CUDA, Vulkanģģ ėģķ©ėė¤ ā ķ¬ė”ģ¤ ķė«ķ¼ ģė² ėė ģ¬ģ©(Raspberry Pi, Windows GPU 구ģ±, ARM ģė²)ģ ģķ ģ ģ¼ķ ģµģ ģ ėė¤. faster-whisperė CPUģ CUDAė§ ģ§ģķ©ėė¤(Macģģ Metal 미ģ§ģ).
- Raspberry Pi ė° ģė² ėė Linuxģ ź²½ģ°, CPU ģģ whisper.cpp tiny/base ź° ģ¤ģ§ģ ģø ķź³ģ ėė¤ ā Pi 5ģģ tinyź° ~15ė°° ģ¤ģź° ģė, baseź° ~6ė°° ģ¤ģź° ģė. ė ėŖØėø ėŖØė 1GB RAMģ ģģ©ė©ėė¤.
ė¹ ė„ø ģ¬ģ¤ ģ 리
- ė ėźµ¬ ėŖØė: OpenAIģ ģ¤ķģģ¤ Whisper ėŖØėø(MIT ė¼ģ“ģ ģ¤) źø°ė°. ėģ¼ķ ģ ķė ā ė°ķģė§ ė¤ė¦.
- whisper.cpp: Georgi Gerganovź° C/C++ė” ģģ±. CPU(AVX2/NEON), CUDA, Metal(Apple), Vulkan ģ§ģ. Python ė¶ķģ.
- faster-whisper: CTranslate2넼 ģ¬ģ©ķė Python ė¼ģ“ėøė¬ė¦¬. CPU(int8)ģ CUDA ģ§ģ. Apple Metal 미ģ§ģ.
- Whisper ėŖØėø ķ¬źø°: tiny(39M), base(74M), small(244M), medium(769M), large-v3(1.55B). ėŖØė ggml / CTranslate2 ķģ.
- ėė¶ė¶ģ ź²½ģ° ģµģ ģ ėŖØėø: Whisper small ā 3.4% WER, 2GB RAMģģ ėģ, ķėģ CPU ėė GPUģģ 6ė°° ģ¤ģź° ģė.
- RTX 4070 벤ģ¹ė§ķ¬(large-v3): faster-whisper ~12ė°° ģ¤ģź°; whisper.cpp CUDA ~8ė°° ģ¤ģź°. NVIDIAģģė faster-whisper ģ¹.
- M5 Pro 벤ģ¹ė§ķ¬(large-v3): whisper.cpp Metal ~10ė°° ģ¤ģź°; faster-whisper CPU ģ ģ© ~3ė°° ģ¤ģź°. Appleģģė whisper.cpp ģ¹.
ė”컬 ģģ± ģøģģ“ ķģķ ģ“ģ
ķ“ė¼ģ°ė STT ģė¹ģ¤(Google Speech-to-Text, AWS Transcribe, Azure Speech)ė ģ¤ėģ¤ ė¶ė¹ ģźøģ ė¶ź³¼ķė©° ā ģ¼ė°ģ ģ¼ė” $0.006ā$0.024/ė¶ ā ģ¤ėģ¤ė„¼ ģź²© ģė²ė” ģ ģ”ķ©ėė¤. ź°ģø ģ 볓 ė³“ķøź° ģ¤ģķ ģ ķ리ģ¼ģ“ģ (ģė£ ė°ģģ°źø°, ė²ģ ė ¹ģ, ģ ėė¦¬ģ¦ ģøķ°ė·°, źø°ģ ķģ)ģ ź²½ģ°, ė”컬 ģ ģ¬ė ė°ģ“ķ° ė øģ¶ģ ģģ ķ ģ ź±°ķ©ėė¤.
- ź°ģø ģ 볓 볓ķø: ģ¤ėģ¤ź° 기기넼 ė ėģ§ ģģµėė¤. 컓ķė¼ģ“ģøģ¤ė„¼ ģķ ė°ģ“ķ° ģ²ė¦¬ ź³ģ½ģ“ ķģ ģģµėė¤ ā ģ²ė¦¬ź° ė”컬ģģ ģ“루ģ“ģ§ėė¤.
- ė¹ģ©: ė¶ė¹ ģźø ģģ. ģ£¼ė¹ 8ģź° ķģ넼 ģ ģ¬ķė ź°ė°ģė ķ“ė¼ģ°ė STT ź°ź²© ėė¹ ģ $120ā480넼 ģ ģ½ķ ģ ģģµėė¤.
- ģ¤ķė¼ģø: ė¹ķźø°, 볓ģ ģģ¤, ģģ ģ ģø ģøķ°ė·ģ“ ģė ģ§ģģģ ėģķ©ėė¤. API ķ¤ ź“리 ė¶ķģ.
- ģ§ģ° ģź°: ģ ė”ė/ė¤ģ“ė”ė ģė³µ ģģ. ģ¤ģź° ģģ± ģøķ°ķģ“ģ¤ģ ź²½ģ°, ė”컬 ģ²ė¦¬ė STT ģ§ģ° ģź°ģ ķ“ė¼ģ°ėģ 300ā800msģģ 50ā300msė” ėØģ¶ķ©ėė¤.
- 커ģ¤ķ°ė§ģ“ģ¦: ėė©ģøė³ ģ“ķė” ėŖØėøģ ėÆøģø ģ”°ģ ķ©ėė¤. ķėģØģ“ģ ė§ė ėŖØėø ķ¬źø°ė„¼ ģ¤ķķ©ėė¤.
- Home Assistant ķµķ©: ė”컬 Whisperė ģØģ“ķ¬ ģėģ ģģ± ėŖ ė ¹ģ“ ķ ė¤ķøģķ¬ė„¼ ė ėģ§ ģģģ ģ미ķ©ėė¤. ķ“ė¼ģ°ė STT넼 ģģ ķ ė첓ķė ģ ėģØ ģ¤ģ ģ Home Assistantģģģ ė”컬 Whisper ā넼 ģ°øģ”°ķģģģ¤.
Whisper ėŖØėø ķ¬źø° ā ė ėźµ¬ģ ź³µķµ źø°ė°
whisper.cppģ faster-whisper ėŖØė ėģ¼ķ Whisper ėŖØėø ź°ģ¤ģ¹ė„¼ ģ¬ģ©ķė©°, ź°ģģ ķģģ¼ė” ė³ķė©ėė¤(whisper.cppė GGML, faster-whisperė CTranslate2). VRAM/RAM ģģ°ź³¼ ģ ķė ģźµ¬ ģ¬ķģ ė°ė¼ ėŖØėø ķ¬źø°ė„¼ ģ ķķģģģ¤.
| ėŖØėø | ķė¼ėÆøķ° | VRAM / RAM | ģģ“ WER | ģė ė°°ģØ (RTX 4070 ģ¤ģź° ėė¹) |
|---|---|---|---|---|
| tiny | 39M | ~1 GB | 7.6% | ~32Ć |
| base | 74M | ~1 GB | 5.0% | ~16Ć |
| small | 244M | ~2 GB | 3.4% | ~6Ć |
| medium | 769M | ~5 GB | 2.9% | ~2Ć |
| large-v3 | 1.55B | ~10 GB | 2.5% | 1Ć (źø°ģ¤) |
| distil-large-v3 | ~756M | ~4 GB | ~2.6% | ~6Ć |
WER(ėØģ“ ģ¤ė„ģØ) ź°ģ LibriSpeech ķ“린 ķ ģ¤ķø ģøķøģ ėķ Whisper ė ¼ė¬øģģ ź°ģ øģģµėė¤. ė®ģģė” ģ¢ģµėė¤. ģė ė°°ģØģ RTX 4070ģģģ faster-whisper int8 źø°ģ¤ģ ėė¤. distil-large-v3 ź°ģ Distil-Whisper ė ¼ė¬øģģ ź°ģ øģģµėė¤.
Distil-Whisper: ė ė¹ ė„ø ėģ
distil-whisper/distil-large-v3ė large-v3ģ ģ§ģ ģ¦ė„ ė³ķģ¼ė”, ķė¼ėÆøķ°ź° ~50% ģ ģ¼ė©“ģ WERģ“ ģė³øģ ~1% ģ“ė“ė” ģ ģ§ėė©° ~6ė°° ė¹ ė„“ź² ėģķ©ėė¤.** ģ ģ¬ ģėź° ė§ģ§ė§ ģ ķė ķ¼ģ¼ķø ģ“ģģ¼ė” ģ¤ģķ ź²½ģ°ģ ģ¬ė°ė„ø ģ ķģ ėė¤. distil-large-v3ė faster-whisper(ė¤ģ“ķ°ėø CTranslate2 ģ§ģ)ģ whisper.cpp(GGML ķģ ė³ķģ ķµķ“) ėŖØėģ ķøķėģ“, ģ“미 ģ¬ģ© ģ¤ģø ė°ķģģ ķµķ©ė©ėė¤.
- ķė¼ėÆøķ°: ~756M ā large-v3ģ 1.55Bģ ģ½ ģ ė°, ~10GB ėģ ~4GB VRAMģ ģģ©ė©ėė¤.
- ģė: RTX 4070ģģ ~6ė°° ģ¤ģź°(large-v3ģ źø°ģ¤ģø 1Ć ėė¹) ā ģėė medium ėŖØėøź³¼ ģ ģ¬ķė©“ģ ģ ķėė large-v3ģ ź·¼ģ ķ©ėė¤.
- WER: ģģ“ģģ ~2.6% ā large-v3ģ 2.5%ė³“ė¤ ėØ ~0.1% ėģµėė¤. ģ¤ģ ė”ė ģ¼ė°ģ ģø ģģ±ģģ ģ°Øģ“넼 ź±°ģ ėė ģ ģģµėė¤.
- ķøķģ±: faster-whisperģģ ė¤ģ“ķ°ėøė” ėģķ©ėė¤(
WhisperModel("distil-large-v3", device="cuda", compute_type="int8")). whisper.cppģ ź²½ģ°, distil-whisperģ GGML ė³ķ ģ¤ķ¬ė¦½ķøė„¼ ģ¬ģ©ķģ¬ GGML ķģģ¼ė” ė³ķķģģģ¤. - ģµģ ģ¬ģ© ģ¬ė”: ė°°ģ¹ ģ ģ¬ ģģ , VRAMģ“ ģ ķė ģė² ė°°ķ¬, large-v3 ķģ§ģ medium ėŖØėø ģėė” ģķė ėŖØė ģ¬ģ© ģ¬ė”.
- ė¹ź¶ģ„ ģ¬ģ© ģ¬ė”: ė¤źµģ“ ģ ģ¬ ā distil-large-v3ė ģģ“ ģ ģ©ģ ėė¤. ė¤ė„ø ģøģ“ģ ź²½ģ° large-v3 ėė mediumģ ģ¬ģ©ķģģģ¤.
whisper.cpp ā C/C++ ķ¬ķø
whisper.cpp(Georgi Gerganov ģ ģ)ė OpenAI Whisper ėŖØėøģ ģģ C/C++ ģ¬źµ¬ķģ¼ė”, ģ ģģ ķ¬ė”ģ¤ ķė«ķ¼ ģ¶ė” ģ ģµģ ķėģ“ ģģµėė¤. Python, CUDA ķ“ķ·ģ“ ķģ ģģ¼ė©°, Raspberry Piė¶ķ° Apple M5 Pro, Windows CUDA źµ¬ģ±ź¹ģ§ ź±°ģ ėŖØė ķėģØģ“ģģ ėģķ©ėė¤.
- ķė«ķ¼ ģ§ģ: CPU(AVX2, AVX512, ARM NEON), Apple Metal(Core ML), CUDA(NVIDIA), Vulkan(AMD/Intel GPU), OpenCL.
- Apple Silicon ź°ģ : whisper.cppė ėŖØėøģ Core ML ķģģ¼ė” ė“ė³“ė“ Apple Neural Engineģģ ģ¶ė” ģ ź°ė„ķź² ķ©ėė¤. Metalģ ķµķ“ M5 Proģģ large-v3ź° ~10ė°° ģ¤ģź° ģėė” ėģķ©ėė¤ ā ķ“ė¼ģ°ė ģė³µė³“ė¤ ė¹ ė¦ ėė¤.
- ģ¤ģ¹: ģ ģ„ģ넼 ķ“ė” ķź³
make(ėėcmake)넼 ģ¤ķķ©ėė¤. ģ¼ė° ķė«ķ¼ģ© ģ¬ģ ė¹ėė ė°ģ“ėė¦¬ź° ģ ź³µė©ėė¤. Python ģģ”“ģ± ģģ. - ėŖØėø ė¤ģ“ė”ė:
bash ./models/download-ggml-model.sh base.enā GGML ķģģ ėŖØėø ķģ¼ģ ė¤ģ“ė”ėķ©ėė¤(baseģ ź²½ģ° ~142MB). - CLI ģģ:
./main -m models/ggml-base.bin -f audio.wavā WAV ķģ¼ģ ķģ¤ ģ¶ė „ģ¼ė” ģ ģ¬ķ©ėė¤. ķźµģ“ė-l ko넼 ģ¶ź°ķģģģ¤. - ģ¤ģź° ģ¤ķøė¦¼ ėŖØė:
./stream -m models/ggml-base.bin --step 3000 --length 10000ā ė§ģ“ķ¬ģģ 3ģ“ ģ²ķ¬ ėØģė” ģ ģ¬ķ©ėė¤. - Python ėķ¼: pywhispercppģ whisper.cpp넼 ģķ Python ė°ģøė©ģ ģ ź³µķģ¬, Metal ź°ģģ ķ¬ģķģ§ ģź³ Python ķģ“ķė¼ģøģģ ģ¬ģ©ķ ģ ģź² ķ©ėė¤.
- ķź³: ė¤ģ“ķ°ėø VAD(ģģ± ķė ź°ģ§) ģģ. ģ¤ķøė¦¼ ėŖØėė ģ¬ģ© ģ¬ė”ģ ė°ė¼
--stepė°--lengthķė¼ėÆøķ°ė„¼ ģ”°ģ ķ“ģ¼ ķ©ėė¤.
# Build from source (macOS / Linux)
git clone https://github.com/ggerganov/whisper.cpp
cd whisper.cpp
make -j4
# Download a model
bash ./models/download-ggml-model.sh large-v3
# Transcribe a file
./main -m models/ggml-large-v3.bin -f recording.wav
# Enable Metal on Apple Silicon (Core ML)
make -j4 WHISPER_COREML=1
./main -m models/ggml-large-v3-encoder.mlmodelc -f recording.wavfaster-whisper ā CTranslate2 ķ¬ķø
faster-whisper(SYSTRAN ģ ģ)ė CTranslate2넼 ģ¬ģ©ķģ¬ Whisper ģ¶ė” ģ ģ¬źµ¬ķķ Python ė¼ģ“ėøė¬ė¦¬ģ ėė¤ ā int8 ģģķ ģ§ģģ ķµķ“ VRAM ģ¬ģ©ėģ ģ¤ģ“ź³ ģ²ė¦¬ėģ ķ„ģģķ¤ė ź³ ėė” ģµģ ķė C++ ģ¶ė” ģģ§ģ ėė¤. NVIDIA GPUģģ faster-whisperė ģ¬ģ© ź°ė„ķ ź°ģ„ ė¹ ė„ø ė”컬 Whisper 구ķ첓ģ ėė¤.
- ķė«ķ¼ ģ§ģ: CPU(int8 ģģķ)ģ NVIDIA GPU CUDA. Apple Metal 미ģ§ģ ā Macģģė CPU ģ ģ©ģ¼ė”ė§ ėģķ©ėė¤.
- int8 ź°ģ : CTranslate2ģ int8 ģģķė VRAMģ ~40% ģ¤ģ“ź³ float16 ėė¹ ģ¶ė” ģė넼 ~2ė°° ķ„ģģķ¤ė©°, WER ģķ„ģ 묓ģķ ģģ¤(ģ ėź° < 0.1%)ģ ėė¤.
- ģ¤ģ¹:
pip install faster-whisperā 컓ķģ¼ ė¶ķģ. CUDA ģ§ģģ CUDA 11.8+ģ cuDNN 8.xź° ķģķ©ėė¤. - ė“ģ„ VAD: faster-whisperģė Silero VAD ķµķ©ģ“ ķ¬ķØėģ“ ģģ“ ģģ±ģ“ ģė ģ¤ėģ¤ ģøź·øėؼķøė„¼ ģėģ¼ė” 걓ėėėė¤ ā ģ¤ģź° ģ ģ¬ ķģ“ķė¼ģøģ ķģģ ģ ėė¤.
- ė¤ģ“ķ°ėø Python: ģ§ģ ģ ģø Python APIė LLM, ģ¤ėģ¤ ģ²ė¦¬ ė¼ģ“ėøė¬ė¦¬, ģ¹ ķė ģģķ¬ģģ ķµķ©ģ ģ©ģ“ķź² ķ©ėė¤.
- ģė: RTX 4070ģģ large-v3 int8ģ“ ~2.5GB VRAMģ ģ¬ģ©ķė©° ~12ė°° ģ¤ģź° ģėė” ėģķ©ėė¤. CPU int8ģ tiny ėŖØėøģģ ~20ė°° ģ¤ģź° ģė넼 ė¬ģ±ķ©ėė¤.
- ė°°ģ¹ ģ²ė¦¬: faster-whisperė ėėģ ģ¤ėģ¤ ķģ¼ģ ķØģØģ ģ¼ė” ģ²ė¦¬ķźø° ģķ ė°°ģ¹ ģ¶ė” ģ ģ§ģķ©ėė¤.
- ķź³: Macģģ Metal 미ģ§ģ ā Apple Siliconģģ CPU ģ ģ©ģ¼ė”ė§ ėģķė©°, Metalģ ģ¬ģ©ķė whisper.cppģ ~10ė°° ėė¹ large-v3ė” ~3ė°° ģ¤ģź° ģė넼 ė¬ģ±ķ©ėė¤.
from faster_whisper import WhisperModel
# Load model (downloads automatically on first run)
model = WhisperModel("large-v3", device="cuda", compute_type="int8")
# Transcribe
segments, info = model.transcribe("audio.wav", beam_size=5)
print(f"Detected language: {info.language} (probability: {info.language_probability:.2f})")
for segment in segments:
print(f"[{segment.start:.2f}s ā {segment.end:.2f}s] {segment.text}")ģ§ģ ė¹źµ: 벤ģ¹ė§ķ¬ ķ
ėŖØė 벤ģ¹ė§ķ¬ė ė¬ė¦¬ ėŖ ģėģ§ ģė ķ large-v3 ėŖØėøģ ģ¬ģ©ķ©ėė¤. ģėė ģ¤ģź° ė°°ģØė” ģø”ģ ė©ėė¤(ģ: 10Ćė 60ė¶ ģ¤ėģ¤ė„¼ 6ė¶ģ ģ ģ¬ķØģ ģ미). VRAM ģģ¹ė GPU ģ¤ķ źø°ģ¤ģ“ė©°, RAM ģģ¹ė CPU ģ¤ķ źø°ģ¤ģ ėė¤.
š ķ 문ģ„ģ¼ė”
Apple Siliconģģ Metalģ ģ¬ģ©ķ whisper.cppė large-v3넼 ~10ė°° ģ¤ģź° ģėė” ģ²ė¦¬ķź³ , NVIDIA GPUģģ int8ģ ģ¬ģ©ķ faster-whisperė ~12ė°° ģ¤ģź° ģė넼 ė¬ģ±ķ©ėė¤ ā ź° ėźµ¬ė ģģ ģ ėģ ķė«ķ¼ģģ ź²°ģ ģ ģø ģ°ģ넼 볓ģ ėė¤.
š¬ ģ½ź² ė§ķė©“
Macģģė whisper.cpp넼 ģ ķķģģģ¤(Apple Neural Engine ķģ©), Windows/Linuxģ NVIDIA GPUģģė faster-whisper넼 ģ ķķģģģ¤(ģ¤ģź°ė³“ė¤ 12ė°° ė¹ ė„“ź² ģ¤ėģ¤ė„¼ ģ²ė¦¬ķė©° GPU ė©ėŖØė¦¬ė„¼ 40% ė ģ¬ģ©ķ©ėė¤).
| ģ§ķ | whisper.cpp (large-v3) | faster-whisper (large-v3) |
|---|---|---|
| ķė«ķ¼ / ģøģ“ | C/C++ (ķ¬ė”ģ¤ ķė«ķ¼) | Python (CTranslate2) |
| GPU ģ§ģ | CUDA, Metal, Vulkan | CUDA ģ ģ© |
| CPU ģµģ ķ | AVX2, ARM NEON | int8 ģģķ |
| ģė ā RTX 4070, large-v3 | ~8ė°° ģ¤ģź° | ~12ė°° ģ¤ģź° ā |
| ģė ā M5 Pro, large-v3 | ~10ė°° ģ¤ģź° (Metal) ā | ~3ė°° ģ¤ģź° (CPU ģ ģ©) |
| ģė ā CPU ģ ģ© (x86), base | ~15ė°° ģ¤ģź° | ~20ė°° ģ¤ģź° ā |
| VRAM ā large-v3, GPU | ~3 GB | ~2.5 GB (int8) ā |
| Python ķµķ© | ėķ¼ ķģ (pywhispercpp) | ė¤ģ“ķ°ėø ā |
| VAD (침묵 ź°ģ§) | ģė (--step ģ”°ģ ) | ė“ģ„ (Silero VAD) ā |
| ģ¤ģź° ģ¤ķøė¦¬ė° | ģ (--stream ķėź·ø) ā | ģ (VAD ķģ“ķė¼ģø) |
| WER ģ ķė (large-v3) | 2.5% (ėģ¼) | 2.5% (ėģ¼) |
| Python ģģ”“ģ± | ģģ ā | Python 3.8+ |
| Raspberry Pi / ģė² ėė | ģ ā C ė°ģ“ė리 ā | ģ ķģ ā Python ģ¤ė²ķ¤ė |
| ģ¶ė „ ķģ | SRT, VTT, JSON, CSV, txt | Python ź°ģ²“ (start, end, text) |
whisper.cppė ģ¶ė „ģ ķģ¤ ģė§ ė° ģ ģ¬ ķģ(SRT, VTT, JSON, CSV, txt)ģ¼ė” ģ§ģ ģģ±ķ©ėė¤ ā ģ¶ź° ģ½ė ģģ“ ėģ¤ķ¬ģ ķģ¼ģ“ ķģķ ģė§ ģķ¬ķė”ģ ģ“ģģ ģ
ėė¤. faster-whisperė start, end, text ģģ±ģ ź°ģ§ ģøź·øėØ¼ķø ź°ģ²“ģ Python ģ ėė ģ“ķ°ė„¼ ė°ķķ©ėė¤ ā ģøź·øėØ¼ķø ķ
ģ¤ķøė„¼ ģ¤ź° ķģ¼ ģģ± ģģ“ ė¤ģ“ģ¤ķøė¦¼ ėŖØėøģ ģ§ģ ģ ė¬ķė LLM ķģ“ķė¼ģø ģ°ź²°ģ ģ“ģģ ģ
ėė¤. ģė§ ģģ±ģ ź²½ģ° whisper.cppź° ė ź°ėØķ©ėė¤. ģøź·øėؼķøė„¼ ķė”ź·øėė° ė°©ģģ¼ė” ģ²ė¦¬ķė ķģ“ķė¼ģøģ ź²½ģ° faster-whisperź° ė ź°ėØķ©ėė¤.
ģ¤ģź° ģ ģ¬ ģ¤ģ
ģ¤ģź° ģ ģ¬ė ė§ģ“ķ¬ģģ ė¤ģ“ģ¤ė ģ¤ėģ¤ė„¼ ģ²ķ¬ ėØģė” ģ²ė¦¬ķģ¬ ģģ±ė³“ė¤ ģ½ź° ģ§ģ°ė ķ ģ¤ķøė„¼ ģģ±ķ©ėė¤. ė ėźµ¬ ėŖØė ģ“넼 ģ§ģķģ§ė§, ģė” ė¤ė„ø ķøė ģ“ėģ¤ķź° ģģµėė¤.
- whisper.cpp ģ¤ķøė¦¼ ėŖØė:
./stream -m models/ggml-small.bin --step 3000 --length 10000 -t 4넼 ģ¤ķķ©ėė¤. 3ģ“ ģ²ķ¬ė„¼ ģ²ė¦¬ķė©°, small ėŖØėøė” ~0.5ā1.5ģ“ģ ģ§ģ° ģź°. Python ė¶ķģ. - faster-whisper VAD ķģ“ķė¼ģø:
model.transcribe()ģģvad_filter=True넼 ģ¬ģ©ķ©ėė¤. Silero VADź° ģ¹Øė¬µ ź²½ź³ģģ ģėģ¼ė” ģ¤ėģ¤ė„¼ ģøź·øėؼķøķķ©ėė¤ ā ź³ ģ źøøģ“ ģ°½ė³“ė¤ ė ģģ°ģ¤ė¬ģ“ ģ²ķ¬. - ģ¤ģ ģ§ģ° ģź°: small ėė medium ėŖØėøė” ė¼ģ“ėø ģģ±ė³“ė¤ 0.5ā2ģ“ ģ§ģ°. ė ė®ģ ģ§ģ° ģź°(< 0.5ģ“, ėØ WER ė ėģ)ģ ģķ“ģė tiny넼 ģ¬ģ©ķģģģ¤.
- ģ¤ģź°ģ© ėŖØėø ģ ķ: small ėė baseź° ģ¤ģ§ģ ģø ģµģ ģ§ģ ģ ėė¤ ā ģģ±ģ ė°ė¼ź°źø°ģ ģ¶©ė¶ķ ė¹ ė„“ź³ , 깨ėķ ģ¤ėģ¤ģ ėķ“ ģ¶©ė¶ķ ģ ķķ©ėė¤. ģ ģ© GPUź° ģė ķ ģ¤ģź°ģģ large-v3ė ķ¼ķģģģ¤.
- ė§ģ“ķ¬ ģ ė „: whisper.cppė SDL2 ėė portaudio넼 ķµķ“ ģģ ģ¤ėģ¤ė„¼ ģ½ģµėė¤. faster-whisperė ėŖØė Python ģ¤ėģ¤ ė¼ģ“ėøė¬ė¦¬(sounddevice, pyaudio, soundfile)ģģ ģ¤ėģ¤ ė°°ģ“ģ ģ½ģµėė¤.
- ģģ ģ±: whisper.cppģ ģ¤ķøė¦¼ ėŖØėė 침묵 ģ¤ģ ė°ė³µ ģ±ģ ķ ķ°("ķź°")ģ ģģ±ķ ģ ģģµėė¤.
--suppress-blankģ--no-speech-thresholdė” ģµģ ķģģģ¤.
Apple Silicon: whisper.cpp ģ¹
M1, M2, M3, M4, M5 ķģ¬ Macģ ź²½ģ°, Core ML / Metal ź°ģģ ģ¬ģ©ķė whisper.cppź° ģ¬ė°ė„ø ėźµ¬ģ ėė¤ ā ģģ¬ģ ģ¬ģ§ź° ģģµėė¤. faster-whisperė Metal ģ§ģģ“ ģģ“ Macģģ CPU ģ ģ©ģ¼ė”ė§ ėģķė©° large-v3ė” ~3ė°° ģ¤ģź° ģė넼 ė¬ģ±ķ©ėė¤. Metalģ ģ¬ģ©ķė whisper.cppė M5 Proģģ ~10ė°° ģ¤ģź° ģė넼 ė¬ģ±ķ©ėė¤ ā 3ė°°ģ ģė ģ“ģ .
- Core ML ė“ė³“ė“źø°:
./models/generate-coreml-model.sh large-v3넼 ģ¤ķķģ¬ ģøģ½ė넼 Core ML ķģģ¼ė” ė“볓ė ėė¤. ģ“넼 ķµķ“ ģøģ½ė ģ¶ė” ģ“ Apple Neural Engineģ¼ė” ģ¤ķė”ėė©ėė¤. - M5 Pro 벤ģ¹ė§ķ¬(large-v3, Metal): ~10ė°° ģ¤ģź°. 60ė¶ ģ¤ėģ¤ė„¼ ~6ė¶ģ ģ ģ¬. ģ°øź³ : M5 Proė 2026ė 3ģ ģ¶ģ ā ģ“ź²ģ 커뮤ėķ°ģ ģ“źø° 벤ģ¹ė§ķ¬ģ ėė¤. whisper.cppź° M5 Neural Engineģ ģµģ ķķė ģ ė°ģ“ķøģ ė°ė¼ ģ±ė„ģ“ ķ„ģė ģ ģģµėė¤.
- M3 MacBook Air 벤ģ¹ė§ķ¬(large-v3, Metal): ~7ė°° ģ¤ģź°. 60ė¶ģ ~8.5ė¶ģ.
- ė©ėŖØė¦¬: ķµķ© ė©ėŖØė¦¬ė ė³ėģ VRAMģ“ ģģģ ģ미ķ©ėė¤ ā 16GB M5 Proė large-v3(~3GB)넼 ė¤ė„ø ķė”ģøģ¤ģ ķØź» ķøģķź² ģ¤ķķ ģ ģģµėė¤.
- Macģģģ faster-whisper: CPU ģ ģ©, int8. Large-v3ė” ~3ė°° ģ¤ģź° ģė. ģ¼ź° ė°°ģ¹ ģ ģ¬ģė ģ¬ģ© ź°ė„ķģ§ė§, ģ¤ģź°ģ“ė ģź°ģ 민ź°ķ ģķ¬ķė”ģė ģ ķ©ķģ§ ģģµėė¤.
- ź¶ģ„ ģ¬ķ: Macģģģ ėŖØė STT ģģ ģ whisper.cpp넼 ģ¬ģ©ķģģģ¤. Metal ź°ģģ ģ ģ§ķė©“ģ Python ķµķ©ģ“ ķģķ ź²½ģ° pywhispercppģ ģ¶ź°ķģģģ¤.
NVIDIA GPU: faster-whisper ģ¹
NVIDIA GPU넼 ķģ¬ķ Windows ė° Linuxģģė faster-whisperź° ģ°ģķ ģ ķģ ėė¤. CTranslate2ģ CUDA ė°±ģėė whisper.cppģ CUDA ź²½ė”ė³“ė¤ ė ģµģ ķėģ“ ģģµėė¤ ā RTX 4070ģģ large-v3ģ¼ė” ~12ė°° ė ~8ė°° ģ¤ģź° ģė, ė ė®ģ VRAM ģ¬ģ©ė.
- RTX 4070(12GB) 벤ģ¹ė§ķ¬(large-v3 int8): ~12ė°° ģ¤ģź°, ~2.5GB VRAM.
- RTX 3060(12GB) 벤ģ¹ė§ķ¬(large-v3 int8): ~8ė°° ģ¤ģź°, ~2.5GB VRAM.
- RTX 4060(8GB) 벤ģ¹ė§ķ¬(large-v3 int8): ~7ė°° ģ¤ģź°, ~2.5GB VRAM ā ģ¬ģ ģź² ģģ©ė©ėė¤.
- int8 vs float16: int8ģ ~2ė°° ė¹ ė„“ź³ VRAMģ ~40% ģ ź² ģ¬ģ©ķė©° ģ ķė ģģ¤ģ 묓ģķ ģģ¤ģ
ėė¤. NVIDIAģģė ķģ
compute_type="int8"ģ ģ¬ģ©ķģģģ¤. - ė°°ģ¹ ģ²ė¦¬: faster-whisperģ
batched=Trueķė¼ėÆøķ°ė ģ¬ė¬ ģ¤ėģ¤ ķģ¼ģ ė³ė ¬ ģ²ė¦¬ė„¼ ź°ė„ķź² ķģ¬, ėź·ėŖØ ģ ģ¬ ģģ ģģ GPU ķģ©ģ ź·¹ėķķ©ėė¤. - Python ķģ“ķė¼ģø ķµķ©: faster-whisperė LangChain, Haystack ė° ģ»¤ģ¤ķ Python ķģ“ķė¼ģøģ ģ§ģ ķµķ©ė©ėė¤. whisper.cpp ėķź³¼ ė¹źµķģ¬ ģėøķė”ģøģ¤ ģ¤ė²ķ¤ė ģģ.
ģ“ė ź²ģ ģ¬ģ©ķ“ģ¼ ķėź°
ģė리ģ¤ģģ ģ ķ©ķ ėźµ¬ė”ģ ģ§ģ ģ ģø ė§¤ķ:
š ķ 문ģ„ģ¼ė”
Apple Silicon ė° ģė² ėė/ķ¬ė”ģ¤ ķė«ķ¼ ėģģģė whisper.cpp넼, NVIDIA GPU ė° Python ķģ“ķė¼ģøģģė faster-whisper넼 ģ¬ģ©ķģģģ¤.
š¬ ģ½ź² ė§ķė©“
Macģ“ ģė¤ė©“ whisper.cpp넼 ģ ķķģģģ¤ ā Apple ķėģØģ“ģģ faster-whisperė³“ė¤ 3ė°° ė¹ ė¦ ėė¤. NVIDIA GPUź° ģź³ Pythonģ ģģ±ķė¤ė©“ faster-whisper넼 ģ ķķģģģ¤ ā ė ė¹ ė„“ź³ GPU ė©ėŖØė¦¬ė„¼ 40% ė ķģė” ķ©ėė¤.
| ģėė¦¬ģ¤ | ģµģ ģ ģ ķ | ģ“ģ |
|---|---|---|
| Apple Silicon Mac (ėŖØė ėŖØėø) | whisper.cpp | Metal / Core ML ź°ģ ā Macģģ CPU ģ ģ©ģø faster-whisperė³“ė¤ 3ė°° ė¹ ė¦ |
| NVIDIA GPU ģė² (Linux/Windows) | faster-whisper | CTranslate2 int8 ā whisper.cppģ CUDA ź²½ė”ė³“ė¤ ė¹ ė„“ź³ VRAM ģ ź² ģ¬ģ© |
| Python ė°ģ“ķ° ķģ“ķė¼ģø | faster-whisper | ė¤ģ“ķ°ėø Python API; ģėøķė”ģøģ¤ ėķ¼ ģģ; ė“ģ„ VAD |
| Raspberry Pi / ģė² ėė Linux | whisper.cpp | ģģ C ė°ģ“ė리; Python ė°ķģ ģ¤ė²ķ¤ė ģģ; ARM NEON ģµģ ķ |
| ģ¤ģź° ģģ± ģ“ģģ¤ķ“ķø | whisper.cpp | ė®ģ ģ¤ė²ķ¤ėģ ģ¤ķøė¦¼ ėŖØė; Pi / ģė² ėėģģ Python ģģ“ ėģ |
| ė°°ģ¹ ģ ģ¬ (ėģ©ė ģ¤ėģ¤ ķģ¼) | faster-whisper | ė°°ģ¹ ģ¶ė” , GPU ķģ©, ė¹ėźø° Python ķµķ© |
| AMD GPU (Vulkan) | whisper.cpp | Vulkan ė°±ģė ģ§ģ; faster-whisperė CUDA ģ ģ© |
| CPU ģ ģ© Linux ģė² | faster-whisper | int8 ģģķź° x86 CPUģģ ~30% ģė ģ“ģ ģ ź³µ |
whisper.cppģ faster-whisper넼 ėģ“ģ
ė ź°ģ§ ģ¶ź° ėźµ¬ė Whisper넼 ė źø°ė³ø ėźµ¬ ėŖØėź° źø°ė³øģ ģ¼ė” ģ ź³µķģ§ ģė źø°ė„ģ¼ė” ķģ„ķ©ėė¤: ķģ ė¶ė¦¬(diarization)ģ ģ“ź³ ģ GPU ė°°ģ¹ ģ¶ė” .
- WhisperX:** faster-whisper źø°ė°ģ¼ė” 구ģ¶ė WhisperXė ėØģ“ ģģ¤ ķģģ¤ķ¬ķģ ķģ ė¶ė¦¬ė„¼ ģ¶ź°ķ©ėė¤ ā ģ“ė¤ ķģź° ģ“ė¤ ėØģ“넼 ė§ķėģ§ ģė³ķ©ėė¤. ģµģ ģ¬ģ© ģ¬ė”: ķģ ė ģ“ėøģ“ ģė ķģ ģ ģ¬, ķģŗģ¤ķø ķøģ§, ģøķ°ė·° ģ ģ¬.
pip install whisperxė” ģ¤ģ¹ķź³ ė¶ė¦¬ ėŖØėøģ ėķ Hugging Face ķ ķ°ģ ģ ź³µķģģģ¤. - insanely-fast-whisper:** Flash Attention 2 ģ§ģģ ģ¶ź°ķė Hugging Face Transformers ķģ“ķė¼ģø ėķ¼ė”, NVIDIA ķėģØģ“ģģ ķģ¤ faster-whisperė³“ė¤ ķØģ¬ ė¹ ė„ø GPU ģ¶ė” ģ ģ ź³µķ©ėė¤. ģµģ ģ¬ģ© ģ¬ė”: NVIDIA GPUģģ ėģ©ė ģ¤ėģ¤ ķģ¼ ė°°ģ¹ ģ²ė¦¬. Flash Attention 2 ķøķ GPU ķģ(Ampere ģ“ģ: RTX 3000+, A100, H100).
ģ¼ė°ģ ģø ė¬øģ ė° ķ“ź²°ģ±
ź°ģ„ ģ주 ė°ģķė ģ¤ģ ė° ė°ķģ 문ģ ģ ģ§ģ ģ ģø ķ“ź²°ģ± :
- CUDA ė²ģ ė¶ģ¼ģ¹: faster-whisperė CUDA 11.8 ģ“ģģ“ ķģķ©ėė¤.
nvcc --versionģ¼ė” ķģøķģģģ¤. CUDAź° ģ“ģ ė²ģ ģø ź²½ģ° ėė¼ģ“ė²ė„¼ ģ ė°ģ“ķøķź±°ėcudatoolkit=11.8ģ ģ¬ģ©ķģ¬ conda ķź²½ģ faster-whisper넼 ģ¤ģ¹ķģģģ¤. - Metal ėŖØėø ė“ė³“ė“źø° ģ¤ķØ: Xcode Command Line Toolsź° ģ¤ģ¹ėģ“ ģėģ§ ķģøķģģģ¤ ā
xcode-select --installģ ģ¤ķķ©ėė¤. Core ML ė“ė³“ė“źø° ģ¤ķ¬ė¦½ķøėcoremltoolsPython ķØķ¤ģ§ź° ķģķ©ėė¤:pip install coremltools. - 침묵 ģ¤ ķź°: ė ėźµ¬ ėŖØė ģģ±ģ“ ģė ģ¤ėģ¤ ģøź·øėؼķøģģ ė°ė³µ ģ±ģ ķ ķ°ģ ģģ±ķ ģ ģģµėė¤. whisper.cpp ģ¤ķøė¦¼ ėŖØėģģė
--no-speech-threshold 0.6ģ, faster-whisperģmodel.transcribe()ģģėvad_filter=True넼 ģ¬ģ©ķģ¬ ģėģ¼ė” ģģ±ģ“ ģė ģøź·øėؼķøė„¼ 걓ėė°ģģģ¤. - large-v3 ė©ėŖØė¦¬ ė¶ģ”±: faster-whisperģģ int8 ģģķė” ģ ķķģģģ¤(
compute_type="int8") ā VRAMģ ~5GB(float16)ģģ ~2.5GBė” ģ¤ģ ėė¤. whisper.cppģģė ģģķė GGML ė³ķģ ģ¬ģ©ķģģģ¤(ģ:ggml-large-v3-q5_0.bin) ā ė©ėŖØė¦¬ė„¼ ~3ā4GBė” ģ¤ģ ėė¤. - ģģ“ź° ģė ģ¤ėģ¤ģģ ģģė³¼ ģ ģė ģ¶ė „: ģģ“ź° ģė ģģ±ģ
.enėŖØėø ė³ķ(tiny.en, base.en)ģ ģ¬ģ©ķģ§ ė§ģģģ¤ ā ģ“ź²ė¤ģ ģģ“ ģ ģ©ģ ėė¤. ė¤źµģ“ ėŖØėø(base, small, medium, large-v3)ģ ģ¬ģ©ķź³ ģøģ“넼 ėŖ ģģ ģ¼ė” ģ§ģ ķģģģ¤: whisper.cppģģ-l koėė faster-whisperģģlanguage="ko". - ė린 CPU ģ¶ė” : CPUź° AVX2 ėŖ
ė ¹ģ“넼 ģ§ģķėģ§ ķģøķģģģ¤(ģµģ ķė CPU ģ¶ė” ģ ķģ). Linuxģģ
grep avx2 /proc/cpuinfoėė Macģģsysctl machdep.cpu.featuresė” ķģøķģģģ¤. AVX2 ģė CPUė ģ¼ė° SIMDė” ķ“ė°±ėģ“ 2ā3ė°° ė립ėė¤.
ģ주 묻ė ģ§ė¬ø
whisper.cppģ faster-whisperģ ģ ģ¬ ģ ķėė ėģ¼ķ©ėź¹?
ź·øė ģµėė¤. ė ėźµ¬ ėŖØė ėģ¼ķ OpenAI Whisper ėŖØėø ź°ģ¤ģ¹ė„¼ ģ¬ģ©ķ©ėė¤ ā ėŖØėø ģ첓ė ėģ¼ķ©ėė¤. ģ°Øģ“ė ģ¶ė” ė°ķģ(C/C++ vs CTranslate2 Python)ģė§ ģģµėė¤. ėģ¼ķ ģ¤ėģ¤ ķģ¼ģ ėķ WERģ ģė” ģ ėź° 0.1% ģ“ė“ė”, ģ“ė beam search 묓ģģģ±ģ¼ė” ģøķ ģ ģģ ģø ė³ė ė²ģ ė“ģ ėė¤.
Apple Silicon Macģģ faster-whisper넼 ģ¬ģ©ķ ģ ģģµėź¹?
ģ, ķģ§ė§ CPU ģ ģ©ģ¼ė”ė§ ėģķ©ėė¤ ā faster-whisperė Metal ģ§ģģ“ ģģµėė¤. M5 Proģģ faster-whisper large-v3ė ~3ė°° ģ¤ģź° ģė(CPU int8)ė” ėģķė©°, Metalģ ģ¬ģ©ķė whisper.cppģ ~10ė°°ģ ė¹źµė©ėė¤. ėė¶ė¶ģ Mac ģ¬ģ©ģģź² whisper.cppė ėģ¼ķ ėŖØėøė” 3ė°° ė ė¹ ė¦ ėė¤. Macģģ faster-whisper넼 ģ¬ģ©ķė ģ ģ¼ķ ģ“ģ ė Python ķģ“ķė¼ģøģ“ ģ“미 ģ“ģ ģģ”“ķź³ ģģ¼ė©° ģėź° ģ¤ģķģ§ ģģ ź²½ģ°ģ ėė¤.
ģģ± ģ“ģģ¤ķ“ķøģ ģ“ė¤ Whisper ėŖØėø ķ¬źø°ė„¼ ģ¬ģ©ķ“ģ¼ ķ©ėź¹?
ģ¤ģź° ģģ± ģøķ°ķģ“ģ¤ģ ź²½ģ°, Whisper smallģ“ ķģ¤ ź¶ģ„ ģ¬ķģ ėė¤ ā ź¹Øėķ ģģ“ģģ 3.4% WER, ķėģ ģø CPU ėė GPUģģ ~200ms STT ģ§ģ° ģź°, 2GB RAMģ ģģ©ė©ėė¤. ķėģØģ“ź° ė§¤ģ° ģ ķė ź²½ģ°(Raspberry Pi Zero 2W, 구ķ ģ ķźø°) ~7.6% WERģ ķģ©ķ ģ ģė¤ė©“ tiny넼 ģ¬ģ©ķģģģ¤. ģ§ģ° ģź°ģ“ ģ ģ½ģ“ ģė ė°°ģ¹ ģ ģ¬ģ ź²½ģ°ģė§ medium ėė large-v3넼 ģ¬ģ©ķģģģ¤.
whisper.cppė ģģ“ ģøģ ģøģ“넼 ģ§ģķ©ėź¹?
ź·øė ģµėė¤. ėŖØė ė¤źµģ“ Whisper ėŖØėø(base, small, medium, large-v3)ģ 99ź° ģøģ“넼 ģ§ģķ©ėė¤. CLIģ `-l [ģøģ“ ģ½ė]넼 ģ¶ź°ķģģģ¤: ķźµģ“ė -l ko, ė
ģ¼ģ“ė -l de, ģ¼ė³øģ“ė -l ja` ė±. tiny.en ė° base.en ėŖØėøģ ģģ“ ģ ģ©ģ“ė©° ė¤źµģ“ ėģė¬¼ė³“ė¤ ģģ“ģģ ģ½ź° ė ģ ķķ©ėė¤.
CUDA ģ§ģģ ķ¬ķØķģ¬ faster-whisper넼 ģ“ė»ź² ģ¤ģ¹ķ©ėź¹?
pip install faster-whisperė” ģ¤ģ¹ķ©ėė¤. CUDA ģ§ģģ ģģ¤ķ
ģ CUDA 11.8 ģ“ģź³¼ cuDNN 8.xź° ģ¤ģ¹ėģ“ ģģ“ģ¼ ķ©ėė¤. nvcc --versionģ¼ė” CUDA ė²ģ ģ ķģøķģģģ¤. ź·øė° ė¤ģ ėŖØėø ė”ė© ģ device="cuda"넼 ģ§ģ ķ©ėė¤: WhisperModel("large-v3", device="cuda", compute_type="int8"). CUDAź° ź°ģ§ėģ§ ģģ¼ė©“ faster-whisperė ģėģ¼ė” CPUė” ķ“ė°±ķ©ėė¤.
whisper.cppģ faster-whisper ģ¤ ģ“ė ź²ģ“ ė ģ ķķ©ėź¹?
ėģ¼ķ©ėė¤. ė ėźµ¬ ėŖØė ėģ¼ķ OpenAI Whisper ėŖØėø ź°ģ¤ģ¹ė„¼ ģ¬ģ©ķė©° ėģ¼ķ ģ¤ėģ¤ ķģ¼ģ ėķ“ ėģ¼ķ WERģ ģģ±ķ©ėė¤. whisper.cppģ faster-whisperģ ģ°Øģ“ģ ģ ģėģ ķė«ķ¼ ģ§ģģ“ģ§ ģ ģ¬ ģ ķėź° ģėėė¤. ģ¤ķ ź°ģ ģø”ģ ėė WER ģ°Øģ“ė ė°ķģ ģ첓ģģ ė¹ė”Æė ź²ģ“ ģėė¼ beam searchģ ģ ģģ ģø ė³ė ė²ģ ė“ģ ģģµėė¤.
8GB RAMģ¼ė” Whisper large-v3넼 ģ¤ķķ ģ ģģµėź¹?
GPUģģė ź°ė„ķ©ėė¤ ā faster-whisperģ large-v3 int8ģ ~2.5GB VRAMģ ģ¬ģ©ķė©° 8GB GPUģģ ėģķ©ėė¤. CPU ģ ģ© ķėģØģ“ģģ 8GB RAMģ large-v3(float32ė ~10GB ģ¬ģ©)ģ ė¹ ėÆķ©ėė¤. CPU ģ ģ© ģģ¤ķ ģģė medium(5GB RAM) ėė small(2GB RAM)ģ ģ¬ģ©ķģģģ¤. whisper.cppė ė°ķģ ģ¤ė²ķ¤ėź° ģ ģ“ CPUģģ faster-whisperė³“ė¤ ė©ėŖØė¦¬ ķØģØģ“ ėģµėė¤.
ė”컬 Whisper vs ķ“ė¼ģ°ė STTģ ė¹ģ©ģ ģ¼ė§ģ ėź¹?
ģ§ģģ ģø ė¹ģ©ģ ģģµėė¤. ķ“ė¼ģ°ė STT ģė¹ģ¤ė ģ¤ėģ¤ ė¶ė¹ $0.006ā$0.024넼 ė¶ź³¼ķ©ėė¤ ā ģ£¼ė¹ 8ģź° ķģ넼 ģ ģ¬ķė ź°ė°ģģź²ė ģ $120ā480ģ ėė¤. ė”컬 Whisperė ģ“미 ģģ ķ ķėģØģ“ģģ ėģķė©°, ė¶ė¹ ģźø ģź³ , API ķ¤ ź“리 ģź³ , ģ¤ėģ¤ ė°ģ“ķ°ź° 기기넼 ė ėģ§ ģģµėė¤.
ģ°øź³ ģė£
- GitHubģ whisper.cpp ā ģģ¤ ģ½ė, ė¹ė ģ§ģ¹Ø, ėŖØėø ė¤ģ“ė”ė ģ¤ķ¬ė¦½ķø, Metal/Core ML ģ¤ģ ź°ģ“ė.
- GitHubģ faster-whisper ā ģģ¤ ģ½ė, Python API 문ģ, 벤ģ¹ė§ķ¬ ź²°ź³¼.
- Hugging Faceģ distil-whisper/distil-large-v3 ā ėŖØėø ģ¹“ė, 벤ģ¹ė§ķ¬ ź²°ź³¼, ģ¦ė„ė Whisper ė³ķ ģ¬ģ© ģ§ģ¹Ø.
- GitHubģ WhisperX ā faster-whisper źø°ė° ėØģ“ ģģ¤ ķģģ¤ķ¬ķ ė° ķģ ė¶ė¦¬.
- GitHubģ insanely-fast-whisper ā NVIDIA GPU ģµė ģ²ė¦¬ėģ ģķ Whisper Flash Attention 2 ķģ“ķė¼ģø.
- GitHubģ OpenAI Whisper ā ģė³ø Whisper ėŖØėø, ė ¼ė¬ø, ėŖØė ķ¬źø°ģ ėŖØėø ģ¹“ė.
- OpenAI Whisper ė ¼ė¬ø (Radford et al., 2022) ā "Robust Speech Recognition via Large-Scale Weak Supervision". WER ź°ģ ģ¶ģ².
- CTranslate2 문ģ ā ģģķ ģøė¶ ģ¬ķ, ķėģØģ“ ģ§ģ, int8 ģµģ ķ źø°ģ“.