🎙️ Faster Whisper GPU
High-performance local speech-to-text transcription using Faster Whisper with NVIDIA GPU acceleration.
✨ Features
- - 🚀 GPU Accelerated: Uses NVIDIA CUDA for blazing-fast transcription
- 🔒 100% Local: No data leaves your machine. Complete privacy.
- 💰 Free Forever: No API costs. Run unlimited transcriptions.
- 🌍 Multilingual: Supports 99 languages with automatic detection
- 📁 Multiple Formats: Input: MP3, WAV, FLAC, OGG, M4A. Output: TXT, SRT, JSON
- 🎯 Multiple Models: From tiny (fast) to large-v3 (most accurate)
- 🎬 Subtitle Generation: Create SRT files with word-level timestamps
📋 Requirements
Hardware
- - NVIDIA GPU with CUDA support (recommended: 4GB+ VRAM)
- Or CPU-only mode (slower but works on any machine)
Software
- - Python 3.8+
- NVIDIA drivers (for GPU support)
- CUDA Toolkit 11.8+ or 12.x
🚀 Quick Start
Installation
CODEBLOCK0
Basic Usage
CODEBLOCK1
🔧 Advanced Usage
Command Line Options
CODEBLOCK2
Examples
Portuguese Transcription with SRT Output
CODEBLOCK3
English Translation from Any Language
CODEBLOCK4
High-Accuracy Mode with Large Model
CODEBLOCK5
CPU-Only Mode (no GPU)
CODEBLOCK6
🐍 Python API
CODEBLOCK7
📊 Model Sizes & VRAM Requirements
| Model | Parameters | VRAM Required | Relative Speed | Accuracy |
|---|
| tiny | 39 M | ~1 GB | ~32x | Basic |
| base |
74 M | ~1 GB | ~16x | Good |
| small | 244 M | ~2 GB | ~6x | Better |
| medium | 769 M | ~5 GB | ~2x | Great |
| large-v3 | 1550 M | ~10 GB | 1x | Best |
Benchmarks measured on NVIDIA RTX 4090
🔍 Supported Languages
Faster Whisper supports 99 languages including:
- - Portuguese (
pt) - English (
en) - Spanish (
es) - French (
fr) - German (
de) - Italian (
it) - Japanese (
ja) - Chinese (
zh) - Russian (
ru) - And 90+ more...
🛠️ Troubleshooting
CUDA Out of Memory
CODEBLOCK8
Model Download Issues
Models are automatically downloaded on first use to
~/.cache/huggingface/hub/.
If behind a proxy, set:
CODEBLOCK9
Slow Transcription
- - Ensure GPU is being used: check
nvidia-smi during transcription - Use smaller model for faster results
- Enable VAD filter to skip silent parts
🤝 Contributing
Contributions are welcome! Please:
- 1. Fork the repository
- Create a feature branch
- Submit a pull request
📜 License
MIT License - See LICENSE for details.
Faster Whisper is developed by SYSTRAN and based on OpenAI's Whisper.
🙏 Acknowledgments
Made with ❤️ for the OpenClaw community
🎙️ Faster Whisper GPU
使用 Faster Whisper 配合 NVIDIA GPU 加速的高性能本地语音转文字转录工具。
✨ 功能特性
- - 🚀 GPU 加速:利用 NVIDIA CUDA 实现极速转录
- 🔒 100% 本地化:数据不会离开您的设备,完全保护隐私
- 💰 永久免费:无 API 费用,可无限次转录
- 🌍 多语言支持:支持 99 种语言并自动检测
- 📁 多种格式:输入支持 MP3、WAV、FLAC、OGG、M4A;输出支持 TXT、SRT、JSON
- 🎯 多种模型:从 tiny(快速)到 large-v3(最准确)
- 🎬 字幕生成:创建带词级时间戳的 SRT 文件
📋 系统要求
硬件要求
- - 支持 CUDA 的 NVIDIA GPU(推荐:4GB 以上显存)
- 或仅 CPU 模式(速度较慢,但可在任何机器上运行)
软件要求
- - Python 3.8+
- NVIDIA 驱动程序(GPU 支持)
- CUDA Toolkit 11.8+ 或 12.x
🚀 快速开始
安装
bash
安装依赖
pip install faster-whisper torch
验证 GPU 是否可用
python -c import torch; print(fCUDA available: {torch.cuda.is_available()})
基本用法
bash
转录音频文件(自动检测 GPU)
python transcribe.py audio.mp3
明确指定语言
python transcribe.py audio.mp3 --language pt
输出为 SRT 字幕
python transcribe.py audio.mp3 --format srt --output subtitles.srt
使用更大模型提高准确度
python transcribe.py audio.mp3 --model large-v3
🔧 高级用法
命令行选项
bash
python transcribe.py <音频文件> [选项]
选项:
--model {tiny,base,small,medium,large-v1,large-v2,large-v3}
使用的模型大小(默认:base)
--language LANG 语言代码(例如 pt、en、es)。未指定时自动检测。
--format {txt,srt,json,vtt}
输出格式(默认:txt)
--output FILE 输出文件路径(默认:标准输出)
--device {cuda,cpu} 使用的设备(默认:cuda 如果可用)
--computetype {int8,int8float16,int16,float16,float32}
计算精度(默认:float16)
--task {transcribe,translate}
任务:转录或翻译为英文(默认:transcribe)
--vad_filter 启用语音活动检测过滤器
--vadparameters MINDURATIONON,MINDURATION_OFF
VAD 参数,以逗号分隔的值
--conditiononprevious_text
基于前文进行条件处理(默认:True)
--initial_prompt PROMPT
引导转录的初始提示
--word_timestamps 包含词级时间戳(用于 SRT/JSON)
--hotwords WORDS 逗号分隔的热词,用于提升识别效果
示例
葡萄牙语转录并输出 SRT
bash
python transcribe.py meeting.mp3 --language pt --format srt --output meeting.srt
从任意语言翻译为英文
bash
python transcribe.py japanese_audio.mp3 --task translate --format txt
使用大模型的高精度模式
bash
python transcribe.py podcast.mp3 --model large-v3 --vad
filter --wordtimestamps
仅 CPU 模式(无 GPU)
bash
python transcribe.py audio.mp3 --device cpu --compute_type int8
🐍 Python API
python
from faster_whisper import WhisperModel
加载模型
model = WhisperModel(base, device=cuda, compute_type=float16)
转录
segments, info = model.transcribe(audio.mp3, language=pt)
print(f检测到的语言:{info.language}(概率:{info.language_probability:.2f}))
for segment in segments:
print(f[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text})
📊 模型大小与显存需求
| 模型 | 参数数量 | 所需显存 | 相对速度 | 准确度 |
|---|
| tiny | 39 M | ~1 GB | ~32x | 基础 |
| base |
74 M | ~1 GB | ~16x | 良好 |
| small | 244 M | ~2 GB | ~6x | 更好 |
| medium | 769 M | ~5 GB | ~2x | 优秀 |
| large-v3 | 1550 M | ~10 GB | 1x | 最佳 |
基准测试在 NVIDIA RTX 4090 上测量
🔍 支持的语言
Faster Whisper 支持 99 种语言,包括:
- - 葡萄牙语(pt)
- 英语(en)
- 西班牙语(es)
- 法语(fr)
- 德语(de)
- 意大利语(it)
- 日语(ja)
- 中文(zh)
- 俄语(ru)
- 以及 90 多种其他语言...
🛠️ 故障排除
CUDA 内存不足
bash
使用更小的模型
python transcribe.py audio.mp3 --model tiny
或使用 CPU
python transcribe.py audio.mp3 --device cpu
或降低精度
python transcribe.py audio.mp3 --compute_type int8
模型下载问题
模型会在首次使用时自动下载到 ~/.cache/huggingface/hub/。
如果使用代理,请设置:
bash
export HF_HOME=/path/to/custom/cache
转录速度慢
- - 确保正在使用 GPU:转录时检查 nvidia-smi
- 使用更小的模型以获得更快结果
- 启用 VAD 过滤器跳过静音部分
🤝 贡献
欢迎贡献!请:
- 1. Fork 本仓库
- 创建功能分支
- 提交 Pull Request
📜 许可证
MIT 许可证 - 详情请参阅 LICENSE。
Faster Whisper 由 SYSTRAN 开发,基于 OpenAI 的 Whisper。
🙏 致谢
为 OpenClaw 社区 ❤️ 制作