🎙️ Faster Whisper GPU

High-performance local speech-to-text transcription using Faster Whisper with NVIDIA GPU acceleration.

✨ Features

- 🚀 GPU Accelerated: Uses NVIDIA CUDA for blazing-fast transcription
🔒 100% Local: No data leaves your machine. Complete privacy.
💰 Free Forever: No API costs. Run unlimited transcriptions.
🌍 Multilingual: Supports 99 languages with automatic detection
📁 Multiple Formats: Input: MP3, WAV, FLAC, OGG, M4A. Output: TXT, SRT, JSON
🎯 Multiple Models: From tiny (fast) to large-v3 (most accurate)
🎬 Subtitle Generation: Create SRT files with word-level timestamps

📋 Requirements

Hardware

- NVIDIA GPU with CUDA support (recommended: 4GB+ VRAM)
Or CPU-only mode (slower but works on any machine)

Software

- Python 3.8+
NVIDIA drivers (for GPU support)
CUDA Toolkit 11.8+ or 12.x

🚀 Quick Start

Installation

CODEBLOCK0

Basic Usage

CODEBLOCK1

🔧 Advanced Usage

Command Line Options

CODEBLOCK2

Examples

Portuguese Transcription with SRT Output

CODEBLOCK3

English Translation from Any Language

CODEBLOCK4

High-Accuracy Mode with Large Model

CODEBLOCK5

CPU-Only Mode (no GPU)

CODEBLOCK6

🐍 Python API

CODEBLOCK7

📊 Model Sizes & VRAM Requirements

Model	Parameters	VRAM Required	Relative Speed	Accuracy
tiny	39 M	~1 GB	~32x	Basic
base

74 M | ~1 GB | ~16x | Good | | small | 244 M | ~2 GB | ~6x | Better | | medium | 769 M | ~5 GB | ~2x | Great | | large-v3 | 1550 M | ~10 GB | 1x | Best |

Benchmarks measured on NVIDIA RTX 4090

🔍 Supported Languages

Faster Whisper supports 99 languages including:

- Portuguese (pt)
English (en)
Spanish (es)
French (fr)
German (de)
Italian (it)
Japanese (ja)
Chinese (zh)
Russian (ru)
And 90+ more...

🛠️ Troubleshooting

CUDA Out of Memory

CODEBLOCK8

Model Download Issues

Models are automatically downloaded on first use to ~/.cache/huggingface/hub/. If behind a proxy, set: CODEBLOCK9

Slow Transcription

- Ensure GPU is being used: check nvidia-smi during transcription
Use smaller model for faster results
Enable VAD filter to skip silent parts

🤝 Contributing

Contributions are welcome! Please:

1. Fork the repository
Create a feature branch
Submit a pull request

📜 License

MIT License - See LICENSE for details.

Faster Whisper is developed by SYSTRAN and based on OpenAI's Whisper.

🙏 Acknowledgments

- OpenAI Whisper - Original model
Faster Whisper - Optimized implementation
CTranslate2 - Fast inference engine

Made with ❤️ for the OpenClaw community

🎙️ Faster Whisper GPU

使用 Faster Whisper 配合 NVIDIA GPU 加速的高性能本地语音转文字转录工具。

✨ 功能特性

- 🚀 GPU 加速：利用 NVIDIA CUDA 实现极速转录
🔒 100% 本地化：数据不会离开您的设备，完全保护隐私
💰 永久免费：无 API 费用，可无限次转录
🌍 多语言支持：支持 99 种语言并自动检测
📁 多种格式：输入支持 MP3、WAV、FLAC、OGG、M4A；输出支持 TXT、SRT、JSON
🎯 多种模型：从 tiny（快速）到 large-v3（最准确）
🎬 字幕生成：创建带词级时间戳的 SRT 文件

📋 系统要求

硬件要求

- 支持 CUDA 的 NVIDIA GPU（推荐：4GB 以上显存）
或仅 CPU 模式（速度较慢，但可在任何机器上运行）

软件要求

- Python 3.8+
NVIDIA 驱动程序（GPU 支持）
CUDA Toolkit 11.8+ 或 12.x

🚀 快速开始

安装

bash

安装依赖

pip install faster-whisper torch

验证 GPU 是否可用

python -c import torch; print(fCUDA available: {torch.cuda.is_available()})

基本用法

bash

转录音频文件（自动检测 GPU）

python transcribe.py audio.mp3

明确指定语言

python transcribe.py audio.mp3 --language pt

输出为 SRT 字幕

python transcribe.py audio.mp3 --format srt --output subtitles.srt

使用更大模型提高准确度

python transcribe.py audio.mp3 --model large-v3

🔧 高级用法

命令行选项

bash
python transcribe.py <音频文件> [选项]

选项：
--model {tiny,base,small,medium,large-v1,large-v2,large-v3}
使用的模型大小（默认：base）
--language LANG 语言代码（例如 pt、en、es）。未指定时自动检测。
--format {txt,srt,json,vtt}
输出格式（默认：txt）
--output FILE 输出文件路径（默认：标准输出）
--device {cuda,cpu} 使用的设备（默认：cuda 如果可用）
--computetype {int8,int8float16,int16,float16,float32}
计算精度（默认：float16）
--task {transcribe,translate}
任务：转录或翻译为英文（默认：transcribe）
--vad_filter 启用语音活动检测过滤器
--vadparameters MINDURATIONON,MINDURATION_OFF
VAD 参数，以逗号分隔的值
--conditiononprevious_text
基于前文进行条件处理（默认：True）
--initial_prompt PROMPT
引导转录的初始提示
--word_timestamps 包含词级时间戳（用于 SRT/JSON）
--hotwords WORDS 逗号分隔的热词，用于提升识别效果

示例

葡萄牙语转录并输出 SRT

bash python transcribe.py meeting.mp3 --language pt --format srt --output meeting.srt

从任意语言翻译为英文

bash python transcribe.py japanese_audio.mp3 --task translate --format txt

使用大模型的高精度模式

bash python transcribe.py podcast.mp3 --model large-v3 --vadfilter --wordtimestamps

仅 CPU 模式（无 GPU）

bash python transcribe.py audio.mp3 --device cpu --compute_type int8

🐍 Python API

python
from faster_whisper import WhisperModel

加载模型

model = WhisperModel(base, device=cuda, compute_type=float16)

转录

segments, info = model.transcribe(audio.mp3, language=pt)

print(f检测到的语言：{info.language}（概率：{info.language_probability:.2f}）)

for segment in segments:
print(f[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text})

📊 模型大小与显存需求

模型	参数数量	所需显存	相对速度	准确度
tiny	39 M	~1 GB	~32x	基础
base

74 M | ~1 GB | ~16x | 良好 | | small | 244 M | ~2 GB | ~6x | 更好 | | medium | 769 M | ~5 GB | ~2x | 优秀 | | large-v3 | 1550 M | ~10 GB | 1x | 最佳 |

基准测试在 NVIDIA RTX 4090 上测量

🔍 支持的语言

Faster Whisper 支持 99 种语言，包括：

- 葡萄牙语（pt）
英语（en）
西班牙语（es）
法语（fr）
德语（de）
意大利语（it）
日语（ja）
中文（zh）
俄语（ru）
以及 90 多种其他语言...

🛠️ 故障排除

CUDA 内存不足

bash

使用更小的模型

python transcribe.py audio.mp3 --model tiny

或使用 CPU

python transcribe.py audio.mp3 --device cpu

或降低精度

python transcribe.py audio.mp3 --compute_type int8

模型下载问题

模型会在首次使用时自动下载到 ~/.cache/huggingface/hub/。如果使用代理，请设置： bash export HF_HOME=/path/to/custom/cache

转录速度慢

- 确保正在使用 GPU：转录时检查 nvidia-smi
使用更小的模型以获得更快结果
启用 VAD 过滤器跳过静音部分

🤝 贡献

欢迎贡献！请：

1. Fork 本仓库
创建功能分支
提交 Pull Request

📜 许可证

MIT 许可证 - 详情请参阅 LICENSE。

Faster Whisper 由 SYSTRAN 开发，基于 OpenAI 的 Whisper。

🙏 致谢

- OpenAI Whisper - 原始模型
Faster Whisper - 优化实现
CTranslate2 - 快速推理引擎

为 OpenClaw 社区 ❤️ 制作

faster-whisper-gpuFaster Whisper GPU