返回顶部
f

faster-whisper-gpuFaster Whisper GPU

High-performance local speech-to-text transcription using Faster Whisper with NVIDIA GPU acceleration. Transcribe audio files locally without sending data to external services.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
543
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

faster-whisper-gpu

🎙️ Faster Whisper GPU

使用 Faster Whisper 配合 NVIDIA GPU 加速的高性能本地语音转文字转录工具。

✨ 功能特性

  • - 🚀 GPU 加速:利用 NVIDIA CUDA 实现极速转录
  • 🔒 100% 本地化:数据不会离开您的设备,完全保护隐私
  • 💰 永久免费:无 API 费用,可无限次转录
  • 🌍 多语言支持:支持 99 种语言并自动检测
  • 📁 多种格式:输入支持 MP3、WAV、FLAC、OGG、M4A;输出支持 TXT、SRT、JSON
  • 🎯 多种模型:从 tiny(快速)到 large-v3(最准确)
  • 🎬 字幕生成:创建带词级时间戳的 SRT 文件

📋 系统要求

硬件要求

  • - 支持 CUDA 的 NVIDIA GPU(推荐:4GB 以上显存)
  • 或仅 CPU 模式(速度较慢,但可在任何机器上运行)

软件要求

  • - Python 3.8+
  • NVIDIA 驱动程序(GPU 支持)
  • CUDA Toolkit 11.8+ 或 12.x

🚀 快速开始

安装

bash

安装依赖


pip install faster-whisper torch

验证 GPU 是否可用

python -c import torch; print(fCUDA available: {torch.cuda.is_available()})

基本用法

bash

转录音频文件(自动检测 GPU)


python transcribe.py audio.mp3

明确指定语言

python transcribe.py audio.mp3 --language pt

输出为 SRT 字幕

python transcribe.py audio.mp3 --format srt --output subtitles.srt

使用更大模型提高准确度

python transcribe.py audio.mp3 --model large-v3

🔧 高级用法

命令行选项

bash
python transcribe.py <音频文件> [选项]

选项:
--model {tiny,base,small,medium,large-v1,large-v2,large-v3}
使用的模型大小(默认:base)
--language LANG 语言代码(例如 pt、en、es)。未指定时自动检测。
--format {txt,srt,json,vtt}
输出格式(默认:txt)
--output FILE 输出文件路径(默认:标准输出)
--device {cuda,cpu} 使用的设备(默认:cuda 如果可用)
--computetype {int8,int8float16,int16,float16,float32}
计算精度(默认:float16)
--task {transcribe,translate}
任务:转录或翻译为英文(默认:transcribe)
--vad_filter 启用语音活动检测过滤器
--vadparameters MINDURATIONON,MINDURATION_OFF
VAD 参数,以逗号分隔的值
--conditiononprevious_text
基于前文进行条件处理(默认:True)
--initial_prompt PROMPT
引导转录的初始提示
--word_timestamps 包含词级时间戳(用于 SRT/JSON)
--hotwords WORDS 逗号分隔的热词,用于提升识别效果

示例

葡萄牙语转录并输出 SRT

bash python transcribe.py meeting.mp3 --language pt --format srt --output meeting.srt

从任意语言翻译为英文

bash python transcribe.py japanese_audio.mp3 --task translate --format txt

使用大模型的高精度模式

bash python transcribe.py podcast.mp3 --model large-v3 --vadfilter --wordtimestamps

仅 CPU 模式(无 GPU)

bash python transcribe.py audio.mp3 --device cpu --compute_type int8

🐍 Python API

python
from faster_whisper import WhisperModel

加载模型

model = WhisperModel(base, device=cuda, compute_type=float16)

转录

segments, info = model.transcribe(audio.mp3, language=pt)

print(f检测到的语言:{info.language}(概率:{info.language_probability:.2f}))

for segment in segments:
print(f[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text})

📊 模型大小与显存需求

模型参数数量所需显存相对速度准确度
tiny39 M~1 GB~32x基础
base
74 M | ~1 GB | ~16x | 良好 | | small | 244 M | ~2 GB | ~6x | 更好 | | medium | 769 M | ~5 GB | ~2x | 优秀 | | large-v3 | 1550 M | ~10 GB | 1x | 最佳 |

基准测试在 NVIDIA RTX 4090 上测量

🔍 支持的语言

Faster Whisper 支持 99 种语言,包括:

  • - 葡萄牙语(pt)
  • 英语(en)
  • 西班牙语(es)
  • 法语(fr)
  • 德语(de)
  • 意大利语(it)
  • 日语(ja)
  • 中文(zh)
  • 俄语(ru)
  • 以及 90 多种其他语言...

🛠️ 故障排除

CUDA 内存不足

bash

使用更小的模型

python transcribe.py audio.mp3 --model tiny

或使用 CPU

python transcribe.py audio.mp3 --device cpu

或降低精度

python transcribe.py audio.mp3 --compute_type int8

模型下载问题

模型会在首次使用时自动下载到 ~/.cache/huggingface/hub/。 如果使用代理,请设置: bash export HF_HOME=/path/to/custom/cache

转录速度慢

  • - 确保正在使用 GPU:转录时检查 nvidia-smi
  • 使用更小的模型以获得更快结果
  • 启用 VAD 过滤器跳过静音部分

🤝 贡献

欢迎贡献!请:

  1. 1. Fork 本仓库
  2. 创建功能分支
  3. 提交 Pull Request

📜 许可证

MIT 许可证 - 详情请参阅 LICENSE

Faster Whisper 由 SYSTRAN 开发,基于 OpenAI 的 Whisper。

🙏 致谢


为 OpenClaw 社区 ❤️ 制作

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 faster-whisper-gpu-1776420032 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 faster-whisper-gpu-1776420032 技能

通过命令行安装

skillhub install faster-whisper-gpu-1776420032

下载

⬇ 下载 faster-whisper-gpu v0.1.0(免费)

文件大小: 9.67 KB | 发布时间: 2026-4-17 18:19

v0.1.0 最新 2026-4-17 18:19
Initial release of faster-whisper-gpu.

- Local speech-to-text transcription powered by Faster Whisper with NVIDIA GPU acceleration.
- Transcribe audio into text, subtitles (SRT/VTT), or JSON with support for 99 languages.
- Features multiple model sizes, word-level timestamps, hotword boosting, and voice activity detection.
- All data processing is 100% local for maximum privacy.
- Includes a command-line interface and Python API for flexible usage.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部