返回顶部
w

whisper-stt耳语语音转文字

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
1,100
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

whisper-stt

Whisper STT 技能

使用OpenAI Whisper实现免费、本地的语音转文字功能。

前置条件

安装依赖(一次性配置):

bash
pip install openai-whisper torch

可选:安装ffmpeg以获得更广泛的格式支持:

  • - macOS:brew install ffmpeg
  • Ubuntu:sudo apt install ffmpeg

使用方法

转录音频文件

bash
python ~/.openclaw/skills/whisper-stt/scripts/transcribe.py <音频文件>

选项参数

选项说明
--model模型大小:tiny、base、small、medium、large、large-v3-turbo(默认:base)
--language, -l
语言代码:zh、en、ja等(未指定时自动检测) | | --output, -o | 输出格式:json、txt、srt、vtt(默认:json) |

示例

中文音频转文字:
bash
python ~/.openclaw/skills/whisper-stt/scripts/transcribe.py recording.m4a --language zh --output txt

生成字幕(SRT格式):
bash
python ~/.openclaw/skills/whisper-stt/scripts/transcribe.py video.mp4 --output srt > subtitles.srt

使用更快的模型:
bash
python ~/.openclaw/skills/whisper-stt/scripts/transcribe.py audio.mp3 --model tiny --output txt

高精度(较慢):
bash
python ~/.openclaw/skills/whisper-stt/scripts/transcribe.py audio.mp3 --model large-v3 --output txt

模型选择指南

模型速度准确度显存/内存最佳用途
tiny~32倍基础~1GB快速测试、低资源环境
base
~16倍 | 良好 | ~1GB | 速度与准确度平衡 | | small | ~6倍 | 较好 | ~2GB | 更高准确度 | | medium | ~2倍 | 很好 | ~5GB | 高准确度 | | large | 1倍 | 优秀 | ~10GB | 最佳质量 | | large-v3-turbo | ~8倍 | 优秀 | ~6GB | 快速且准确(推荐) |

故障排除

ModuleNotFoundError: No module named whisper
→ 运行:pip install openai-whisper torch

ffmpeg not found
→ 安装ffmpeg或先将音频转换为WAV格式

转录速度慢
→ 使用更小的模型(tiny/base)或确保GPU可用(Apple Silicon MPS、NVIDIA CUDA)

中文准确度差
→ 明确使用--language zh参数,并考虑使用更大的模型(medium/large)

输出格式

  • - json:包含分段、时间戳和元数据的完整结果
  • txt:纯文本转录结果
  • srt:SubRip字幕格式,带时间信息
  • vtt:WebVTT字幕格式,适用于网页播放器

致谢

OpenAI Whisper提供技术支持——开源语音识别系统。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 whisper-stt-1776293880 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 whisper-stt-1776293880 技能

通过命令行安装

skillhub install whisper-stt-1776293880

下载

⬇ 下载 whisper-stt v1.0.0(免费)

文件大小: 4.29 KB | 发布时间: 2026-4-16 17:57

v1.0.0 最新 2026-4-16 17:57
- Initial release of the whisper-stt skill for free, local speech-to-text transcription using OpenAI Whisper.
- Supports a range of audio/video input formats (mp3, wav, m4a, ogg, etc.) without API costs.
- Multiple output formats available: json, txt, srt, and vtt (for subtitles).
- Configurable model sizes for performance vs. accuracy tradeoffs.
- Option to specify target language and leverage GPU acceleration if available.
- Comprehensive usage instructions and troubleshooting included.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部