返回顶部
f

faster-whisper快速语音转文字

Local speech-to-text using faster-whisper. 4-6x faster than OpenAI Whisper with identical accuracy; GPU acceleration enables ~20x realtime transcription. SRT/VTT/TTML/CSV subtitles, speaker diarization, URL/YouTube input, batch processing with ETA, transcript search, chapter detection, per-file language map.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.5.1
安全检测
已通过
6,094
下载量
免费
免费
5
收藏
概述
安装方式
版本历史

faster-whisper

Faster Whisper

使用 faster-whisper 进行本地语音转文字——这是 OpenAI Whisper 的 CTranslate2 重新实现,在保持相同准确率的同时,运行速度提升 4-6 倍。配合 GPU 加速,可实现约 20 倍实时转录(10 分钟音频文件约 30 秒完成)。

适用场景

当您需要以下功能时,可使用此技能:

  • - 转录音频/视频文件 — 会议、访谈、播客、讲座、YouTube 视频
  • 生成字幕 — SRT、VTT、ASS、LRC 或 TTML 广播标准字幕
  • 识别说话人 — 话者分离标记谁说了什么(--diarize)
  • 从 URL 转录 — YouTube 链接和直接音频 URL(通过 yt-dlp 自动下载)
  • 转录播客订阅源 — --rss 获取并转录剧集
  • 批量处理文件 — 支持通配符模式、目录、跳过已存在文件;自动显示预计完成时间
  • 本地语音转文字 — 无 API 费用,离线可用(模型下载后)
  • 翻译为英文 — 使用 --translate 将任何语言翻译为英文
  • 多语言转录 — 支持 99+ 种语言,自动检测
  • 批量处理不同语言的文件 — --language-map 为每个文件指定不同语言
  • 转录多语言音频 — --multilingual 用于混合语言音频
  • 转录包含特定术语的音频 — 使用 --initial-prompt 处理专业术语密集的内容或任何需要关注的词汇
  • 预处理嘈杂音频(转录前) — 转录前使用 --normalize 和 --denoise
  • 流式输出 — --stream 实时显示转录片段
  • 裁剪时间范围 — --clip-timestamps 转录特定段落
  • 搜索转录文本 — --search term 查找单词/短语出现的所有时间戳
  • 检测章节 — --detect-chapters 从静音间隙中查找段落分隔
  • 导出说话人音频 — --export-speakers DIR 将每位说话人的发言保存为单独的 WAV 文件
  • 电子表格输出 — --format csv 生成带正确引用的 CSV 文件,包含时间戳

触发短语:
转录这段音频、语音转文字、他们说了什么、生成转录、
音频转文字、给这个视频加字幕、谁在说话、翻译这段音频、翻译成英文、
查找提到 X 的位置、搜索转录文本、他们什么时候说的、在哪个时间戳、
添加章节、检测章节、查找音频中的断点、为这段录音生成目录、
TTML 字幕、DFXP 字幕、广播格式字幕、Netflix 格式、
ASS 字幕、aegisub 格式、高级子站阿尔法、mpv 字幕、
LRC 字幕、定时歌词、卡拉 OK 字幕、音乐播放器歌词、
HTML 转录、置信度着色转录、颜色编码转录、
按说话人分离音频、导出说话人音频、按说话人分割、
转录为 CSV、电子表格输出、转录播客、播客 RSS 订阅源、
批量处理不同语言、按文件指定语言、
多格式转录、同时输出 srt 和 txt、同时输出 srt 和文本、
删除填充词、清理 um 和 uh、去除犹豫声音、删除 you know 和 I mean、
转录左声道、转录右声道、立体声声道、仅左声道、
字幕换行、每行字符限制、每行最大字符数、
检测段落、段落分隔、分组为段落、添加段落间距

⚠️ 代理指导 — 保持调用最小化:

核心规则:默认命令(./scripts/transcribe audio.mp3)是最快的路径——仅在用户明确要求该功能时才添加参数。

转录:

  • - 仅当用户询问谁说了什么/识别说话人/标记说话人时才添加 --diarize
  • 仅当用户要求该格式的字幕/标题时才添加 --format srt/vtt/ass/lrc/ttml
  • 仅当用户要求 CSV 或电子表格输出时才添加 --format csv
  • 仅当用户需要单词级时间戳时才添加 --word-timestamps
  • 仅当有领域特定术语需要提示时才添加 --initial-prompt
  • 仅当用户希望将非英语音频翻译为英文时才添加 --translate
  • 仅当用户提到音频质量差或有噪音时才添加 --normalize/--denoise
  • 仅当用户希望长文件有实时/渐进输出时才添加 --stream
  • 仅当用户想要特定时间范围时才添加 --clip-timestamps
  • 仅当模型在音乐/静音上产生幻觉时才添加 --temperature 0.0
  • 仅当 VAD 过于激进地切割语音或包含噪音时才添加 --vad-threshold
  • 仅当您知道说话人数量时才添加 --min-speakers/--max-speakers
  • 仅当令牌未缓存在 ~/.cache/huggingface/token 时才添加 --hf-token
  • 仅当长片段需要提高字幕可读性时才添加 --max-words-per-line
  • 仅当转录文本包含明显伪影(音乐标记、重复)时才添加 --filter-hallucinations
  • 仅当用户要求句子级字幕提示时才添加 --merge-sentences
  • 仅当用户要求删除填充词(um、uh、you know、I mean、犹豫声音)时才添加 --clean-filler
  • 仅当用户提到立体声轨道、双声道录音或要求特定声道时才添加 --channel left|right
  • 仅当用户指定每行字幕的字符限制(如Netflix 格式、每行 42 个字符)时才添加 --max-chars-per-line N;优先于 --max-words-per-line
  • 仅当用户要求段落分隔或结构化文本输出时才添加 --detect-paragraphs;--paragraph-gap(默认 3.0 秒)仅在用户想要自定义间隔时添加
  • 仅当用户提供真实姓名替换 SPEAKER_1/2 时才添加 --speaker-names Alice,Bob——始终需要 --diarize
  • 仅当用户指定 --initial-prompt 无法很好处理的特定稀有术语时才添加 --hotwords WORDS;对于一般领域术语,优先使用 --initial-prompt
  • 仅当用户知道音频开头的确切单词时才添加 --prefix TEXT
  • 仅当用户只想识别语言而不转录时才添加 --detect-language-only
  • 仅当用户要求性能统计、RTF 或基准信息时才添加 --stats-file PATH
  • 仅用于大型 CPU 批量作业时添加 --parallel N;GPU 本身就能高效处理单个文件——不要为单个文件或小批量添加
  • 仅用于不可靠输入(URL、网络文件)且预期有临时故障时才添加 --retries N
  • 仅当用户明确要求将字幕嵌入/烧录到视频中时才添加 --burn-in OUTPUT;需要 ffmpeg 和视频文件输入
  • 仅当用户可能重新处理同一 URL 以避免重新下载时才添加 --keep-temp
  • 仅当用户在批处理模式下指定自定义命名模式时才添加 --output-template
  • 多格式输出(--format srt,text):仅当用户明确要求一次生成多种格式时;始终与 -o 配对使用
  • 任何单词级功能都会自动运行 wav2vec2 对齐(约 5-10 秒开销)
  • --diarize 在此基础上增加约 20-30 秒

搜索:

  • - 仅当用户要求在音频中查找/定位/搜索特定单词或短语时才添加 --search term
  • --search 替换正常的转录输出——它只打印带有时间戳的匹配片段
  • 仅当用户提到近似/部分匹配或拼写错误时才添加 --search-fuzzy
  • 要将搜索结果保存到文件,使用 -o results.txt

章节检测:

  • - 仅当用户要求章节、段落、目录或主题在哪里变化时才添加 --detect-chapters
  • 默认 --chapter-gap 8(8 秒静音 = 新章节)适用于大多数播客/讲座;对于密集内容可调低
  • --chapter-format youtube(默认)输出 YouTube 就绪的时间戳;使用 json

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 faster-whisper-1776380483 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 faster-whisper-1776380483 技能

通过命令行安装

skillhub install faster-whisper-1776380483

下载

⬇ 下载 faster-whisper v1.5.1(免费)

文件大小: 53.36 KB | 发布时间: 2026-4-17 16:21

v1.5.1 最新 2026-4-17 16:21
- Fixed --skip-existing in multi-format mode to check ALL format outputs before skipping
- Fixed --no-timestamps conflict check missing lrc, ass, ttml formats
- Fixed --speaker-names silently doing nothing without --diarize; now prints a warning
- Batch summary now shows skipped file count when --skip-existing is active

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部