返回顶部
a

acestep-lyrics-transcription音频转歌词

Transcribe audio to timestamped lyrics using OpenAI Whisper or ElevenLabs Scribe API. Outputs LRC, SRT, or JSON with word-level timestamps. Use when users want to transcribe songs, generate LRC files, or extract lyrics with timestamps from audio.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.1
安全检测
已通过
822
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

acestep-lyrics-transcription

歌词转录技能

通过OpenAI Whisper或ElevenLabs Scribe API将音频文件转录为带时间戳的歌词(LRC/SRT/JSON格式)。

API密钥设置指南

转录前,你必须检查用户的API密钥是否已配置。 运行以下命令进行检查:

bash
cd {project_root}/{.claude或.codex}/skills/acestep-lyrics-transcription/ && bash ./scripts/acestep-lyrics-transcription.sh config --check-key

此命令仅报告当前激活提供商的API密钥是否已设置或为空——它不会打印实际的密钥值。切勿读取或显示用户的API密钥内容。 不要对密钥字段使用config --get命令,也不要直接读取config.json文件。config --list命令是安全的——它会在输出中自动将API密钥屏蔽为*。

如果命令报告密钥为空,你必须停止操作并引导用户先配置密钥,然后再继续。在没有有效密钥的情况下尝试转录将会失败。

使用AskUserQuestion询问用户提供其API密钥,并提供以下选项和指导:

  1. 1. 告知用户当前激活的提供商(openai或elevenlabs)及其API密钥尚未配置。解释没有密钥就无法进行转录。
  2. 提供获取密钥的明确说明:
- OpenAI:在https://platform.openai.com/api-keys获取API密钥——需要已启用计费的OpenAI账户。Whisper API费用约为$0.006/分钟。 - ElevenLabs:在https://elevenlabs.io/app/settings/api-keys获取API密钥——需要ElevenLabs账户。免费套餐包含有限额度。
  1. 3. 同时提供切换到另一个提供商的选项(如果用户已有其密钥)。
  2. 用户提供密钥后,使用以下命令进行配置:
bash cd {projectroot}/{.claude或.codex}/skills/acestep-lyrics-transcription/ && bash ./scripts/acestep-lyrics-transcription.sh config --set .apikey
  1. 5. 如果用户想切换提供商,还需运行:
bash cd {projectroot}/{.claude或.codex}/skills/acestep-lyrics-transcription/ && bash ./scripts/acestep-lyrics-transcription.sh config --set provider name>
  1. 6. 配置完成后,重新运行config --check-key以验证密钥已设置,然后再继续。

如果API密钥已配置,直接进行转录,无需询问。

快速开始

bash

1. 切换到本技能的目录


cd {project_root}/{.claude或.codex}/skills/acestep-lyrics-transcription/

2. 配置API密钥(选择其一)

./scripts/acestep-lyrics-transcription.sh config --set openai.api_key sk-...

./scripts/acestep-lyrics-transcription.sh config --set elevenlabs.api_key ... ./scripts/acestep-lyrics-transcription.sh config --set provider elevenlabs

3. 转录

./scripts/acestep-lyrics-transcription.sh transcribe --audio /path/to/song.mp3 --language zh

4. 输出保存至:{projectroot}/acestepoutput/.lrc

前置条件

  • - curl、jq、python3(或python)
  • OpenAI或ElevenLabs的API密钥

脚本用法

bash
./scripts/acestep-lyrics-transcription.sh transcribe --audio [options]

选项:
-a, --audio 音频文件路径(必填)
-l, --language 语言代码(zh、en、ja等)
-f, --format 输出格式:lrc、srt、json(默认:lrc)
-p, --provider API提供商:openai、elevenlabs(覆盖配置)
-o, --output 输出文件路径(默认:acestep_output/.lrc)

转录后歌词修正(必做)

关键:转录完成后,你必须在用于MV渲染之前手动修正LRC文件。转录模型在处理演唱歌词时经常出错:

  • - 专有名词:ACE-Step → AC step,Spotify → spot a fly
  • 谐音词:arrives → eyes,open source → open sores
  • 合并/拆分词:lighting up → lightin nup

修正流程

  1. 1. 使用读取工具读取转录的LRC文件
  2. 从ACE-Step输出JSON文件中读取原始歌词
  3. 将原始歌词作为整体参考:不要尝试逐行对齐——转录经常以与原始歌词不同的方式拆分、合并或重新排序行。相反,完整阅读原始歌词以理解正确的措辞,然后扫描每个LRC行,根据你对原始歌词内容的了解修正任何识别错误的词。
  4. 修正转录错误:用正确的原始词替换识别错误的词,保持时间戳不变
  5. 使用写入工具将修正后的LRC写回

需要修正的内容

  • - 将识别错误的词替换为正确的原始版本
  • 保持所有[MM:SS.cc]时间戳完全不变(转录的时间戳是准确的)
  • 不要添加像[Verse]或[Chorus]这样的结构标签——LRC只应有带时间戳的文本行

示例

转录(错误):

[00:46.96]AC step alive,
[00:50.80]one point five eyes.

原始歌词参考:

ACE-Step alive
One point five arrives

修正后(正确):

[00:46.96]ACE-Step alive,
[00:50.80]One point five arrives.

配置

配置文件:scripts/config.json

bash

切换提供商


./scripts/acestep-lyrics-transcription.sh config --set provider openai
./scripts/acestep-lyrics-transcription.sh config --set provider elevenlabs

设置API密钥

./scripts/acestep-lyrics-transcription.sh config --set openai.api_key sk-... ./scripts/acestep-lyrics-transcription.sh config --set elevenlabs.api_key ...

查看配置

./scripts/acestep-lyrics-transcription.sh config --list
选项默认值描述
provideropenai激活的提供商:openai或elevenlabs
output_format
lrc | 默认输出格式:lrc、srt或json | | openai.api_key | | OpenAI API密钥 | | openai.api_url | https://api.openai.com/v1 | OpenAI API基础URL | | openai.model | whisper-1 | OpenAI模型(whisper-1支持词级时间戳) | | elevenlabs.api_key | | ElevenLabs API密钥 | | elevenlabs.api_url | https://api.elevenlabs.io/v1 | ElevenLabs API基础URL | | elevenlabs.model | scribe_v2 | ElevenLabs模型 |

提供商说明

提供商模型词级时间戳定价
OpenAIwhisper-1是(段落+词级)$0.006/分钟
ElevenLabs
scribe_v2 | 是(词级) | 因套餐而异 |
  • - OpenAI whisper-1是唯一支持词级时间戳的OpenAI模型
  • ElevenLabs scribe_v2返回带类型过滤的词级时间戳
  • 两者均支持多语言转录

示例

bash

基本转录(使用配置默认值)


./scripts/acestep-lyrics-transcription.sh transcribe --audio song.mp3

中文歌曲转LRC

./scripts/acestep-lyrics-transcription.sh transcribe --audio song.mp3 --language zh

使用ElevenLabs,输出SRT

./scripts/acestep-lyrics-transcription.sh transcribe --audio song.mp3 --provider elevenlabs --format srt

自定义输出路径

./scripts/acestep-lyrics-transcription.sh transcribe --audio song.mp3 --output ./my_lyrics.lrc

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 acestep-lyrics-transcription-1776419933 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 acestep-lyrics-transcription-1776419933 技能

通过命令行安装

skillhub install acestep-lyrics-transcription-1776419933

下载

⬇ 下载 acestep-lyrics-transcription v1.0.1(免费)

文件大小: 8.44 KB | 发布时间: 2026-4-17 18:34

v1.0.1 最新 2026-4-17 18:34
- config.example default provider change to elevenlabs

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部