Audio/video transcription module using Docker Whisper ASR. Extract speech from audio or video files and convert to text. Use when: (1) Transcribing audio files (mp3, wav, m4a, etc.), (2) Transcribing video files (mp4, mkv, etc.), (3) Need speech-to-text for any media file, (4) Working with douyin/tiktok video transcription workflows. Supports automatic audio extraction, format conversion, and multiple Whisper models.
使用本地 Docker Whisper ASR 将音频/视频文件转录为文本。
bash
curl -X POST http://localhost:PORT/asr -F audio_file=@/path/to/video.mp4
该容器内置了 ffmpeg,可自动提取音频。
| 工具 | 用途 | 安装方式 |
|---|---|---|
| Docker | Whisper ASR | Docker Desktop |
| ffmpeg |
部署 Whisper ASR:
bash
docker run -d -p PORT:PORT -e ASRMODEL=small -e ASRENGINE=faster_whisper --name whisper-asr onerahmet/openai-whisper-asr-webservice:latest
bash
ffmpeg -i video.mp4 -ar 16000 -ac 1 -c:a pcm_s16le audio.wav -y
参数说明:
bash
curl -X POST http://localhost:PORT/asr -F audio_file=@audio.wav
可选:指定语言
bash
curl -X POST http://localhost:PORT/asr -F audio_file=@audio.wav -F language=zh
响应格式:
json
{
text: 转录内容...,
segments: [
{start: 0.0, end: 2.5, text: 第一句话},
{start: 2.5, end: 5.0, text: 第二句话}
],
language: zh
}
| 模型 | 大小 | 5分钟视频处理时间 | 准确度 |
|---|---|---|---|
| tiny | 75MB | ~30秒 | 一般 |
| base |
通过环境变量更改模型:-e ASR_MODEL=medium
视频: mp4、mkv、avi、mov、flv、wmv、webm、m4v
音频: wav、m4a、mp3、aac、ogg、flac、wma、opus
| 问题 | 解决方案 |
|---|---|
| Docker 不可用 | 安装 Docker Desktop |
| 容器启动失败 |
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 douyin-transcriber-1775899935 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 douyin-transcriber-1775899935 技能
skillhub install douyin-transcriber-1775899935
文件大小: 1.89 KB | 发布时间: 2026-4-12 09:46