douyin-transcriber抖音语音转录

Audio/video transcription module using Docker Whisper ASR. Extract speech from audio or video files and convert to text. Use when: (1) Transcribing audio files (mp3, wav, m4a, etc.), (2) Transcribing video files (mp4, mkv, etc.), (3) Need speech-to-text for any media file, (4) Working with douyin/tiktok video transcription workflows. Supports automatic audio extraction, format conversion, and multiple Whisper models.

作者: admin | 来源: ClawHub

Douyin Transcriber

Transcribe audio/video files to text using local Docker Whisper ASR.

Quick Start

CODEBLOCK0

The container has built-in ffmpeg for automatic audio extraction.

Prerequisites

Tool	Purpose	Install
Docker	Whisper ASR	Docker Desktop
ffmpeg

Audio extraction | winget install Gyan.FFmpeg |

Deploy Whisper ASR:
CODEBLOCK1

Workflow

Step 1: Extract Audio from Video

CODEBLOCK2

Parameters:

- -ar 16000: 16kHz sample rate
INLINECODE2: Mono channel
INLINECODE3: 16-bit PCM

Step 2: Transcribe

CODEBLOCK3

Optional: specify language
CODEBLOCK4

Step 3: Parse Result

Response format:
CODEBLOCK5

Model Selection

Model	Size	5-min video	Accuracy
tiny	75MB	~30s	Fair
base

142MB | ~1min | Good | | small | 466MB | ~3min | Better (recommended) | | medium | 1.5GB | ~8min | Best |

Change model via environment variable: INLINECODE4

Supported Formats

Video: mp4, mkv, avi, mov, flv, wmv, webm, m4v

Audio: wav, m4a, mp3, aac, ogg, flac, wma, opus

Troubleshooting

Issue	Solution
Docker not available	Install Docker Desktop
Container start fails

Related Modules

- douyin-fetcher - Video download
douyin-analyzer - Content analysis
douyin-orchestrator - Workflow coordination

Douyin 转录器

使用本地 Docker Whisper ASR 将音频/视频文件转录为文本。

快速开始

bash
curl -X POST http://localhost:PORT/asr -F audio_file=@/path/to/video.mp4

该容器内置了 ffmpeg，可自动提取音频。

前提条件

工具	用途	安装方式
Docker	Whisper ASR	Docker Desktop
ffmpeg

音频提取 | winget install Gyan.FFmpeg |

部署 Whisper ASR：
bash
docker run -d -p PORT:PORT -e ASRMODEL=small -e ASRENGINE=faster_whisper --name whisper-asr onerahmet/openai-whisper-asr-webservice:latest

工作流程

步骤 1：从视频中提取音频

bash
ffmpeg -i video.mp4 -ar 16000 -ac 1 -c:a pcm_s16le audio.wav -y

参数说明：

- -ar 16000：16kHz 采样率
-ac 1：单声道
-c:a pcm_s16le：16位 PCM 编码

步骤 2：转录

bash
curl -X POST http://localhost:PORT/asr -F audio_file=@audio.wav

可选：指定语言
bash
curl -X POST http://localhost:PORT/asr -F audio_file=@audio.wav -F language=zh

步骤 3：解析结果

响应格式：
json
{
text: 转录内容...,
segments: [
{start: 0.0, end: 2.5, text: 第一句话},
{start: 2.5, end: 5.0, text: 第二句话}
],
language: zh
}

模型选择

模型	大小	5分钟视频处理时间	准确度
tiny	75MB	~30秒	一般
base

142MB | ~1分钟 | 良好 | | small | 466MB | ~3分钟 | 较好（推荐） | | medium | 1.5GB | ~8分钟 | 最佳 |

通过环境变量更改模型：-e ASR_MODEL=medium

支持的格式

视频： mp4、mkv、avi、mov、flv、wmv、webm、m4v

音频： wav、m4a、mp3、aac、ogg、flac、wma、opus

故障排除

问题	解决方案
Docker 不可用	安装 Docker Desktop
容器启动失败

douyin-transcriber抖音语音转录