返回顶部
v

video-audio-replace视频音频替换

Replace video audio with TTS voice while preserving original timing. Includes subtitle generation from video using Whisper. Uses ElevenLabs or Edge TTS, aligns each audio segment to original timestamp, adjusts speed (0.85-1.15x), and inserts silence gaps.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
401
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

video-audio-replace

视频音频替换

将视频原始音频替换为TTS生成的语音,同时保持精确的时间对齐。还支持使用Whisper从视频生成字幕。

完整工作流程

步骤1:从视频生成字幕(可选)

如果没有SRT文件,可使用附带的脚本从视频生成字幕:

bash

从视频生成字幕(使用faster-whisper,免费,本地运行)


generate_subtitles.py video.mp4 -o subtitles.srt -l zh

或手动使用Python:

bash

使用faster-whisper(推荐,本地运行,免费)


pip install faster-whisper srt

python3 << EOF
from faster_whisper import WhisperModel
import srt
from datetime import timedelta

model = WhisperModel(base, device=cpu, compute_type=int8)
segments, info = model.transcribe(input_video.mp4, language=zh)

生成SRT

def format_time(seconds): td = timedelta(seconds=seconds) return f{td.seconds//3600:02d}:{(td.seconds%3600)//60:02d}:{td.seconds%60:02d},{td.microseconds//1000:03d}

srt_content =
for i, seg in enumerate(segments, 1):
start = format_time(seg.start)
end = format_time(seg.end)
srt_content += f{i}\n{start} --> {end}\n{seg.text.strip()}\n\n

with open(subtitles.srt, w, encoding=utf-8) as f:
f.write(srt_content)
EOF

步骤2:使用TTS替换音频

使用生成的SRT文件创建带有TTS语音的新视频。

适用场景

  • - 使用AI生成语音为视频配音
  • 将字幕文件转换为配音
  • 创建多语言视频版本

系统要求

API密钥(任选其一)

  • - ElevenLabs:设置ELEVENLABSAPIKEY环境变量
  • Edge TTS(免费,无需密钥):使用--engine edge

系统依赖

  • - ffmpeg
  • sox(可选,用于高级处理)

使用方法

基本用法(ElevenLabs)

bash video-audio-replace --video input.mp4 --srt subtitles.srt --output output.mp4 --voice Liam

使用Edge TTS(免费,无需API密钥)

bash video-audio-replace --video input.mp4 --srt subtitles.srt --output output.mp4 --engine edge --voice zh-CN-YunxiNeural

选项

选项描述默认值
--video输入视频文件必需
--srt
SRT字幕文件 | 必需 | | --output | 输出视频文件 | input_tts.mp4 | | --voice | 语音ID或名称 | Liam (ElevenLabs) | | --engine | TTS引擎:elevenlabs, edge | elevenlabs | | --speed-range | 速度调整范围 | 0.85-1.15 |

示例

英语语音(ElevenLabs)

bash video-audio-replace --video 2028.mp4 --srt 2028.srt --output 2028_final.mp4 --voice Liam

中文语音(Edge TTS)

bash video-audio-replace --video video.mp4 --srt subs.srt --output result.mp4 --engine edge --voice zh-CN-YunxiNeural

工作原理

  1. 1. 从视频中提取原始音频
  2. 根据字幕时间戳将音频分割成片段
  3. 为每个字幕片段生成TTS音频
  4. 调整TTS速度(在0.85-1.15倍范围内)以匹配原始片段时长
  5. 添加静音填充以填补剩余时间间隙
  6. 合并所有片段,保留原始时间间隔
  7. 用对齐后的TTS音频替换视频音频

可用语音

ElevenLabs(需要API密钥)

  • - Liam - 充满活力的男声(推荐)
  • Sarah - 专业女声
  • Brian - 深沉共鸣男声
  • 使用curl命令配合API密钥列出所有语音

Edge TTS(免费)

  • - 中文:zh-CN-XiaoxiaoNeural、zh-CN-YunxiNeural、zh-CN-YunyangNeural
  • 英语:en-US-JennyNeural、en-US-GuyNeural
  • 支持更多语言

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 video-audio-replace-1776295028 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 video-audio-replace-1776295028 技能

通过命令行安装

skillhub install video-audio-replace-1776295028

下载

⬇ 下载 video-audio-replace v1.0.0(免费)

文件大小: 6.76 KB | 发布时间: 2026-4-16 17:39

v1.0.0 最新 2026-4-16 17:39
init version

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部