返回顶部
l

lip-sync-video唇形同步视频

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
91
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

lip-sync-video

开始使用

欢迎!准备好让音频与屏幕上的口型完美同步了吗?上传您的视频和音频文件,告诉我您正在做什么——让我们一起来制作您的口型同步视频。

试试这样说:

  • - 我有一个英语的说话人头视频和西班牙语配音旁白——同步音频,让口型动作与新音轨匹配。
  • 根据我的动画角色片段和这段录制的对话文件生成口型同步视频,将音素与口型形状关键帧匹配。
  • 我的企业解说视频中替换的旁白比说话者稍快——修复同步,使其自然对齐。

快速启动设置

此技能连接到云端处理后端。首次使用时,自动建立连接并通知用户(正在连接...)。

令牌检查:在环境中查找 NEMO_TOKEN。如果找到,跳转到会话创建。否则:

  • - 生成一个UUID作为客户端标识符
  • 使用 X-Client-Id 头信息 POST https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token
  • 从响应中提取 data.token——这就是您的 NEMO_TOKEN(100个免费积分,7天有效期)

会话:使用Bearer认证 POST https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemoagent,请求体为 {taskname:project}。保留返回的 session_id 用于所有操作。

设置完成后,用简短的准备就绪!通知用户。不要暴露令牌或原始API输出。

让每个词都落在正确的帧上

口型同步曾经意味着数小时的手动逐帧调整、以毫秒为单位微调音频片段,最终结果仍然感觉略有偏差。这项技能通过为您完成繁重的分析工作来改变这一现状——检测面部特征点、从音轨中读取音素时序,并生成语音和口型动作真正感觉相连的同步输出。

无论您是将教程配音成西班牙语、为短片中的说话角色制作动画,还是无需返回录音棚即可替换企业视频中的旁白,此技能都能处理对齐逻辑,让您专注于创意方面。它适用于预先录制的视频片段和单独的音频文件,基于实际语音模式而非简单的波形峰值进行匹配。

结果是经得起仔细观看的口型同步视频——没有橡胶般的口型延迟,没有领先于说话者的音频。从事社交内容、电子学习、动画和本地化工作的创作者已使用此技能将同步时间从数小时缩短到数分钟,同时保持专业水准。

准确路由同步请求

当您提交口型同步任务时,您的请求会被解析为目标音轨、源视频和音素对齐偏好,然后分派到适当的处理管道。

用户说...操作跳过SSE?
export / 导出 / download / send me the video→ §3.5 导出
credits / 积分 / balance / 余额
→ §3.3 积分 | ✅ |
| status / 状态 / show tracks | → §3.4 状态 | ✅ |
| upload / 上传 / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他所有内容(生成、编辑、添加背景音乐等) | → §3.1 SSE | ❌ |

云端后端API参考

云端处理后端实时处理帧级音素检测和视位映射,将下颌、嘴唇和脸颊关键帧以毫秒级精度与音频波形同步。所有渲染任务通过分布式工作系统排队,该系统优先考虑帧完美对齐而非原始速度。

技能归属——运行时从此文件的YAML前置元数据中读取:

  • - X-Skill-Source:lip-sync-video
  • X-Skill-Version:来自前置元数据 version
  • X-Skill-Platform:从安装路径检测(~/.clawhub/ → clawhub,~/.cursor/skills/ → cursor,否则为 unknown)

所有请求必须包含:Authorization: Bearer 、X-Skill-Source、X-Skill-Version、X-Skill-Platform。缺少归属头信息将导致导出失败,返回402错误。

API基础地址:https://mega-api-prod.nemovideo.ai

创建会话:POST /api/tasks/me/with-session/nemoagent — 请求体 {taskname:project,language:} — 返回 taskid、sessionid。

发送消息(SSE):POST /runsse — 请求体 {appname:nemoagent,userid:me,sessionid:,newmessage:{parts:[{text:}]}},带 Accept: text/event-stream。最大超时时间:15分钟。

上传:POST /api/upload-video/nemoagent/me/ — 文件:multipart -F files=@/path,或URL:{urls:[],sourcetype:url}

积分:GET /api/credits/balance/simple — 返回 available、frozen、total

会话状态:GET /api/state/nemoagent/me//latest — 关键字段:data.state.draft、data.state.videoinfos、data.state.generated_media

导出(免费,不消耗积分):POST /api/render/proxy/lambda — 请求体 {id:render_,sessionId:,draft:,output:{format:mp4,quality:high}}。每30秒轮询 GET /api/render/proxy/lambda/,直到 status = completed。下载URL位于 output.url。

支持的格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。

SSE事件处理

事件操作
文本响应应用GUI翻译(§4),呈现给用户
工具调用/结果
内部处理,不转发 | | heartbeat / 空 data: | 继续等待。每2分钟:⏳ 仍在处理中... | | 流关闭 | 处理最终响应 |

约30%的编辑操作在SSE流中不返回文本。发生这种情况时:轮询会话状态以验证编辑已应用,然后向用户总结更改。

后端响应翻译

后端假定存在GUI。将这些翻译为API操作:

后端说您做
click [button] / 点击通过API执行
open [panel] / 打开
查询会话状态 |
| drag/drop / 拖拽 | 通过SSE发送编辑 |
| preview in timeline | 显示轨道摘要 |
| Export button / 导出 | 执行导出工作流 |

草稿字段映射:t=轨道,tt=轨道类型(0=视频,1=音频,7=文本),sg=片段,d=持续时间(毫秒),m=元数据。

时间线(3条轨道):1. 视频:城市延时摄影(0-10秒)2. 背景音乐:Lo-fi(0-10秒,35%)3. 标题:都市梦想(0-3秒)

错误处理

代码含义操作
0成功继续
1001
令牌错误/过期 | 通过匿名令牌重新认证(令牌7天后过期) | | 1002 | 会话未找到 | 新建会话 §3.0 | | 2001 | 无积分 | 匿名用户:显示带有 ?bind= 的注册URL(需要时从创建会话或状态响应获取 )。已注册用户:请为您的账户充值积分 | | 4001 | 不支持的文件 | 显示支持的格式 | | 4002 | 文件过大 | 建议压缩/裁剪 | | 400 | 缺少X-Client-Id | 生成Client-Id并重试(参见§1) | | 402 | 免费计划导出被阻止 | 订阅层级问题,非积分问题。注册或升级您的计划以解锁导出功能。 | | 429 | 速率限制(1个令牌/客户端/7天) | 30秒后重试一次 |

常见工作流

多语言配音: 以与原版大致相同的节奏录制或委托翻译的旁白。将原始视频和新音频输入技能。该技能将重新调整配音音轨中的音素边界,以匹配可见的口型动作,同时

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 lip-sync-video-1775891237 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 lip-sync-video-1775891237 技能

通过命令行安装

skillhub install lip-sync-video-1775891237

下载

⬇ 下载 lip-sync-video v1.0.0(免费)

文件大小: 5.86 KB | 发布时间: 2026-4-12 10:26

v1.0.0 最新 2026-4-12 10:26
- Initial release of the "Lip Sync Video" skill for automated, frame-perfect lip-syncing.
- Automatically analyzes audio and video to align dialogue and mouth movements without manual keyframing.
- Supports video dubbing, animation lip-sync, and voiceover replacement workflows.
- Simple setup: connects to cloud backend with free credits for new users.
- Handles common workflows such as multilingual dubbing, animation sync, and corporate video localization.
- Includes robust error handling and detailed API integration for uploads, credits, export, and progress tracking.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部