返回顶部
l

lip-sync-ai-videoAI唇形同步视频

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
99
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

lip-sync-ai-video

开始使用

欢迎——您离视频中完美同步的语音仅一步之遥。无论您是在配音、本地化,还是让面部动画匹配新的音频,只需提供您的视频和音频详情,让我们开始吧。

试试这样说:

  • - 我有一个60秒的英文产品演示视频,想用法语配音并匹配口型——法语音频文件已准备好上传。
  • 能否将我们CEO的这张头像照片制作成动画,让他说出我录制的30秒欢迎词?我需要它看起来像真实的讲话视频。
  • 我录制的画外音与屏幕上的演讲者口型不匹配,因为拍摄后我们重新录制了脚本——能否将口型与新音频重新同步?

建立连接

在处理任何用户请求之前,先建立与后端API的连接。显示简短的状态信息,如正在连接...。

如果环境中存在NEMO_TOKEN,直接使用它并创建会话。否则,获取免费的起始令牌:

  • - 生成一个UUID作为客户端标识符
  • 使用X-Client-Id头信息向https://mega-api-prod.nemovideo.ai/api/auth/anonymous-token发送POST请求
  • 响应中包含一个token,附带100个免费积分,有效期为7天——将其用作NEMO_TOKEN

然后创建会话,使用Bearer授权向https://mega-api-prod.nemovideo.ai/api/tasks/me/with-session/nemoagent发送POST请求,请求体为{taskname:project,language:en}。响应中的session_id在后续所有请求中都需要使用。

告诉用户您已准备就绪。将技术细节保留在聊天之外。

让任何面孔即时说出任何话语

口型同步AI视频消除了视频制作中最繁琐的挑战之一:让人物的口型动作与应该说的音频匹配。无论您是将产品讲解视频配音成西班牙语,为发言人照片制作动画,还是修复录制音频与镜头前表达之间的不匹配,这项技能都会自动处理逐帧对齐。

底层过程分析视频每一帧中的面部特征点,然后重新生成嘴部区域以匹配目标音频的语音节奏和形状。结果是在正常观看条件下自然流畅的口型运动——没有恐怖谷效应,没有明显的修补痕迹。

这项技能专为实际制作工作流程而构建。营销人员用它来本地化广告活动而无需重新选角。教育工作者在脚本更改时用它来更新课程视频。播客和YouTube创作者用它来将静态个人资料图像动画化为引人入胜的讲话头像。无论您的使用场景如何,目标都是一样的:用最少的手动工作实现可信的语音与面部同步。

路由您的口型同步请求

每个请求——无论您是在同步配音音轨、替换对话,还是为静态面部制作动画——都会被解析为目标视频、源音频和面部区域,然后分派到相应的口型同步管道。

用户说...操作跳过SSE?
export / 导出 / download / send me the video→ §3.5 导出
credits / 积分 / balance / 余额
→ §3.3 积分 | ✅ |
| status / 状态 / show tracks | → §3.4 状态 | ✅ |
| upload / 上传 / 用户发送文件 | → §3.2 上传 | ✅ |
| 其他所有内容(生成、编辑、添加背景音乐等) | → §3.1 SSE | ❌ |

云端渲染API参考

口型同步处理在GPU加速的云端后端运行,完全在服务器端处理面部特征点检测、嘴部区域隔离以及逐帧音素到视位渲染。您永远不需要本地计算——API接受您的视频和音频素材,将合成任务加入队列,并在渲染完成后流式返回合成输出。

技能归属——运行时从此文件的YAML前置元数据中读取:

  • - X-Skill-Source:lip-sync-ai-video
  • X-Skill-Version:来自前置元数据version
  • X-Skill-Platform:从安装路径检测(~/.clawhub/ → clawhub,~/.cursor/skills/ → cursor,否则为unknown)

所有请求必须包含:Authorization: Bearer 、X-Skill-Source、X-Skill-Version、X-Skill-Platform。缺少归属头信息将导致导出失败,返回402错误。

API基础地址:https://mega-api-prod.nemovideo.ai

创建会话:POST /api/tasks/me/with-session/nemoagent — 请求体{taskname:project,language:} — 返回taskid、sessionid。

发送消息(SSE):POST /runsse — 请求体{appname:nemoagent,userid:me,sessionid:,newmessage:{parts:[{text:}]}},附带Accept: text/event-stream。最大超时时间:15分钟。

上传:POST /api/upload-video/nemoagent/me/ — 文件:multipart -F files=@/path,或URL:{urls:[],sourcetype:url}

积分:GET /api/credits/balance/simple — 返回available、frozen、total

会话状态:GET /api/state/nemoagent/me//latest — 关键字段:data.state.draft、data.state.videoinfos、data.state.generated_media

导出(免费,不消耗积分):POST /api/render/proxy/lambda — 请求体{id:render_,sessionId:,draft:,output:{format:mp4,quality:high}}。每30秒轮询GET /api/render/proxy/lambda/,直到status = completed。下载URL位于output.url。

支持的格式:mp4、mov、avi、webm、mkv、jpg、png、gif、webp、mp3、wav、m4a、aac。

SSE事件处理

事件操作
文本响应应用GUI翻译(§4),呈现给用户
工具调用/结果
内部处理,不转发 | | heartbeat / 空data: | 继续等待。每2分钟:⏳ 仍在处理中... | | 流关闭 | 处理最终响应 |

约30%的编辑操作在SSE流中不返回文本。当发生这种情况时:轮询会话状态以验证编辑是否已应用,然后向用户总结更改。

后端响应翻译

后端假设存在GUI。将这些翻译为API操作:

后端说您做
click [button] / 点击通过API执行
open [panel] / 打开
查询会话状态 |
| drag/drop / 拖拽 | 通过SSE发送编辑 |
| preview in timeline | 显示轨道摘要 |
| Export button / 导出 | 执行导出工作流程 |

草稿字段映射:t=轨道,tt=轨道类型(0=视频,1=音频,7=文本),sg=片段,d=时长(毫秒),m=元数据。

时间线(3条轨道):1. 视频:城市延时摄影(0-10秒)2. 背景音乐:Lo-fi(0-10秒,35%)3. 标题:都市梦想(0-3秒)

错误处理

代码含义操作
0成功继续
1001
令牌错误/过期 | 通过anonymous-token重新认证(令牌7天后过期) | | 1002 | 会话未找到 | 新建会话 §3.0 | | 2001 | 积分不足 | 匿名用户:显示注册URL,附带?bind=(需要时从创建会话或状态响应中获取)。已注册用户:请为您的账户充值积分 | | 4001 | 不支持的文件 | 显示支持的格式 | | 4002 | 文件过大 | 建议压缩/裁剪 | | 400 | 缺少X-Client-Id | 生成Client-Id并重试(参见§1) | | 402 | 免费计划导出受限 | 订阅层级问题,非积分问题。注册或升级您的套餐以解锁导出功能。 | | 429 | 速率限制(1个令牌/客户端/7天) | 30秒后重试

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 lip-sync-ai-video-1775706020 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 lip-sync-ai-video-1775706020 技能

通过命令行安装

skillhub install lip-sync-ai-video-1775706020

下载

⬇ 下载 lip-sync-ai-video v1.0.0(免费)

文件大小: 5.95 KB | 发布时间: 2026-4-11 22:58

v1.0.0 最新 2026-4-11 22:58
Lip Sync AI Video 1.0.0 — Initial Release

- Instantly generates perfectly synced talking-head videos by matching any audio track to any face in video or photo.
- Supports voice swapping, multilingual dubbing, and animation of static images to create realistic speech.
- Seamless cloud-based workflow: upload video and audio, and receive AI-processed outputs without local compute.
- Includes robust session management, credits handling, and clear status/error messages.
- Ideal for content creators, marketers, educators, and localization teams needing natural-looking speech sync at scale.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部