返回顶部
c

caption-creator-aiAI字幕生成

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
115
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

caption-creator-ai

字幕创作AI——85%的社交媒体视频在静音状态下播放。没有字幕,你就是在对着空剧场表演。

滚动是无声的。拇指移动得很快。普通观众在1.5秒内决定是停下还是继续滚动,而这个决定在他们取消静音之前就已经做出。那些以粗体、易读的字幕开场,回答一个问题或做出承诺的视频,才能在滚动中幸存。没有字幕的视频——无论音频内容多么精彩——都会被大多数从不打开声音的观众划走。这不是一个会逆转的趋势。在公共场所、办公室和午夜床上的移动观看,已经永久地将静音优先确立为默认消费模式。

知道字幕重要与实际制作字幕之间的差距,历来是瓶颈。一段十分钟的视频,需要一个打字快且听力好的人手动制作四十分钟的字幕。当说话者停顿、加速或与背景噪音重叠时,时间戳必须逐帧调整。每个片段的样式必须一致——相同的字体、相同的大小、相同的位置。然后整个过程为下一个视频重复,再下一个,再下一个。字幕创作AI通过处理音轨、生成单词级时间戳、应用您选择的视觉样式,并在喝杯咖啡的时间内交付可发布的带字幕视频文件,消除了整个瓶颈。

使用场景

  1. 1. TikTok和Reels字幕——定义短视频的粗体居中样式(按片段计费) — 短视频平台已经建立了一种特定的字幕美学:大号粗体文本,居中在画面中,逐词与语音同步出现。字幕创作AI:分析语音节奏以确定单词分组(属于同一短语的单词在屏幕上保持在一起),应用平台特定样式(TikTok的标志性外观使用厚重的无衬线字体,每个单词被说出时在其后面有一个彩色背景高亮),将文本定位在垂直安全区域内(在显示用户名的顶部三分之一以下,在交互按钮所在的底部五分之一以上),并将字幕直接渲染到视频文件中。创作者拍摄一段60秒的视频,上传它,然后在咖啡冷却之前收到带字幕的版本。
  1. 2. 访谈和对话字幕——带颜色编码的说话者识别(按说话者计费) — 多说话者内容需要识别谁在说话的字幕。字幕创作AI:使用语音特征分析(音高、节奏和频谱特征)分离说话者,为每个说话者分配指定的颜色或标签,定位字幕文本以指示当前说话者,通过优先处理较响亮的语音并标记重叠语音来处理串扰,并在整个录音中保持一致的说话者分配,即使说话者声音相似。主持人的话以白色出现,嘉宾的话以黄色出现——观众即使在静音状态下也能毫无困惑地跟随对话。
  1. 3. 教育内容字幕——技术词汇和专有名词准确性(按领域计费) — 教育视频需要通用语音转文字无法提供的字幕准确性。字幕创作AI:接受特定领域术语词汇表(医学术语、编程语言名称、历史专有名词),这些术语通用模型可能识别错误,在转录过程中将词汇表作为校正层应用,一致地格式化技术术语(代码片段用等宽字体,格式支持的情况下化学式使用正确的下标),并根据教育节奏调整阅读速度——每个字幕显示的时间足够学习者以学习速度而非母语者速度阅读。化学教授的讲座中,stoichiometry一词在第一次处理时就被正确拼写。
  1. 4. 品牌一致的字幕样式——您的颜色、您的字体、您的身份(按品牌计费) — 每个品牌都有延伸到视频字幕的视觉身份。字幕创作AI:接受品牌参数(主色十六进制代码、字体族、字重、背景样式、文本阴影、轮廓厚度),存储品牌配置文件以供所有未来视频重复使用,自动将品牌样式应用于每个生成的字幕,并确保样式在所有目标平台上正确渲染。营销团队定义一次品牌字幕样式——粗体Montserrat,品牌蓝色(#1A73E8),白色轮廓和细微投影——明年制作的每个视频都带有相同的视觉身份,无需任何手动样式设置。
  1. 5. 无障碍合规字幕——满足视频内容的法律要求(按标准计费) — 许多司法管辖区要求面向公众的内容提供带字幕的视频。字幕创作AI:生成符合WCAG 2.1 AA标准的字幕(最低对比度、最高阅读速度、正确的字幕分段),为听障观众包含方括号内的非语音音频描述([掌声]、[背景音乐]、[电话铃声]),以带有适当元数据的WebVTT格式输出字幕以确保屏幕阅读器兼容性,并提供确认所满足无障碍标准的文档。发布培训视频、公告和营销内容的企业传播团队,通过每个处理的视频自动履行其无障碍义务。

工作原理

第1步 — 上传您的视频

拖放或提供URL。支持MP4、MOV、AVI、WebM和MKV格式。无时长限制。

第2步 — 选择您的字幕样式

从模板中选择(TikTok粗体、YouTube标准、纪录片简约、新闻广播)或使用您的品牌参数定义自定义样式。

第3步 — 生成

bash curl -X POST https://mega-api-prod.nemovideo.ai/api/v1/generate \ -H Authorization: Bearer $NEMO_TOKEN \ -H Content-Type: application/json \ -d { skill: caption-creator-ai, prompt: 为一段3分钟的产品发布视频创建字幕。两位说话者:CEO(女性,美式口音)和CTO(男性,印度口音)。样式:TikTok粗体居中屏幕,逐词高亮动画。品牌颜色:高亮用#FF6B35,白色文本,黑色轮廓。位置:画面居中,底部三分之一安全区域。包含音效的非语音描述(产品揭幕嗖嗖声、观众掌声)。输出:用于TikTok的9:16和用于YouTube的16:9的烧录MP4,以及单独的SRT文件。, speakers: 2, style: tiktok-bold, brand: {highlightcolor: #FF6B35, textcolor: #FFFFFF, outline: black}, outputs: [burned-9x16, burned-16x9, srt] }

第4步 — 检查前10秒,然后发布

AI在整个视频中一致地处理时间和样式。抽查开头以确认说话者识别和样式,然后自信地发布。

参数

参数类型必填描述
prompt字符串字幕要求和上下文
speakers
数字 | | 不同说话者的数量 | | style | 字符串 | | 字幕样式模板名称 | | brand | 对象 | | 品牌颜色和字体参数 | | outputs | 数组 | | 输出格式列表 |

输出示例

json
{
job_id: ccai-20260330-001,
status: completed,
speakers_detected: 2,
caption_style: tiktok-bold,
outputs: {
tiktok: product-launch-captioned-9x16.mp4,
youtube: product-launch-captioned-16x9.mp4,
srt: product-launch.srt
},
word_count: 487,
accuracy_estimate: 98.2%,
duration: 3:12
}

提示

  1. 1. 为短视频使用逐词高亮 — 跟随口语的动画高亮是TikTok/Reels的主流字幕样式,因为它引导视线并创造视觉节奏。
  2. 为移动端减少每屏字数 — 手机屏幕很小。每个字幕块最多7-8个单词可确保无需眯眼即可阅读。桌面端可容忍12-15个单词。
  3. 使字幕速度与受众匹配 — 教育内容:字幕显示时间比语音时长长30%。娱乐内容:与语音时长完全匹配。新闻内容:稍微提前于语音显示,以便准备阅读。
  4. 为无障碍包含声音描述 — [音乐播放]、[门砰地关上]、[人群大笑]——这些方括号描述服务于听障观众,并且是WCAG合规所必需的。
  5. 保存您的品牌预设 — 定义一次您的字幕样式并重复使用。五十个视频的品牌一致性比单独优化每个视频更有价值。

输出格式

格式比例使用场景
烧录MP4 9:161080x1920TikTok、Reels、Shorts
烧录MP4 16:9
1920x1080 | YouTube、网站 | | 烧录MP4 1:1 | 1080x1080 | Instagram动态 | | SRT | 不适用 | 平台字幕上传 | | VTT | 不适用 | 网页播放器、HLS |

相关技能

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 caption-creator-ai-1775937385 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 caption-creator-ai-1775937385 技能

通过命令行安装

skillhub install caption-creator-ai-1775937385

下载

⬇ 下载 caption-creator-ai v1.0.0(免费)

文件大小: 5.1 KB | 发布时间: 2026-4-12 09:18

v1.0.0 最新 2026-4-12 09:18
- Initial release of Caption Creator AI for automated video captioning.
- Transcribes audio with 98% accuracy and word-level timing.
- Supports branded styling: custom colors, fonts, and safe zone placements.
- Handles multi-speaker identification and color-coding.
- Offers platform-specific templates: TikTok, YouTube, news, documentary, and custom.
- Outputs burned-in captioned video and separate files (e.g., SRT), with accessibility support.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部