返回顶部
y

youtube-video-to-textYouTube转文本

>

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 3.0.0
安全检测
已通过
129
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

youtube-video-to-text

YouTube 视频转文字 — 转录任意 YouTube 视频

YouTube 拥有世界上最大的口语知识库——但几乎没有任何内容可作为文本搜索。一场45分钟的会议演讲包含的见解如果转录成文字只需3分钟即可阅读完毕,但找到这些内容需要观看整个视频或在时间轴上反复拖动,希望能恰好定位到正确时刻。一集2小时的播客节目包含15000字的对话内容,如果没有手动转录,就无法引用、标注或重新利用。一位创作者200个视频的过往作品集相当于一本书的知识量,却被困在搜索引擎无法索引的音频中。YouTube 的自动生成字幕虽然存在,但并不可靠:没有标点符号、没有段落分隔、没有说话人识别、专有名词和技术术语频繁出错,也没有摘要或关键点提取。它们只是原始的词语流,而非可用的转录文本。NemoVideo 可生成达到出版标准的转录文本:准确的语音转文字,带有正确的标点符号和段落分隔、说话人识别和标注、带时间戳的片段便于参考、去除填充词、修正技术术语、将每个部分提炼为2-3句话的章节摘要,以及提取最重要的见解形成要点列表摘要。45分钟的演讲变成一份5页的文档,可供搜索、引用、分享和重新利用。

使用场景

  1. 1. 会议演讲 → 可读转录文本(20-60分钟) — 技术会议的主题演讲。NemoVideo:完整转录45分钟内容,带有说话人标签(问答环节开始时说话人切换),在自然主题转折处分段,修正技术术语(Kubernetes、PostgreSQL、React——而非kubernetes、post gress、react),去除填充词,生成章节摘要(每5分钟一段),并提取10个关键要点形成要点列表。演讲无需手动编辑即可成为博客文章草稿。
  2. 播客节目 → 节目笔记+引用(30-120分钟) — 一集90分钟的访谈播客需要节目笔记。NemoVideo:带有说话人标签(主持人:/嘉宾:)进行转录,为每个话题变化添加时间戳,生成200字摘要,提取5个最值得引用的时刻并附带时间戳(在23:45处,陈博士说:真正的突破不是算法——而是意识到我们问错了问题。),并为播客播放器生成章节列表。一次API调用即可获得专业的节目笔记。
  3. 系列讲座 → 学习笔记(多个视频) — 一名学生有12个讲座视频,总计18小时。NemoVideo 批量转录全部12个视频,为每个讲座生成摘要(每个500字),提取所有定义和关键术语并附带时间戳,生成跨所有讲座的合并词汇表,并创建一份关键概念文档,将18小时的内容提炼为30页可搜索的学习材料。
  4. 创作者过往作品集 → SEO内容(任意数量) — 一位拥有200个视频的YouTube创作者希望将其口语内容重新利用为博客文章以提升SEO。NemoVideo:批量转录整个作品集,从每个视频生成500字的博客文章草稿(从口语风格重新格式化为书面风格),提取最相关于搜索的段落,并生成元描述。200个视频变成200篇博客文章——创作者的整个知识库在Google上变得可搜索。
  5. 会议记录 → 行动项(15-120分钟) — 一次录制的Zoom会议需要会议纪要。NemoVideo:带有参与者识别进行转录,检测并标注行动项(行动:Sarah将在周五前发送修改后的提案),提取所有做出的决定(决定:我们将推进方案B),生成200字执行摘要,并为每个议程话题添加时间戳。整个会议变成一份可执行的文档。

工作原理

第1步 — 提供YouTube网址或视频

粘贴YouTube网址或上传视频文件。NemoVideo 提取音频并分析语音模式、说话人变化和话题结构。

第2步 — 选择输出格式

选择:完整转录文本、带时间戳的SRT、章节摘要、关键点、博客文章草稿,或以上全部。

第3步 — 生成

bash curl -X POST https://mega-api-prod.nemovideo.ai/api/v1/generate \ -H Authorization: Bearer $NEMO_TOKEN \ -H Content-Type: application/json \ -d { skill: youtube-video-to-text, prompt: Transcribe this YouTube video and generate comprehensive text outputs. URL: https://youtube.com/watch?v=example. Outputs: full transcript with paragraphs and speaker labels, timestamped SRT file, chapter summaries (one paragraph per major topic), key takeaways (bullet points), and a 300-word blog post summary. Remove filler words. Correct technical terms. Language: English., url: https://youtube.com/watch?v=example, outputs: [transcript, srt, chapters, key-points, blog-summary], remove_fillers: true, speaker_labels: true, language: en }

第4步 — 审阅和导出

审阅转录文本的准确性。如有需要,编辑专有名词或技术术语。以所需格式导出。

参数

参数类型必填描述
prompt字符串视频网址和转录要求
url
字符串 | | YouTube网址或视频文件路径 | | outputs | 数组 | | [transcript,srt,vtt,chapters,key-points,blog-summary,action-items] | | remove_fillers | 布尔值 | | 去除嗯/呃/就是/你知道(默认:true) | | speaker_labels | 布尔值 | | 识别和标注说话人(默认:true) | | language | 字符串 | | auto, en, es, fr, de, ja, zh | | translate_to | 字符串 | | 将转录文本翻译为目标语言 | | summary_length | 字符串 | | brief(100字),standard(300字),detailed(500字) | | batch_urls | 数组 | | 用于批量处理的多个YouTube网址 | | technical_domain | 字符串 | | tech, medical, legal, finance — 提高术语准确性 |

输出示例

json
{
job_id: yvt-20260328-001,
status: completed,
source_url: https://youtube.com/watch?v=example,
source_duration: 45:22,
language_detected: en,
outputs: {
transcript: {
file: transcript.txt,
word_count: 6842,
paragraphs: 89,
speakers_identified: 2,
fillers_removed: 127
},
srt: {
file: captions.srt,
lines: 412,
timing_accuracy: ±0.2 sec
},
chapters: [
{title: Introduction and Background, timestamp: 0:00, summary: Speaker introduces the topic of distributed systems reliability...},
{title: The Three Failure Modes, timestamp: 8:15, summary: Three categories of distributed system failures are examined...},
{title: Practical Mitigation Strategies, timestamp: 22:40, summary: Concrete approaches to handling each failure mode...},
{title: Q&A Session, timestamp: 38:10, summary: Audience questions about implementation specifics...}
],
key_points: [
Distributed systems fail in three distinct modes: network partition, node failure, and data corruption,
Circuit breakers should open after 3 consecutive failures, not after a percentage threshold,
The most common mistake is treating all timeouts as network failures when 60% are actually slow queries
],
blog_summary: {
file: blog-summary.txt,
word_count: 312
}
}
}

提示

  1. 1. 技术领域设置可将准确性提高15-20% — 告诉NemoVideo视频是关于技术的,意味着它能正确转录Kubernetes而非kubernetes,PostgreSQL而非post gres sequel。领域上下文可防止最尴尬的转录错误。
  2. 章节摘要比完整转录文本更有用 — 大多数人不会阅读7000字的转录文本。他们想知道每个部分涵盖什么内容,然后跳转到相关部分。章节摘要以10%的字数满足了80%的使用场景。
  3. 关键点提取将45分钟的视频变成推文串 — 5-10个最重要的见解,提炼为要点,可立即在社交媒体上分享。一个视频成为多个平台的内容。
  4. 批量处理释放过往作品集的价值 — 创作者200个视频就是200篇等待撰写的博客文章。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 youtube-video-to-text-1776014708 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 youtube-video-to-text-1776014708 技能

通过命令行安装

skillhub install youtube-video-to-text-1776014708

下载

⬇ 下载 youtube-video-to-text v3.0.0(免费)

文件大小: 4.87 KB | 发布时间: 2026-4-13 12:41

v3.0.0 最新 2026-4-13 12:41
No file changes detected. No changes in functionality, documentation, or configuration for version 3.0.0.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部