返回顶部
b

bilibili-up-to-kbB站视频转知识库

Convert Bilibili (B站) videos into a searchable text knowledge base. Supports single videos and batch processing of entire UP主 channels. Uses local whisper.cpp for transcription (no API key needed). Includes automated transcript cleaning to fix ASR errors with full paragraph-level coverage. Use when: (1) user wants to transcribe a Bilibili video, (2) user wants to build a knowledge base from a channel, (3) user sends a bilibili.com or b23.tv link and asks for text/transcript/summary, (4) user say

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
409
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

bilibili-up-to-kb

Bilibili UP 转知识库

将B站视频(单个或整个频道)转换为清洗后的结构化文本知识库。

设计原则

智能体编排,脚本执行。 智能体的职责是决定做什么并启动正确的脚本。所有机械性、重复性的工作(下载、转录、清洗)均由内置并行能力的Shell脚本处理。智能体绝不会逐个遍历视频——它只运行一条命令,脚本内部处理并发。

输出结构

kb/UP主名_UID/
├── BV号_视频标题.txt # 清洗后的转录文本(面向用户)
├── BV号_视频标题.meta.json # 视频元数据
├── index.md # 摘要索引
└── .raw/ # 隐藏:whisper转录结果(如有)
└── BV号_视频标题.txt

关键决策:

  • - 文件名包含标题以便阅读(BV1xxx标题.txt)
  • 文件夹包含UP主名称(UP主名UID/)
  • 原始转录结果隐藏在.raw/中
  • 无_clean后缀——清洗后的文件即为主文件
  • 每个视频附带.meta.json,包含标题、上传者、时长等信息

完整流程

步骤1:下载AI字幕(快速,高并发可行)

bash

30-50并发无问题——B站CDN可处理

scripts/batch_channel.sh https://space.bilibili.com/UID/ ./kb/output zh 0 30

步骤2:对无AI字幕的视频运行whisper(低并发!)

bash

Metal GPU只能处理1-4个并行whisper实例

更多反而更慢(GPU饱和)

scripts/batch_channel.sh https://space.bilibili.com/UID/ ./kb/output zh 0 2 --whisper-only

步骤3:清洗 + 索引

bash

清洗whisper转录文本(AI字幕自动跳过)

scripts/batchclean.sh ./kb/UP主名UID/ scripts/generateindex.sh ./kb/UP主名UID/

并发指南

关键:不同阶段需要不同的并发数!

阶段瓶颈推荐并发数原因
AI字幕下载网络30-50B站CDN可处理高并发
Whisper转录
Metal GPU | 1-4 | GPU饱和,多了反而慢 |
| 转录文本清洗 | API速率限制 | 全部(0) | 仅网络I/O |

快速开始——单个视频

bash
scripts/transcribe.sh https://www.bilibili.com/video/BV... ./output zh

转录文本清洗

AI字幕已足够干净——默认跳过。

来源是否需要清洗?
B站AI字幕——可直接使用
whisper备用方案
是——需经过清洗 |

清洗使用opencode/minimax-m2.5-free:

  1. 1. 修正同音字和乱码
  2. 添加标点符号
  3. 输出必须为简体中文
  4. 保留不确定的专有名词不变
  5. 绝不用一个真实术语替换另一个

分块大小:80行。重试:3次,间隔3秒。

⚠️ 长时间运行任务

使用nohup避免会话压缩导致进程终止:
bash
nohup bash scripts/batchclean.sh ./kb/UP主名UID/ 0 80 > /tmp/clean.log 2>&1 &

batch_clean.sh支持断点续传——中断后重新运行安全。

⚠️ 大型频道处理(1000+视频)

脚本自动检测大型频道(>800个视频)并分块获取以避免超时。

bash

自动分块,重新运行即可续传


nohup bash scripts/batch_channel.sh https://space.bilibili.com/UID/ ./kb/output > /tmp/batch.log 2>&1 &

如果仍然失败,手动获取URL列表:
bash
for i in $(seq 1 500 2000); do
yt-dlp --flat-playlist --playlist-start $i --playlist-end $((i+499)) \
--print url https://space.bilibili.com/UID/ >> /tmp/urls.txt
done
cat /tmp/urls.txt | xargs -P 20 -I {} bash scripts/transcribe.sh {} ./kb/OUTPUT zh

⚠️ 散热与风扇警告

保持系统冷却——避免风扇转动!

阶段风险缓解措施
Whisper(GPU)保持并发≤2,监控温度
AI字幕下载
低 | 可运行30-50并发 |
| 清洗(API) | 无 | 纯网络I/O,无本地负载 |

如果风扇开始转动:

  • - 立即停止whisper进程
  • 等待冷却
  • 以更低并发数(1-2)恢复运行

bash

检查GPU温度(如使用CUDA)


nvidia-smi

检查Mac CPU/GPU温度

sudo powermetrics --sample-rate 1000 -i 1 -n 1 | grep -E CPU|GPU

依赖项

必需:yt-dlp、ffmpeg、whisper.cpp(+模型)、opencode CLI
可选:会员专属内容的浏览器Cookie(--cookies-from-browser chrome)

环境变量

变量默认值描述
WHISPERCLIwhisper-cliwhisper.cpp路径
WHISPERMODEL
~/.whisper-cpp/ggml-small.bin | Whisper模型 | | OPENCODE_BIN | ~/.opencode/bin/opencode | opencode CLI | | CLEAN_MODEL | opencode/minimax-m2.5-free | 清洗模型 |

提示

  • - 中国用户:使用hf-mirror.com获取whisper模型
  • 长视频(1小时以上):自动分割为10分钟片段
  • 断点续传:所有批处理脚本跳过已处理的文件

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 bilibili-up-to-kb-1776292435 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 bilibili-up-to-kb-1776292435 技能

通过命令行安装

skillhub install bilibili-up-to-kb-1776292435

下载

⬇ 下载 bilibili-up-to-kb v0.1.0(免费)

文件大小: 12.45 KB | 发布时间: 2026-4-16 17:51

v0.1.0 最新 2026-4-16 17:51
Initial release – Convert Bilibili videos/channels into a structured text knowledge base.

- Supports single videos and batch processing of entire UP主 channels.
- Uses local whisper.cpp for transcription; no API key required.
- Automated transcript cleaning with paragraph-level coverage to fix ASR errors.
- Outputs cleaned transcripts, metadata, and an index; raw transcripts stored separately.
- Handles large channels and includes resumable, concurrency-safe bash scripts.

Archiver·手机版·闲社网·闲社论坛·智能体自动化市场· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2026 闲社网·AI智能体论坛·AI自动化解决方案·http://xianshe.com

p2p_official_large
返回顶部