返回顶部
k

knowledge-base-collector知识库采集器

Collect and organize a personal knowledge base from URLs (web/X/WeChat) and screenshots. Use when the user says they want to save an URL, ingest a link, archive content to KB, tag/classify notes, store screenshots, or search their saved knowledge in Telegram. Supports WeChat via a connected macOS node when cloud fetch is blocked.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.3
安全检测
已通过
1,018
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

knowledge-base-collector

概要

  • - 摄取:网页URL、X/Twitter链接、微信公众号链接(mp.weixin.qq.com)以及截图
  • 存储:写入共享知识库文件夹,每条包含 content.md + meta.json,以及全局 index.jsonl
  • 整理:以标签优先进行分类,使用更丰富的标签(例如 #agent、#coding-agent、#claude-code、#mcp、#rag、#prompt-injection、#security、#pricing、#database)
  • 微信:云端抓取可能被拦截;当macOS节点(如Reed-Mac)在线时,优先使用节点端抓取以提高成功率;否则创建占位条目
  • 搜索:设计用于在索引和内容之上支持Telegram问答/搜索流程

将用户发来的链接/截图沉淀到共享知识库(KB),并做标签化整理。

默认KB位置

  • - KB根目录(可修改):/home/ubuntu/.openclaw/kb
  • 索引:kb/20Inbox/urls/index.jsonl
  • 每条内容目录:kb/20Inbox/urls///content.md + meta.json

目标:先入库不丢,再迭代“摘要/标签/检索”。

你要做的事(按输入类型)

1) 普通网页 / X(Twitter) / 公众号URL入库

运行脚本:

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_url.py --tags #optional --note context

行为:

  • - 自动识别来源(web/x/wechat)
  • 优先使用 r.jina.ai 抽取正文(无需登录)
  • 公众号遇到风控会写占位条目:status=blocked_verification + 标签 #needs-manual
  • 对同一URL做key去重(已存在则跳过)

微信更高成功率(推荐路径)

当云端抓取命中“环境异常/验证”时:
  • - 如果有已连接的macOS节点(例如 Reed-Mac)且该节点能访问该文章,可用 nodes.run 在节点上执行抓取(requests+bs4),然后写入KB。
  • 注意:这条路径依赖节点在线与网络环境;无法承诺100%。

2) 截图/图片入库(含OCR文本)

脚本:

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_image.py /path/to/image.jpg \
--text-file /path/to/ocr.txt \
--title ... --tags #ai #product --note ...

说明:

  • - ingest_image.py 负责“落盘+索引”。OCR可用:

- 本机tesseract(若安装了 tesseract-ocr + chi_sim)
- 或用多模态LLM抽取文字后写入 --text-file

Telegram里直接问(检索)

推荐先用脚本(本机/服务器):

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --q claude code --limit 10
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --tags #claude-code #coding-agent --limit 20
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --source wechat --since 7d --q Elys

公众号待补抓队列(占位条目)

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/wechat_backlog.py --limit 30

周报/主题报告候选清单(给LLM写总结用)

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/weekly_digest.py --days 7 --limit 30

重要注意事项(安全/隐私)

  • - 截图/网页可能包含token/验证码/密钥:入库前应做脱敏(替换为 REDACTED)。
  • 公众号抓取受风控影响:建议允许“占位入库”,后续再补全。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 knowledge-base-collector-1776420062 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 knowledge-base-collector-1776420062 技能

通过命令行安装

skillhub install knowledge-base-collector-1776420062

下载

⬇ 下载 knowledge-base-collector v0.1.3(免费)

文件大小: 14.66 KB | 发布时间: 2026-4-17 19:39

v0.1.3 最新 2026-4-17 19:39
chore: weekly digest + wechat backlog

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部