knowledge-base-collector

Summary

- Ingest: web URLs, X/Twitter links, WeChat Official Account links (mp.weixin.qq.com), and screenshots
Store: writes to a shared KB folder with per-item content.md + meta.json and a global INLINECODE2
Organize: tag-first classification with richer tags (e.g. #agent, #coding-agent, #claude-code, #mcp, #rag, #prompt-injection, #security, #pricing, #database)
WeChat: cloud fetch may be blocked; when a macOS node (e.g. Reed-Mac) is online, prefer node-side fetch to improve success rate; otherwise create a placeholder entry
Search: designed to support Telegram Q&A / search flows on top of the index and content

把用户发来的链接/截图沉淀到共享知识库（KB），并做标签化整理。

默认 KB 位置

- KB Root（可改）：INLINECODE12
索引：INLINECODE13
每条内容目录：INLINECODE14

目标：先入库不丢，再迭代“摘要/标签/检索”。

你要做的事（按输入类型）

1) 普通网页 / X(Twitter) / 公众号 URL 入库

运行脚本：

CODEBLOCK0

行为：

- 自动识别来源（web/x/wechat）
优先用 r.jina.ai 抽取正文（无需登录）
公众号遇到风控会写占位条目：status=blocked_verification + tag INLINECODE17
对同一 URL 做 key 去重（已存在则跳过）

WeChat 更高成功率（推荐路径）

当云端抓取命中“环境异常/验证”时：

- 如果有已连接的 macOS 节点（例如 Reed-Mac）且该节点能访问该文章，可用 nodes.run 在节点上执行抓取（requests+bs4），然后写入 KB。
注意：这条路径依赖节点在线与网络环境；无法承诺 100%。

2) 截图/图片入库（含 OCR 文本）

脚本：

CODEBLOCK1

说明：

- ingest_image.py 负责“落盘+索引”。OCR 可用：

- 本机 tesseract（若安装了 tesseract-ocr + chi_sim）
- 或用多模态 LLM 抽取文字后写入 INLINECODE23

Telegram 里直接问（检索）

推荐先用脚本（本机/服务器）：

CODEBLOCK2

公众号待补抓队列（占位条目）

CODEBLOCK3

周报/主题报告候选清单（给 LLM 写总结用）

CODEBLOCK4

重要注意事项（安全/隐私）

- 截图/网页可能包含 token/验证码/密钥：入库前应做脱敏（替换为 REDACTED）。
公众号抓取受风控影响：建议允许“占位入库”，后续再补全。

概要

- 摄取：网页URL、X/Twitter链接、微信公众号链接（mp.weixin.qq.com）以及截图
存储：写入共享知识库文件夹，每条包含 content.md + meta.json，以及全局 index.jsonl
整理：以标签优先进行分类，使用更丰富的标签（例如 #agent、#coding-agent、#claude-code、#mcp、#rag、#prompt-injection、#security、#pricing、#database）
微信：云端抓取可能被拦截；当macOS节点（如Reed-Mac）在线时，优先使用节点端抓取以提高成功率；否则创建占位条目
搜索：设计用于在索引和内容之上支持Telegram问答/搜索流程

将用户发来的链接/截图沉淀到共享知识库（KB），并做标签化整理。

默认KB位置

- KB根目录（可修改）：/home/ubuntu/.openclaw/kb
索引：kb/20Inbox/urls/index.jsonl
每条内容目录：kb/20Inbox/urls///content.md + meta.json

目标：先入库不丢，再迭代“摘要/标签/检索”。

你要做的事（按输入类型）

1) 普通网页 / X(Twitter) / 公众号URL入库

运行脚本：

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_url.py --tags #optional --note context

行为：

- 自动识别来源（web/x/wechat）
优先使用 r.jina.ai 抽取正文（无需登录）
公众号遇到风控会写占位条目：status=blocked_verification + 标签 #needs-manual
对同一URL做key去重（已存在则跳过）

微信更高成功率（推荐路径）

当云端抓取命中“环境异常/验证”时：

- 如果有已连接的macOS节点（例如 Reed-Mac）且该节点能访问该文章，可用 nodes.run 在节点上执行抓取（requests+bs4），然后写入KB。
注意：这条路径依赖节点在线与网络环境；无法承诺100%。

2) 截图/图片入库（含OCR文本）

脚本：

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_image.py /path/to/image.jpg \
--text-file /path/to/ocr.txt \
--title ... --tags #ai #product --note ...

说明：

- ingest_image.py 负责“落盘+索引”。OCR可用：

- 本机tesseract（若安装了 tesseract-ocr + chi_sim）
- 或用多模态LLM抽取文字后写入 --text-file

Telegram里直接问（检索）

推荐先用脚本（本机/服务器）：

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --q claude code --limit 10
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --tags #claude-code #coding-agent --limit 20
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --source wechat --since 7d --q Elys

公众号待补抓队列（占位条目）

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/wechat_backlog.py --limit 30

周报/主题报告候选清单（给LLM写总结用）

bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/weekly_digest.py --days 7 --limit 30

重要注意事项（安全/隐私）

- 截图/网页可能包含token/验证码/密钥：入库前应做脱敏（替换为 REDACTED）。
公众号抓取受风控影响：建议允许“占位入库”，后续再补全。

knowledge-base-collector知识库采集器

Summary

默认 KB 位置

你要做的事（按输入类型）

1) 普通网页 / X(Twitter) / 公众号 URL 入库

WeChat 更高成功率（推荐路径）

2) 截图/图片入库（含 OCR 文本）

Telegram 里直接问（检索）

公众号待补抓队列（占位条目）

周报/主题报告候选清单（给 LLM 写总结用）

重要注意事项（安全/隐私）

概要

默认KB位置

你要做的事（按输入类型）

1) 普通网页 / X(Twitter) / 公众号URL入库

微信更高成功率（推荐路径）

2) 截图/图片入库（含OCR文本）

Telegram里直接问（检索）

公众号待补抓队列（占位条目）

周报/主题报告候选清单（给LLM写总结用）

重要注意事项（安全/隐私）

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

knowledge-base-collector知识库采集器