Summary
- - Ingest: web URLs, X/Twitter links, WeChat Official Account links (mp.weixin.qq.com), and screenshots
- Store: writes to a shared KB folder with per-item
content.md + meta.json and a global INLINECODE2 - Organize: tag-first classification with richer tags (e.g.
#agent, #coding-agent, #claude-code, #mcp, #rag, #prompt-injection, #security, #pricing, #database) - WeChat: cloud fetch may be blocked; when a macOS node (e.g. Reed-Mac) is online, prefer node-side fetch to improve success rate; otherwise create a placeholder entry
- Search: designed to support Telegram Q&A / search flows on top of the index and content
把用户发来的链接/截图沉淀到共享知识库(KB),并做标签化整理。
默认 KB 位置
- - KB Root(可改): INLINECODE12
- 索引: INLINECODE13
- 每条内容目录: INLINECODE14
目标:先入库不丢,再迭代“摘要/标签/检索”。
你要做的事(按输入类型)
1) 普通网页 / X(Twitter) / 公众号 URL 入库
运行脚本:
CODEBLOCK0
行为:
- - 自动识别来源(web/x/wechat)
- 优先用
r.jina.ai 抽取正文(无需登录) - 公众号遇到风控会写占位条目:
status=blocked_verification + tag INLINECODE17 - 对同一 URL 做 key 去重(已存在则跳过)
WeChat 更高成功率(推荐路径)
当云端抓取命中“环境异常/验证”时:
- - 如果有已连接的 macOS 节点(例如
Reed-Mac)且该节点能访问该文章,可用 nodes.run 在节点上执行抓取(requests+bs4),然后写入 KB。 - 注意:这条路径依赖节点在线与网络环境;无法承诺 100%。
2) 截图/图片入库(含 OCR 文本)
脚本:
CODEBLOCK1
说明:
- -
ingest_image.py 负责“落盘+索引”。OCR 可用:
- 本机 tesseract(若安装了
tesseract-ocr +
chi_sim)
- 或用多模态 LLM 抽取文字后写入 INLINECODE23
Telegram 里直接问(检索)
推荐先用脚本(本机/服务器):
CODEBLOCK2
公众号待补抓队列(占位条目)
CODEBLOCK3
周报/主题报告候选清单(给 LLM 写总结用)
CODEBLOCK4
重要注意事项(安全/隐私)
- - 截图/网页可能包含 token/验证码/密钥:入库前应做脱敏(替换为
REDACTED)。 - 公众号抓取受风控影响:建议允许“占位入库”,后续再补全。
概要
- - 摄取:网页URL、X/Twitter链接、微信公众号链接(mp.weixin.qq.com)以及截图
- 存储:写入共享知识库文件夹,每条包含 content.md + meta.json,以及全局 index.jsonl
- 整理:以标签优先进行分类,使用更丰富的标签(例如 #agent、#coding-agent、#claude-code、#mcp、#rag、#prompt-injection、#security、#pricing、#database)
- 微信:云端抓取可能被拦截;当macOS节点(如Reed-Mac)在线时,优先使用节点端抓取以提高成功率;否则创建占位条目
- 搜索:设计用于在索引和内容之上支持Telegram问答/搜索流程
将用户发来的链接/截图沉淀到共享知识库(KB),并做标签化整理。
默认KB位置
- - KB根目录(可修改):/home/ubuntu/.openclaw/kb
- 索引:kb/20Inbox/urls/index.jsonl
- 每条内容目录:kb/20Inbox/urls//
- /content.md + meta.json
目标:先入库不丢,再迭代“摘要/标签/检索”。
你要做的事(按输入类型)
1) 普通网页 / X(Twitter) / 公众号URL入库
运行脚本:
bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_url.py --tags #optional --note context
行为:
- - 自动识别来源(web/x/wechat)
- 优先使用 r.jina.ai 抽取正文(无需登录)
- 公众号遇到风控会写占位条目:status=blocked_verification + 标签 #needs-manual
- 对同一URL做key去重(已存在则跳过)
微信更高成功率(推荐路径)
当云端抓取命中“环境异常/验证”时:
- - 如果有已连接的macOS节点(例如 Reed-Mac)且该节点能访问该文章,可用 nodes.run 在节点上执行抓取(requests+bs4),然后写入KB。
- 注意:这条路径依赖节点在线与网络环境;无法承诺100%。
2) 截图/图片入库(含OCR文本)
脚本:
bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/ingest_image.py /path/to/image.jpg \
--text-file /path/to/ocr.txt \
--title ... --tags #ai #product --note ...
说明:
- - ingest_image.py 负责“落盘+索引”。OCR可用:
- 本机tesseract(若安装了 tesseract-ocr + chi_sim)
- 或用多模态LLM抽取文字后写入 --text-file
Telegram里直接问(检索)
推荐先用脚本(本机/服务器):
bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --q claude code --limit 10
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --tags #claude-code #coding-agent --limit 20
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/search_kb.py --source wechat --since 7d --q Elys
公众号待补抓队列(占位条目)
bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/wechat_backlog.py --limit 30
周报/主题报告候选清单(给LLM写总结用)
bash
python3 /home/ubuntu/.openclaw/skills/knowledge-base-collector/scripts/weekly_digest.py --days 7 --limit 30
重要注意事项(安全/隐私)
- - 截图/网页可能包含token/验证码/密钥:入库前应做脱敏(替换为 REDACTED)。
- 公众号抓取受风控影响:建议允许“占位入库”,后续再补全。