返回顶部
b

boofPDF转Markdown

Convert PDFs and documents to markdown, index them locally for RAG retrieval, and analyze them token-efficiently. Use when asked to: read/analyze/summarize a PDF, process a document, boof a file, extract information from papers/decks/NOFOs, or when you need to work with large documents without filling the context window. Supports batch processing and cross-document queries.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 4.0.0
安全检测
已通过
939
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

boof

Boof 🍑

本地优先的文档处理:PDF → Markdown → RAG索引 → 高效Token分析。

文档始终保留在本地。仅将相关片段发送至LLM。最大化知识吸收,最小化Token消耗。

基于 opendataloader-pdf 构建——PDF解析基准测试排名第一(综合得分0.90,表格准确率0.93)。仅需CPU,无需GPU。

快速参考

转换并索引文档

bash bash {SKILL_DIR}/scripts/boof.sh /path/to/document.pdf

使用自定义集合名称转换

bash bash {SKILL_DIR}/scripts/boof.sh /path/to/document.pdf --collection my-project

查询已索引内容

bash qmd query 你的问题 -c collection-name

核心工作流程

  1. 1. Boof处理: 对PDF运行boof.sh。通过opendataloader-pdf(本地Java引擎,无需API,无需GPU)将其转换为Markdown,并索引至QMD以供语义搜索。
  1. 2. 查询检索: 使用qmd query仅检索相关片段。将这些片段发送至LLM——而非整个文档。
  1. 3. 分析解读: LLM仅看到聚焦的相关摘录。无Token浪费,无中间丢失问题。

各场景使用指南

分析论文的特定方面 → Boof + 查询(最经济、最聚焦)

总结整篇文档 → 先Boof,再逐节阅读Markdown。分别总结每个章节,然后合并摘要。详见 advanced-usage.md

对比多篇论文的发现 → 将所有论文Boof至同一集合,然后跨文档查询。

查找论文中讨论X的位置 → 精确匹配使用 qmd search X -c collection,语义匹配使用 qmd query X -c collection。

输出位置

转换后的Markdown文件默认保存至 knowledge/boofed/(可通过 --output-dir 覆盖)。

环境配置

若 boof.sh 报告缺少依赖,请参阅 setup-guide.md 获取安装说明(Java + opendataloader-pdf + QMD)。

环境变量

  • - ODLENV — opendataloader-pdf Python虚拟环境路径(默认:~/.openclaw/tools/odl-env)
  • QMDBIN — qmd二进制文件路径(默认:~/.bun/bin/qmd)
  • BOOFOUTPUTDIR — 默认输出目录(默认:~/.openclaw/workspace/knowledge/boofed)

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 boof-1776419958 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 boof-1776419958 技能

通过命令行安装

skillhub install boof-1776419958

下载

⬇ 下载 boof v4.0.0(免费)

文件大小: 7.08 KB | 发布时间: 2026-4-17 18:23

v4.0.0 最新 2026-4-17 18:23
Swap Marker (GPU, slow, flat text) for opendataloader-pdf (CPU-only, #1 benchmark, proper Markdown tables). Faster, lighter, better output quality. Requires Java 11+ instead of Python ML stack.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部