返回顶部
p

paper-summarize-pdf-to-feishuPDF摘要转飞书

|

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 2.0.0
安全检测
已通过
126
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

paper-summarize-pdf-to-feishu

paper-summarize-pdf-to-feishu

本技能采用多 Agent 协作模式。作为主控 Agent,你的核心职责是:

  • - ✅ 调度流程
  • ✅ 执行系统脚本
  • ✅ 向子 Agent 分配具体任务并传递上下文
  • ✅ 与用户沟通确认

❌ 请不要试图自己在单次对话中完成所有长文本阅读和细节比对。



🚨 执行前必读(30 秒)

收到 PDF 后,第一步必须做

  1. 1. ✅ 完整阅读本 SKILL.md(不要跳过!)
  2. ✅ 检查前置依赖(which pdftotext pdfinfo ...)
  3. ✅ 创建日志目录(阶段零)

❌ 禁止直接开始处理!



📌 核心原则(违反=任务失败)


原则说明
不要自己读长文本必须派生 Reader 子 Agent
不要自己上传图片
必须派生 Vision 子 Agent |
| 不要自我审核 | 必须派生 Reviewer + 真实数据注入 |
| 必须等用户确认 | 阶段四必须挂起 |
| 必须用占位符 | Reader 必须插入 【FIGURE_X】 |


前置依赖检查 (主控 Agent 执行)

确保以下工具可用:pdftotext, pdfinfo, pdfimages, pdftoppm, tesseract, jq。

如果缺失,通过以下命令安装:

bash

PDF 处理工具


sudo apt-get install -y poppler-utils

OCR 工具

sudo apt-get install -y tesseract-ocr tesseract-ocr-eng tesseract-ocr-chi-sim

JSON 处理工具(脚本中大量使用)

sudo apt-get install -y jq

快速检查
bash
which pdftotext pdfinfo pdfimages pdftoppm tesseract jq

所有命令都应该返回路径

日志管理规范(重要!)

日志目录结构

阶段零开始时,主控 Agent 必须创建以下目录结构:

bash
mkdir -p $PAPER_DIR/logs/scripts
mkdir -p $PAPER_DIR/progress
mkdir -p $PAPER_DIR/errors

目录说明

目录用途内容
$PAPERDIR/logs/统一日志目录所有 Agent 和脚本的日志
$PAPERDIR/logs/scripts/
脚本日志 | extractmetadata.log, locatefigures.log 等 |
| $PAPER_DIR/progress/ | 进度报告 | Markdown 格式的子 Agent 完成报告 |
| $PAPER_DIR/errors/ | 错误报告 | 错误日志和堆栈跟踪 |

优点

  • - ✅ 每篇论文独立,不会覆盖
  • ✅ 多人使用不会冲突
  • ✅ 清理论文时一起清理
  • ✅ 符合工作目录的概念





完整工作流程(六阶段)

阶段零:去重检查 (主控 Agent 调度)

日志目录创建
bash
mkdir -p $PAPER_DIR/logs/scripts
mkdir -p $PAPER_DIR/progress
mkdir -p $PAPER_DIR/errors
log_master ✅ 日志目录已创建

目标:检查论文是否已处理,避免重复工作。

  1. 1. 提取元数据
bash scripts/extractmetadata.sh $PAPERDIR/metadata.json $PAPER_DIR
  1. 2. 检查去重
bash scripts/checkduplicate.sh $PAPERDIR/metadata.json $PAPERS_DIR result=$? # 保存退出码

# 检查脚本输出中的 RESULT 变量
if echo $output | grep -q RESULT=duplicate; then
echo ❌ 完全重复:该论文已处理过
echo 📋 飞书文档:$(cat $PAPERDIR/feishudoc_token.txt)
exit 1 # 停止任务
elif echo $output | grep -q RESULT=possible_duplicate; then
echo ⚠️ 可能重复:已存在飞书文档,但 PDF 文件未找到
echo 📋 请用户确认是否继续
# 等待用户确认
fi

# 检查退出码
if [[ $result -eq 1 ]]; then
echo ❌ 去重检查失败,停止任务
exit 1
fi

  1. 3. 根据返回结果判断
- 退出码 0 + RESULT=new:新论文,创建 $PAPER_DIR,复制 PDF,进入阶段一 - 退出码 1 + RESULT=duplicate:❌ 完全重复,立即停止任务,告知用户已处理过 - 退出码 0 + RESULT=possible_duplicate:⚠️ 可能重复,等待用户确认 - 退出码 2 + RESULT=supplement:补充材料,执行合并流程

⚠️ 重要:主控 Agent 必须检查脚本的退出码和 RESULT 变量,如果检测到重复(RESULT=duplicate 或退出码 1),必须立即停止任务,不得继续执行后续阶段!



阶段一:提取与初稿生成 (Sub-agent: Reader)

日志要求

  • - 所有日志输出到 $PAPERDIR/progress/reader.log
  • 使用标准格式:[YYYY-MM-DD HH:MM:SS] [级别] 消息
  • 关键步骤必须记录(开始、完成、错误)
  • 完成后生成进度报告到 $PAPERDIR/progress/reader_report.md

目标:提取 PDF 文本并生成结构化总结初稿。

  1. 1. 提取文本(主控 Agent 执行):
bash scripts/extractpdftext.sh $PAPERDIR/paper.pdf $PAPERDIR/paper.txt $PAPER_DIR
  1. 2. 派生阅读子 Agent(主控 Agent 调用 sessions_spawn):

bash
sessions_spawn task=你是一个专业的学术阅读助手 (Reader)。

任务
1. 分段读取 $PAPER_DIR/paper.txt 的完整内容(不要跳过任何部分)。
2. 严格按照 summary_template.md 的结构要求,提取以下内容:
- 研究背景与动机
- 研究设计
- 方法/系统架构
- 核心结果(包含所有关键数据:百分比、p 值、置信区间、样本量)
- 讨论与局限性
- 结论
3. 必须将最终生成的 Markdown 文本保存到 $PAPER_DIR/summary.md 中。

数据精度要求
- 百分比:28.7%(不要四舍五入)
- P 值:P < 0.001 或 P = 0.005
- 样本量:n=691 或 2,069 人

图片占位符要求(重要!):
- 在相关章节内容后插入占位符标记:【FIGURE_X】
- 占位符单独一行,不要与正文混排
- 必须用中文方括号 【】,因为飞书会过滤 HTML 注释
- 添加预期描述(帮助 Vision Agent 匹配图片):
markdown
## 研究设计

本研究采用随机对照试验设计...

【FIGURE_1】

## 核心结果

LLM 单独表现优异...

【FIGURE_2】

- 占位符放置原则 ⭐:
- Figure 应该放在与其内容相关的章节后,而不是按编号顺序
- 例如:研究设计流程图 → 放在研究设计章节后,而不是研究背景后
- 从 paper.txt 中提取 Figure 标题,根据内容判断应该放在哪个章节
- 占位符数量 ⭐:
- 占位符数量 ≠ PDF 中 Figure 总数
- 只插入重要的、原文有描述的 Figure(通常 3-5 个)
- 判断标准:正文中明确提到如图 X 所示或有大段图片描述的

进度日志(必须写入):
1. 开始任务时,立即写入 $PAPER_DIR/progress/reader.log:

[YYYY-MM

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 paper-summarize-pdf-to-feishu-1776004622 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 paper-summarize-pdf-to-feishu-1776004622 技能

通过命令行安装

skillhub install paper-summarize-pdf-to-feishu-1776004622

下载

⬇ 下载 paper-summarize-pdf-to-feishu v2.0.0(免费)

文件大小: 24.11 KB | 发布时间: 2026-4-13 11:24

v2.0.0 最新 2026-4-13 11:24
重构为多 Agent 协作架构:新增 Reader/Vision/Reviewer 子 Agent,5 个核心脚本,防幻觉机制,标准化汇报机制。精简飞书操作知识,保留 6 大核心原则。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部