返回顶部
p

pdf-figure-extractorPDF图片提取

从PDF论文中精确提取Figure图片,自动分析PDF结构、定位caption位置、裁剪干净图形,并验证图片质量。支持学术新闻稿、论文写作等场景的自动化图片处理。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
205
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

pdf-figure-extractor

PDF Figure提取技能

使用场景

  • - 从学术论文PDF提取Figure插入Word文档
  • 需要干净、无标题、无正文的纯图形图片
  • 批量提取多个Figure

标准工作流程

步骤1: 分析PDF结构

python import fitz

doc = fitz.open(pdf_path)
page = doc[page_num]

获取所有文本块

blocks = page.get_text(blocks) for block in blocks: x0, y0, x1, y1, text, blockno, blocktype = block if Fig. in text or Figure in text: print(fFigure相关: y={y0:.0f}-{y1:.0f}, {text[:50]}...)

步骤2: 定位标题位置

python

搜索Fig. X的精确位置

textinstances = page.searchfor(fFig. {fig_num}) for inst in text_instances: print(fFig.{fig_num}位置: y={inst.y0:.0f}-{inst.y1:.0f})

步骤3: 确定裁剪区域

根据标题位置判断图形区域:
标题位置图形区域
y=400 (页面中部)y=100-395 (标题上方)
y=666 (页面底部)
y=350-660 (标题上方) | | y=326 (页面底部) | y=100-320 (标题上方) |

步骤4: 精确裁剪

python rect = fitz.Rect(50, ystart, page.rect.width - 50, yend) pix = page.get_pixmap(matrix=fitz.Matrix(2, 2), clip=rect) pix.save(ffig{fig_num}.png)

步骤5: 验证图片质量

检查清单:
  • - [ ] 包含所有子图(a,b,c,d...)
  • [ ] 没有混入Fig. X开头的标题文字
  • [ ] 没有混入正文段落
  • [ ] 坐标轴和标签完整

常见PDF布局模板

Nature/Science论文

  • - Fig.1: 通常标题在底部,图形y=350-660
  • Fig.2+: 标题位置不固定,需要先分析

会议论文

  • - 单栏布局: 标题通常在图形下方
  • 双栏布局: 标题可能在图形上方或下方

错误处理

问题: 图片混入正文

原因: 裁剪范围太大 解决: 缩小y_end,确保在标题之前结束

问题: 子图缺失

原因: 裁剪范围太小 解决: 扩大ystart/yend,包含完整图形

问题: 标题未去除

原因: 裁剪范围包含了标题区域 解决: 根据标题的y坐标精确调整裁剪边界

最佳实践

  1. 1. 永远不要凭感觉估计坐标
  2. 始终先分析PDF文本块结构
  3. 高分辨率渲染: 使用matrix=fitz.Matrix(2, 2)
  4. 验证每张图片: 确保干净无杂质
  5. 记录坐标: 为常见PDF类型建立坐标模板

触发关键词

提取PDF图片, 从PDF提取Figure, PDF图片裁剪, 学术论文图片提取

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 pdf-figure-extractor-1776173402 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 pdf-figure-extractor-1776173402 技能

通过命令行安装

skillhub install pdf-figure-extractor-1776173402

下载

⬇ 下载 pdf-figure-extractor v1.0.0(免费)

文件大小: 2.12 KB | 发布时间: 2026-4-17 15:43

v1.0.0 最新 2026-4-17 15:43
Version 1.0.0

- 首次发布,支持从PDF论文中自动分析结构、准确定位caption并裁剪提取纯净Figure图片。
- 去除caption文字和正文,确保图片干净,适用于学术新闻稿和论文写作。
- 支持批量提取、多子图识别及图片质量验证。
- 提供适配Nature/Science和会议论文等常见PDF布局的操作规范与最佳实践。
- 包含详细错误处理和质量核查指南。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部