返回顶部
r

regulation-extractor规范条文提取

从建筑工程规范PDF中结构化提取条文并同步到飞书多维表格。支持PDF双文字层(原文+OCR)去重、纯图片PDF的RapidOCR识别、条文编号切分(含带空格编号如6. 1. 2. 3)、带圈数字转换(如6.4.④→6.4.4)、OCR错误检测、质量标记、文本清洗(去换行/页眉/符号表/中英文粘连/过长切分)。输出JSON供人工校验或直接写入飞书表格。适用场景:老板提供规范PDF → 提取条文 → 清洗 → 写入飞书多维表格 → 人工校验。触发词:提取规范、法规提取、条文提取、PDF提取规范、批量处理PDF法规。

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 3.0.0
安全检测
已通过
82
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

regulation-extractor

Regulation Extractor v3.0

从建筑工程规范PDF中提取条文,支持文字层提取和纯图片PDF的OCR识别,经过多轮清洗后输出高质量结构化数据。

工作流(完整Pipeline)

Step 1: 提取条文(文字层)

bash
python scripts/extractregulation.py path> -o

支持 --chapters 自定义章节映射。
支持编号格式:3.1.2、3. 1. 2、4级编号 6.1.2.4,自动去除空格。

Step 2: OCR处理(纯图片PDF)

bash

批量:自动检测0条文的JSON,仅OCR这些PDF


python scripts/ocrbatch.py dir>

单文件

python scripts/ocrbatch.py path> -o

Step 3: 深度清洗(必做)

bash
python scripts/deepclean.py dir>

一次性完成:

  • - ❌ 过滤符号表(2.2.x 类编号)
  • ❌ 删除过短(<5字)和无中文条文
  • ✅ 修复中英文粘连(自动插入空格)
  • ✅ 切除末尾混入的章节标题
  • ✅ 切分过长条文(>300字,按句号/分号智能切分,子条目编号如 3.1.2.a, 3.1.2.b)

Step 4: 清洗文本(向量化前必做)

bash
python scripts/cleanjson.py dir>

去除 \n 换行符、页眉页脚垃圾(如 www.bzfxw.com、规范名称重复)。每条条文变成一段连续纯文本。

Step 5: 修复残留尾部垃圾

bash
python scripts/fixtails.py dir>

更彻底地修复:

  • - 页码残留(—83— 等各种变体)
  • 图表标题残留(图N xxx示意图)
  • 规范名称重复
  • 章节标题拼接

Step 6: 质量检查

bash
python scripts/qualitycheck.py dir>

输出每个PDF的质量报告:中英文粘连、符号表、末尾章节标题、过长、过短、OCR错误、无中文。

Step 7: 同步到飞书

bash
python scripts/synctobitable.py \
--apptoken TOKEN> --tableid ID> \
--appid ID> --appsecret SECRET> \
--delete_dupes

Step 8: 人工校验

重点检查:

  • - quality: ocr_error 的条文(OCR识别不准)
  • 过长条文的切分点是否合理
  • 术语定义中的中英文分隔

输出JSON结构

json
{
articles: {
3.0.1: {id: 3.0.1, chapter: 基本规定, page: 11, text: ..., quality: clean},
5.3.2.a: {id: 5.3.2.a, chapter: 施工, page: 45, text: (切分后的第一段), quality: clean},
5.3.2.b: {id: 5.3.2.b, chapter: 施工, page: 45, text: (切分后的第二段), quality: clean}
},
report: {total: N, clean: N, ocrerror: N, bychapter: {...}, missing: [...], warnings: [...]}
}

脚本清单

脚本功能阶段
extractregulation.py核心提取:文字层条文Step 1
ocrbatch.py
OCR批处理:纯图片PDF | Step 2 | | deep_clean.py | 深度清洗:符号表/粘连/过长切分 | Step 3 | | clean_json.py | 文本清洗:去换行/页眉垃圾 | Step 4 | | fix_tails.py | 尾部修复:页码/图号/章节标题 | Step 5 | | quality_check.py | 质量检查:输出问题报告 | Step 6 | | synctobitable.py | 同步飞书多维表格 | Step 7 |

技术要点

  • - 双图层处理:PDF有原文层和OCR层,优先保留原文层,过滤OCR乱码层
  • OCR引擎:RapidOCR (ONNX),离线运行,无需GPU,支持中英文
  • 编号格式:支持 3.1.2、3. 1. 2、4级编号,自动去除空格
  • 过长切分:按句号→分号逐级切分,子条目加后缀 .a .b .c
  • 清洗Pipeline:5步递进式清洗,每步解决一类问题
  • 数据质量:实测21个PDF,5865条条文,96.8%干净率

依赖

pip install PyMuPDF rapidocr-onnxruntime

  • - Python 3.10+

已知限制

  • - 部分PDF只有封面(如JGJ 162-2008仅3页),无法提取条文
  • 条文编号非X.X.X格式的文件(如纯文本式实施细则)可能匹配不到
  • OCR准确率依赖PDF图片质量,建议对 quality: ocr_error 的条文人审
  • 约2%条文残留页码/章节标题噪声,对向量化检索影响极小

实测数据

指标数值
PDF总数21个
成功提取
19个(90%) | | 总条文数 | 5,865条 | | 干净率 | 96.8% | | OCR待校验 | 185条(3.2%) |

历史版本

版本日期变更
v1.02026-03-28初始版本:文字层提取
v2.0
2026-03-28 | 新增OCR批处理、带空格编号格式、4级编号 | | v3.0 | 2026-03-28 | 新增深度清洗Pipeline(5步)、过长切分、符号表过滤、尾部修复、质量检查 |

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 regulation-extractor-1775960468 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 regulation-extractor-1775960468 技能

通过命令行安装

skillhub install regulation-extractor-1775960468

下载

⬇ 下载 regulation-extractor v3.0.0(免费)

文件大小: 18.94 KB | 发布时间: 2026-4-13 11:46

v3.0.0 最新 2026-4-13 11:46
从建筑工程规范PDF中结构化提取条文。支持文字层+OCR双模式、5步清洗Pipeline、过长切分、符号表过滤、飞书同步。实测21个PDF、5865条条文、96.8%干净率。

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large