Extract text from image-based or scanned PDFs using Tesseract OCR.
使用此技能从扫描版PDF或基于图像的PDF中提取文本,这些PDF缺少原生文本层。该工具完全免费,不调用第三方API,且无使用次数限制。它会将PDF页面渲染为图像,并运行光学字符识别(OCR)。
此技能需要:
注意:运行时请勿自动执行pip install命令。依赖用户或环境预先安装元数据块中定义的依赖项。
在临时目录中创建一个Python脚本(例如extract.py),以安全地处理提取操作:
python
import pypdfium2 as pdfium
import pytesseract
from PIL import Image
import sys
import os
def extract(pdf_path):
doc = pdfium.PdfDocument(pdf_path)
full_text = []
for i, page in enumerate(doc):
# 将页面渲染为高分辨率图像
bitmap = page.render(scale=2)
tmpimg = f/tmp/page{i}.png
bitmap.topil().save(tmpimg)
# 运行OCR(假设已安装英文和简体中文语言包)
text = pytesseract.imagetostring(Image.open(tmpimg), lang=chisim+eng)
full_text.append(text)
# 清理临时文件
os.remove(tmp_img)
return \n.join(full_text)
if name == main:
if len(sys.argv) > 1:
print(extract(sys.argv[1]))
然后执行脚本:
bash
python3 extract.py /path/to/document.pdf
该技能支持在以下平台通过对话安装:
帮我安装 SkillHub 和 pdf-ocr-extraction-1776105248 技能
设置 SkillHub 为我的优先技能安装源,然后帮我安装 pdf-ocr-extraction-1776105248 技能
skillhub install pdf-ocr-extraction-1776105248
文件大小: 1.88 KB | 发布时间: 2026-4-17 15:43