PDF All-in-One Processing Guide

Overview

This guide covers comprehensive PDF processing operations including conversion to images. For advanced features, see REFERENCE.md.

Workspace Directory: INLINECODE0

Quick Start

CODEBLOCK0

PDF to Image Conversion

Convert PDF Pages to PNG/JPG

CODEBLOCK1

Convert with Specific Page Range

CODEBLOCK2

Prerequisites

CODEBLOCK3

Python Libraries

pypdf - Basic Operations

Merge PDFs

CODEBLOCK4

Split PDF

CODEBLOCK5

Extract Metadata

CODEBLOCK6

Rotate Pages

CODEBLOCK7

pdfplumber - Text and Table Extraction

Extract Text with Layout

CODEBLOCK8

Extract Tables

CODEBLOCK9

Advanced Table Extraction

CODEBLOCK10

reportlab - Create PDFs

Basic PDF Creation

CODEBLOCK11

Subscripts and Superscripts

CODEBLOCK12

Command-Line Tools

pdftotext (poppler-utils)

CODEBLOCK13

qpdf

CODEBLOCK14

pdftk

CODEBLOCK15

pdfimages - Extract Images from PDF

CODEBLOCK16

Common Tasks

Extract Text from Scanned PDFs (OCR)

CODEBLOCK17

Add Watermark

CODEBLOCK18

Password Protection

CODEBLOCK19

Quick Reference

Task	Best Tool	Command/Code
PDF to Image	pdf2image	INLINECODE1
Merge PDFs

Workspace Directory Structure

CODEBLOCK20

Note: Always use pdf-all-in-one-workspace/ as the working directory for PDF operations to keep files organized.

Next Steps

- For advanced pypdfium2 usage, see REFERENCE.md
For JavaScript libraries (pdf-lib), see REFERENCE.md
For PDF form filling, see FORMS.md
For troubleshooting guides, see REFERENCE.md

PDF 全能处理指南

概述

本指南涵盖全面的PDF处理操作，包括转换为图像。有关高级功能，请参阅REFERENCE.md。

工作目录： /pdf-all-in-one-workspace/

快速入门

python
from pypdf import PdfReader, PdfWriter

读取PDF

reader = PdfReader(document.pdf) print(f页数: {len(reader.pages)})

提取文本

text = for page in reader.pages: text += page.extract_text()

PDF转图像

将PDF页面转换为PNG/JPG

python
from pdf2image import convertfrompath
import os

配置

pdf_path = input.pdf outputdir = pdf-all-in-one-workspace/outputimages os.makedirs(outputdir, existok=True)

将PDF转换为图像

images = convertfrompath(pdf_path, dpi=150)

将每页保存为PNG

for i, image in enumerate(images): outputpath = f{outputdir}/page_{i+1}.png image.save(output_path, PNG) print(f已保存: {output_path})

print(f转换总页数: {len(images)})

转换指定页面范围

python
from pdf2image import convertfrompath

仅转换第1-5页

images = convertfrompath(document.pdf, dpi=200, first_page=1, last_page=5)

for i, image in enumerate(images):
image.save(fpdf-all-in-one-workspace/page_{i+1}.jpg, JPEG, quality=95)

前置条件

bash

安装Python库

pip install pdf2image

安装系统依赖（poppler）

Ubuntu/Debian:

sudo apt-get install poppler-utils

CentOS/RHEL:

sudo yum install poppler-utils

macOS:

brew install poppler

Python库

pypdf - 基本操作

合并PDF

python from pypdf import PdfWriter, PdfReader

writer = PdfWriter()
for pdf_file in [doc1.pdf, doc2.pdf, doc3.pdf]:
reader = PdfReader(pdf_file)
for page in reader.pages:
writer.add_page(page)

with open(merged.pdf, wb) as output:
writer.write(output)

拆分PDF

python reader = PdfReader(input.pdf) for i, page in enumerate(reader.pages): writer = PdfWriter() writer.add_page(page) with open(fpdf-all-in-one-workspace/page_{i+1}.pdf, wb) as output: writer.write(output)

提取元数据

python reader = PdfReader(document.pdf) meta = reader.metadata print(f标题: {meta.title}) print(f作者: {meta.author}) print(f主题: {meta.subject}) print(f创建者: {meta.creator})

旋转页面

python reader = PdfReader(input.pdf) writer = PdfWriter()

page = reader.pages[0]
page.rotate(90) # 顺时针旋转90度
writer.add_page(page)

with open(rotated.pdf, wb) as output:
writer.write(output)

pdfplumber - 文本和表格提取

提取带布局的文本

python import pdfplumber

with pdfplumber.open(document.pdf) as pdf:
for page in pdf.pages:
text = page.extract_text()
print(text)

提取表格

python with pdfplumber.open(document.pdf) as pdf: for i, page in enumerate(pdf.pages): tables = page.extract_tables() for j, table in enumerate(tables): print(f第{i+1}页中的第{j+1}个表格:) for row in table: print(row)

高级表格提取

python import pandas as pd

with pdfplumber.open(document.pdf) as pdf:
all_tables = []
for page in pdf.pages:
tables = page.extract_tables()
for table in tables:
if table:
df = pd.DataFrame(table[1:], columns=table[0])
all_tables.append(df)

if all_tables:
combineddf = pd.concat(alltables, ignore_index=True)
combineddf.toexcel(pdf-all-in-one-workspace/extracted_tables.xlsx, index=False)

reportlab - 创建PDF

基本PDF创建

python from reportlab.lib.pagesizes import letter from reportlab.pdfgen import canvas

c = canvas.Canvas(pdf-all-in-one-workspace/hello.pdf, pagesize=letter)
width, height = letter

c.drawString(100, height - 100, Hello World!)
c.drawString(100, height - 120, 这是使用reportlab创建的PDF)
c.line(100, height - 140, 400, height - 140)
c.save()

下标和上标

python from reportlab.platypus import Paragraph from reportlab.lib.styles import getSampleStyleSheet

styles = getSampleStyleSheet()
chemical = Paragraph(H₂O, styles[Normal])
squared = Paragraph(x2 + y2, styles[Normal])

命令行工具

pdftotext (poppler-utils)

bash

提取文本

pdftotext input.pdf output.txt

保留布局提取文本

pdftotext -layout input.pdf output.txt

提取指定页面

pdftotext -f 1 -l 5 input.pdf output.txt

qpdf

bash

合并PDF

qpdf --empty --pages file1.pdf file2.pdf -- merged.pdf

拆分页面

qpdf input.pdf --pages . 1-5 -- pages1-5.pdf

旋转页面

qpdf input.pdf output.pdf --rotate=+90:1

移除密码

qpdf --password=mypassword --decrypt encrypted.pdf decrypted.pdf

pdftk

bash

合并

pdftk file1.pdf file2.pdf cat output merged.pdf

拆分

pdftk input.pdf burst

旋转

pdftk input.pdf rotate 1east output rotated.pdf

pdfimages - 从PDF提取图像

bash

将所有图像提取为JPG

pdfimages -j input.pdf pdf-all-in-one-workspace/output_prefix

常见任务

从扫描版PDF提取文本（OCR）

python import pytesseract from pdf2image import convertfrompath

images = convertfrompath(scanned.pdf)

text =
for i, image in enumerate(images):
text += f第{i+1}页:\n
text += pytesseract.imagetostring(image)
text += \n\n

print(text)

添加水印

python from pypdf import PdfReader, PdfWriter

watermark = PdfReader(watermark.pdf).pages[0]
reader = PdfReader(document.pdf)
writer = PdfWriter()

for page in reader.pages:
page.merge_page(watermark)
writer.add_page(page)

with open(pdf-all-in-one-workspace/watermarked.pdf, wb) as output:
writer.write(output)

密码保护

python from pypdf import PdfReader, PdfWriter

reader = PdfReader(input.pdf)
writer = PdfWriter()

for page in reader.pages:
writer.add_page(page)

writer.encrypt(userpassword, ownerpassword)

with open(pdf-all-in-one-workspace/encrypted.pdf, wb) as output:
writer.write(output)

快速参考

任务	最佳工具	命令/代码
PDF转图像	pdf2image	convertfrompath(pdf, dpi=150)
合并PDF

工作目录结构

/
└── pdf-all-in-one-workspace/
├── input/ # 在此放置输入PDF
├── output_images/ # 转换后的图像输出
├── output_pdfs

pdf-all-in-onePDF全能工具

pdf-all-in-one

PDF All-in-One Processing Guide

Overview

Quick Start

PDF to Image Conversion

Convert PDF Pages to PNG/JPG

Convert with Specific Page Range

Prerequisites

Python Libraries

pypdf - Basic Operations

Merge PDFs

Split PDF

Extract Metadata

Rotate Pages

pdfplumber - Text and Table Extraction

Extract Text with Layout

Extract Tables

Advanced Table Extraction

reportlab - Create PDFs

Basic PDF Creation

Subscripts and Superscripts

Command-Line Tools

pdftotext (poppler-utils)

qpdf

pdftk

pdfimages - Extract Images from PDF

Common Tasks

Extract Text from Scanned PDFs (OCR)

Add Watermark

Password Protection

Quick Reference

Workspace Directory Structure

Next Steps

PDF 全能处理指南

概述

快速入门

读取PDF

提取文本

PDF转图像

将PDF页面转换为PNG/JPG

配置

将PDF转换为图像

将每页保存为PNG

转换指定页面范围

仅转换第1-5页

前置条件

安装Python库

安装系统依赖（poppler）

Ubuntu/Debian:

CentOS/RHEL:

macOS:

Python库

pypdf - 基本操作

合并PDF

拆分PDF

提取元数据

旋转页面

pdfplumber - 文本和表格提取

提取带布局的文本

提取表格

高级表格提取

reportlab - 创建PDF

基本PDF创建

下标和上标

命令行工具

pdftotext (poppler-utils)

提取文本

保留布局提取文本

提取指定页面

qpdf

合并PDF

拆分页面

旋转页面

移除密码

pdftk

合并

拆分

旋转

pdfimages - 从PDF提取图像