Excel / PDF 处理

处理 Excel 与 PDF 文件：提取数据、解析表格、生成报告。适用于数据导入导出、报表生成、文档解析等场景。

何时使用

- 用户提供或请求处理 .xlsx、.xls、.csv、.pdf 文件
用户提到「表格」「Excel」「报表」「PDF 提取」「表单」
需要从文件读取数据或生成可下载文件

可执行脚本：scripts/excel_extract.py（Excel→CSV）、scripts/pdf_extract.py（PDF 文本/表格提取），依赖见 scripts/requirements.txt。

Excel 处理

读取 Excel

CODEBLOCK0

写入 Excel

CODEBLOCK1

常用操作

- 筛选：INLINECODE7
去重：INLINECODE8
合并：pd.concat([df1, df2]) 或 INLINECODE10
透视：INLINECODE11

依赖

CODEBLOCK2

PDF 处理

提取文本

CODEBLOCK3

提取表格

CODEBLOCK4

依赖

CODEBLOCK5

若需 OCR（扫描版 PDF）：pip install pdf2image pytesseract，并安装 Tesseract。

报告生成流程

1. 数据准备：从 API/DB 或 Excel 获取数据，用 pandas 清洗
计算/聚合：按业务逻辑生成汇总表
输出：

- Excel：df.to_excel() - PDF：可用 reportlab 或先生成 Excel 再转 PDF

注意事项

- 大文件：分块读取或限制行数，避免内存溢出
编码：CSV 常见 utf-8、gbk，先尝试 INLINECODE17
空值：df.fillna(0) 或 df.dropna() 按需处理
日期：pd.to_datetime(df['date_col']) 统一格式

Excel / PDF 处理

处理 Excel 与 PDF 文件：提取数据、解析表格、生成报告。适用于数据导入导出、报表生成、文档解析等场景。

何时使用

- 用户提供或请求处理 .xlsx、.xls、.csv、.pdf 文件
用户提到「表格」「Excel」「报表」「PDF 提取」「表单」
需要从文件读取数据或生成可下载文件

可执行脚本：scripts/excelextract.py（Excel→CSV）、scripts/pdfextract.py（PDF 文本/表格提取），依赖见 scripts/requirements.txt。

Excel 处理

读取 Excel

python
import pandas as pd

读取整个文件

df = pd.readexcel(file.xlsx, sheetname=0) # 第一个 sheet

指定 sheet

df = pd.readexcel(file.xlsx, sheetname=Sheet1)

读取 CSV

df = pd.read_csv(file.csv, encoding=utf-8)

写入 Excel

python

单 sheet

df.to_excel(output.xlsx, index=False)

多 sheet

with pd.ExcelWriter(output.xlsx) as writer: df1.toexcel(writer, sheetname=汇总, index=False) df2.toexcel(writer, sheetname=明细, index=False)

常用操作

- 筛选：df[df[列名] > 0]
去重：df.dropduplicates(subset=[列名])
合并：pd.concat([df1, df2]) 或 pd.merge(df1, df2, on=key)
透视：df.pivottable(values=val, index=row, columns=col, aggfunc=sum)

依赖

bash
pip install pandas openpyxl # xlsx 需要 openpyxl

PDF 处理

提取文本

python
import pdfplumber

with pdfplumber.open(file.pdf) as pdf:
for page in pdf.pages:
text = page.extract_text()
if text:
print(text)

提取表格

python
with pdfplumber.open(file.pdf) as pdf:
page = pdf.pages[0]
tables = page.extract_tables()
for table in tables:
# table 为二维列表
for row in table:
print(row)

依赖

bash
pip install pdfplumber

若需 OCR（扫描版 PDF）：pip install pdf2image pytesseract，并安装 Tesseract。

报告生成流程

1. 数据准备：从 API/DB 或 Excel 获取数据，用 pandas 清洗
计算/聚合：按业务逻辑生成汇总表
输出：

- Excel：df.to_excel() - PDF：可用 reportlab 或先生成 Excel 再转 PDF

注意事项

- 大文件：分块读取或限制行数，避免内存溢出
编码：CSV 常见 utf-8、gbk，先尝试 utf-8
空值：df.fillna(0) 或 df.dropna() 按需处理
日期：pd.todatetime(df[datecol]) 统一格式

gi-excel-pdf-processExcel与PDF处理

gi-excel-pdf-process

Excel / PDF 处理

何时使用

Excel 处理

读取 Excel

写入 Excel

常用操作

依赖

PDF 处理

提取文本

提取表格

依赖

报告生成流程

注意事项

Excel / PDF 处理

何时使用

Excel 处理

读取 Excel

读取整个文件

指定 sheet

读取 CSV

写入 Excel

单 sheet

多 sheet

常用操作

依赖

PDF 处理

提取文本

提取表格

依赖

报告生成流程

注意事项

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

gi-excel-pdf-processExcel与PDF处理

gi-excel-pdf-process

Excel / PDF 处理

何时使用

Excel 处理

读取 Excel

写入 Excel

常用操作

依赖

PDF 处理

提取文本

提取表格

依赖

报告生成流程

注意事项

Excel / PDF 处理

何时使用

Excel 处理

读取 Excel

读取整个文件

指定 sheet

读取 CSV

写入 Excel

单 sheet

多 sheet

常用操作

依赖

PDF 处理

提取文本

提取表格

依赖

报告生成流程

注意事项

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement