返回顶部
o

office-docsOffice文档处理

Comprehensive document processing for Microsoft Word (.docx) and WPS Office files. Use when Codex needs to work with professional documents for: (1) Creating new documents, (2) Modifying or editing content, (3) Converting between formats, (4) Extracting text and metadata, (5) Troubleshooting document issues, (6) Batch processing documents, or any other Office document tasks.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
234
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

office-docs

Office 文档技能

本技能提供了一套全面的工具和工作流程,用于处理 Microsoft Word (.docx) 和 WPS Office 文档。涵盖专业文档的创建、编辑、转换、分析和故障排除。

快速入门

基本操作

读取文档内容:
python

使用 python-docx 处理 .docx 文件


from docx import Document
doc = Document(document.docx)
text = \n.join([paragraph.text for paragraph in doc.paragraphs])

创建新文档:
python
from docx import Document
from docx.shared import Inches

doc = Document()
doc.add_heading(文档标题, 0)
doc.add_paragraph(这是一个新段落。)
doc.save(new_document.docx)

常见任务

  1. 1. 文本提取 - 参见 TEXTEXTRACTION.md
  2. 格式转换 - 参见 CONVERSION.md
  3. 文档分析 - 参见 ANALYSIS.md
  4. 故障排除 - 参见 TROUBLESHOOTING.md

核心工具和库

Python 库

用于 .docx 文件:

  • - python-docx - 读写 .docx 文件的主要库
  • docx2txt - 简单的文本提取
  • docxcompose - 高级文档组合
  • docx-mailmerge - 邮件合并功能

用于 WPS 文件:

  • - pywps - WPS 文件操作(可用时)
  • 建议先转换为 .docx 格式

用于格式转换:

  • - pandoc - 通用文档转换器
  • libreoffice - 用于转换的办公套件
  • unoconv - 通用办公文档转换器

命令行工具

文档转换:
bash

将 .docx 转换为 PDF


libreoffice --headless --convert-to pdf document.docx

将 .docx 转换为文本

pandoc document.docx -o document.txt

批量将 WPS 转换为 .docx

for file in *.wps; do libreoffice --headless --convert-to docx $file; done

文档分析:
bash

提取元数据


exiftool document.docx

检查文件完整性

file document.docx

工作流程

1. 文档创建工作流程

创建新文档时:

  1. 1. 选择模板 - 从模板开始或从头创建
  2. 添加结构 - 标题、段落、列表
  3. 应用格式 - 样式、字体、间距
  4. 添加元素 - 表格、图片、超链接
  5. 最终确定 - 页面设置、页眉/页脚、保存

详细模式参见 CREATION.md

2. 文档编辑工作流程

修改现有文档时:

  1. 1. 备份原文件 - 始终先创建备份
  2. 分析结构 - 了解文档布局
  3. 进行更改 - 编辑内容、更新格式
  4. 保留格式 - 保持原始样式
  5. 验证 - 检查是否损坏,保存新版本

详细模式参见 EDITING.md

3. 转换工作流程

在格式之间转换时:

  1. 1. 识别源格式 - .docx、.wps、.doc、.rtf 等
  2. 选择转换工具 - 根据格式和要求选择
  3. 转换 - 使用适当的选项
  4. 验证 - 检查内容是否保留
  5. 清理 - 删除临时文件

详细模式参见 CONVERSION.md

常见问题及解决方案

1. 文档损坏

症状: 无法打开、错误消息、内容丢失

解决方案:

  • - 尝试在不同应用程序中打开
  • 使用 Word/WPS 的恢复模式
  • 使用 python-docx 忽略错误提取内容
  • 转换为其他格式再转回

详细恢复步骤参见 TROUBLESHOOTING.md

2. 格式问题

症状: 字体错误、布局损坏、样式丢失

解决方案:

  • - 检查样式定义
  • 验证字体可用性
  • 使用基于模板的方法
  • 简化复杂格式

3. 兼容性问题

症状: Word 和 WPS 中显示不同、功能缺失

解决方案:

  • - 使用通用功能
  • 在两个应用程序中测试
  • 使用标准格式
  • 提供替代版本

高级功能

文档自动化

批量处理:
python
import os
from docx import Document

def processdocuments(folderpath):
for filename in os.listdir(folder_path):
if filename.endswith(.docx):
docpath = os.path.join(folderpath, filename)
processsingledocument(doc_path)

基于模板的生成:
python
from docx import Document

def generatefromtemplate(template_path, data):
doc = Document(template_path)
# 用数据替换占位符
for paragraph in doc.paragraphs:
for key, value in data.items():
if f{{{{ {key} }}}} in paragraph.text:
paragraph.text = paragraph.text.replace(f{{{{ {key} }}}}, value)
return doc

文档分析

提取统计信息:
python
def analyzedocument(docpath):
doc = Document(doc_path)
stats = {
paragraphs: len(doc.paragraphs),
tables: len(doc.tables),
images: len(doc.inline_shapes),
sections: len(doc.sections),
styles: len(doc.styles)
}
return stats

检查格式一致性:
python
def check_formatting(doc):
issues = []
for i, para in enumerate(doc.paragraphs):
if para.style.name == Normal and para.text.strip():
# 检查不一致的格式
if len(para.runs) > 1:
issues.append(f段落 {i}: Normal 样式中存在多个运行)
return issues

最佳实践

1. 始终备份

python import shutil import os

def backup_document(filepath):
backup_path = filepath + .backup
shutil.copy2(filepath, backup_path)
return backup_path

2. 使用版本控制

  • - 保存增量版本
  • 使用描述性文件名
  • 记录所做的更改

3. 全面测试

  • - 在目标应用程序中测试
  • 验证所有内容已保留
  • 检查格式完整性

4. 优雅处理错误

python try: doc = Document(filepath) except Exception as e: print(f打开 {filepath} 时出错: {e}) # 尝试替代方法 return extracttextfallback(filepath)

参考文件

有关特定主题的详细信息,请查阅以下参考文件:

脚本

scripts/ 目录中可用的脚本:

  • - extracttext.py - 从 .docx 文件中提取文本
  • convertformat.py - 在文档格式之间转换
  • batchprocess.py - 批量处理多个文档
  • documentstats.py - 生成文档统计信息
  • repair_document.py - 尝试修复损坏的文档

使用适当的参数运行脚本:
bash
python scripts/extract_text.py input.docx output.txt

获取帮助

如果遇到本技能未涵盖的问题:

  1. 1. 检查相关参考文件
  2. 搜索特定错误消息
  3. 尝试替代方法
  4. 考虑转换为更简单的格式

请记住:如有疑问,请创建备份并在副本上操作。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 office-docs-1776363062 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 office-docs-1776363062 技能

通过命令行安装

skillhub install office-docs-1776363062

下载

⬇ 下载 office-docs v1.0.0(免费)

文件大小: 4.1 KB | 发布时间: 2026-4-17 15:34

v1.0.0 最新 2026-4-17 15:34
Initial release of the office-docs skill:

- Provides comprehensive tools for creating, editing, converting, analyzing, and troubleshooting Microsoft Word (.docx) and WPS Office documents.
- Includes quick-start code snippets for basic operations (reading, creating, batch processing documents).
- Documents best-practice workflows for document creation, editing, and format conversion.
- Features solutions to common issues like file corruption and compatibility problems.
- Offers references to detailed guides and ready-to-use scripts for automation and advanced document processing.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large