公文写作技能
将多种格式文档转换为符合政府公文格式的.docx文档。
使用场景
支持的输入格式
| 格式 | 扩展名 | 说明 |
|---|
| Markdown | INLINECODE0 | 原生支持,#为大标题,##为一级标题,###为二级标题 |
| 纯文本 |
.txt | 按行解析,通过文本模式自动判断标题层级 |
| Word文档 |
.docx | 通过段落样式和字号判断标题层级 |
| PDF文档 |
.pdf | 使用pdfminer.six提取文本,按段落分割 |
| 网页 |
.html .htm | 使用BeautifulSoup解析,h1→标题,h2→一级标题,h3→二级标题 |
| 富文本 |
.rtf | 使用striprtf提取文本后按段落分割 |
使用方法
CODEBLOCK0
INLINECODE7 为本技能目录的绝对路径。
格式规范
详见 references/format-rules.md
Markdown转换前预处理
Markdown文件需满足:
- 1. 使用
## 作为一级标题(对应一、二、三、) - 使用
### 作为二级标题(自动转换为(一)(二)) - 无加粗标记(脚本会自动去除)
- 无markdown链接标记(脚本会自动去除)
- 首行以
# 开头的为报告大标题(居中显示) - 任何段落或标题的开头都不能出现"-"字符(脚本会自动去除,但请尽量避免)
脚本功能
- - 自动去除加粗标记
**...** 和 INLINECODE12 - 自动去除markdown链接 INLINECODE13
- 自动将二级标题序号转换为中文数字((一)(二)...)
- 每个一级标题下的二级标题独立编号
- 段落自动首行缩进、两端对齐
- 英文数字自动使用Times New Roman字体
- 页码自动生成(奇数页右下、偶数页左下,格式 -数字-)
- 落款自动右对齐排版
公文写作技能
将多种格式文档转换为符合政府公文格式的.docx文档。
使用场景
支持的输入格式
| 格式 | 扩展名 | 说明 |
|---|
| Markdown | .md | 原生支持,#为大标题,##为一级标题,###为二级标题 |
| 纯文本 |
.txt | 按行解析,通过文本模式自动判断标题层级 |
| Word文档 | .docx | 通过段落样式和字号判断标题层级 |
| PDF文档 | .pdf | 使用pdfminer.six提取文本,按段落分割 |
| 网页 | .html .htm | 使用BeautifulSoup解析,h1→标题,h2→一级标题,h3→二级标题 |
| 富文本 | .rtf | 使用striprtf提取文本后按段落分割 |
使用方法
bash
Markdown → .docx
python3 SKILL_DIR/scripts/convert.py
纯文本 → .docx
python3 SKILL_DIR/scripts/convert.py
.docx → .docx(重新格式化)
python3 SKILL_DIR/scripts/convert.py
PDF → .docx
python3 SKILL_DIR/scripts/convert.py
HTML → .docx
python3 SKILL_DIR/scripts/convert.py
RTF → .docx
python3 SKILL_DIR/scripts/convert.py
SKILL_DIR 为本技能目录的绝对路径。
格式规范
详见 references/format-rules.md
Markdown转换前预处理
Markdown文件需满足:
- 1. 使用 ## 作为一级标题(对应一、二、三、)
- 使用 ### 作为二级标题(自动转换为(一)(二))
- 无加粗标记(脚本会自动去除)
- 无markdown链接标记(脚本会自动去除)
- 首行以 # 开头的为报告大标题(居中显示)
- 任何段落或标题的开头都不能出现-字符(脚本会自动去除,但请尽量避免)
脚本功能
- - 自动去除加粗标记 ... 和 ...
- 自动去除markdown链接 text
- 自动将二级标题序号转换为中文数字((一)(二)...)
- 每个一级标题下的二级标题独立编号
- 段落自动首行缩进、两端对齐
- 英文数字自动使用Times New Roman字体
- 页码自动生成(奇数页右下、偶数页左下,格式 -数字-)
- 落款自动右对齐排版