Biomedical Paper Writing Skill

Produces publication-ready English biomedical manuscripts (or Chinese theses) from drafts using python-docx.

核心工作流（必读）

Phase 1: 接收与分析

1. 用户提供中文草稿/大纲 → 确认论文类型（见下）
识别所有数据（统计值、样本量、引用编号）
立即执行引用预验证：将参考文献列表中的每一条与PubMed核对，标记无法验证的条目
如有引用缺失/无法验证 → 先补充验证，再生成正文

Phase 2: 生成正文

5. 按论文类型套用标准结构模板（见本文档各类型模板）
所有统计数据（β/OR/RR/AAPC/95%CI/p值）必须原文照录，不得编造
引用编号全程追踪：记录"引用编号映射表"（见下方规范）

Phase 3: 生成参考文献

8. 按 Vancouver 格式逐条生成引用（见"引用生成规范"）
引用编号以正文中的实际使用为准，不沿用草稿中的旧编号
参考文献单独存 docx，并附加"引用编号映射表"说明文件

论文类型与模板

Type 1: GBD 流行病学（疾病负担趋势分析）

- 模板文献: SIICI (Neuroblastoma Asia, GBD 2023)
数据: GBD database (ghdx.healthdata.org)
方法: Joinpoint Regression, EAPC/AAPC, ASIR/ASMR/DALYs
关键词: Neuroblastoma; Neonate; Disease burden; Incidence; Mortality; DALYs; Asia
表格: 4张（按地区/SDI/性别/年龄分层）
图片: 5张（趋势线、choropleth地图）
伦理: GBD IRB豁免（University of Washington）
必须注明: ICD-10 和 ICD-9 代码

Type 2: 队列 / 登记数据库分析

- 模板文献: CHARLS (Social participation & diabetes)
数据: CHARLS, NHANES, MIMIC, SEER, FAERS 等
方法: K-means聚类, logistic/linear回归, Cox比例风险, 亚组分析
关键词: social participation; [disease]; incidence; [database]; K-means; mediation analysis
表格: 4–13张（描述性统计、聚类轮廓、回归结果、亚组分析）
图片: 5–17张（ROC曲线、K-M曲线、聚类轮廓、趋势图）
伦理: 豁免IRB（去标识数据）

Type 3: 交叉横断面 / 中介分析

- 模板文献: GBS (Phthalates, SII, cognitive function)
数据: NHANES, 横断面调查
方法: Linear/logistic回归 + 中介分析（bootstrap N=1000）
关键词: phthalates; systemic inflammation; Systemic Immune-Inflammation Index; cognitive function; older adults; mediation
表格: 4张（人口学特征、回归β+95%CI、中介分解）
关键指标: SII = 血小板×中性粒细胞/淋巴细胞; SIRI = 中性粒细胞×单核细胞/淋巴细胞

Type 4: 学位论文（中文，硕士/博士）

- 语种: 中文（正文）+ 英文摘要
格式要求: 依各院校研究生院规范；正文宋体小四，英文Times New Roman 12pt
章节结构: 前言 → 资料与方法 → 结果 → 讨论 → 结论 → 参考文献
引用格式: 顺序编码制（与期刊Vancouver相同格式）
字数要求: 硕士论文 ≥3万字，博士论文 ≥5万字（各校标准）
核心规范: 不可有占位符（如"[此处补充数据]"）；表格内数据须与正文一致

引用预验证工作流（最关键环节）

操作步骤

CODEBLOCK0

引用编号映射表（每次必须生成）

CODEBLOCK1

⚠️ 重要教训：PRISm大论文（2026-03-22）中，草稿含虚构引用（#14等），导致引用需全面重编。以后所有任务必须先验证再使用，任何无法PubMed查证的引用必须替换。

标准摘要格式（所有类型通用）

CODEBLOCK2

- 字数: 250–350词
摘要内不使用小标题（无"Background:", "Methods:"等）

标准前言格式（4段递进结构）

CODEBLOCK3

标准方法格式

GBD 方法

CODEBLOCK4

队列 / 登记数据库方法

CODEBLOCK5

交叉横断面中介方法

本研究为横断面研究，分析[数据库，年份范围]中[N]名[年龄范围]参与者的数据。
[暴露变量]的测量方式/定义：[详述]。
[中介变量]采用[公式/检测方法]评估。
[结局]采用[量表/测试]评估。
关联性采用[linear/logistic]回归分析，调整[协变量]。
中介分析采用[Hayes PROCESS宏/bootstrap方法]，bootstrap样本数[N]。

标准结果格式

CODEBLOCK7

统计报告规范（严格遵守）

- 格式: OR=0.77 (95% CI: 0.65–0.91, P=0.002) 或 INLINECODE1
P值保留3位小数（不是"P < 0.05"，而是"P=0.043"）
样本量: INLINECODE2
禁止使用占位符如 [此处数据] 或 INLINECODE4

标准讨论格式（5个子节）

1. 主要发现

CODEBLOCK8

2. 机制解读

CODEBLOCK9

3. 与其他研究比较

CODEBLOCK10

4. 局限性（≥4条，学位论文要求≥5条）

CODEBLOCK11

5. 结论

综上所述，[主要发现]。[机制/通路意义]。本研究结果为[目标人群的针对性预防/临床建议/政策制定]提供了[循证依据]。

引用生成规范

格式要求（Vancouver，悬挂缩进）

编号. 作者A, 作者B, 作者C, 等. 标题. 期刊缩写. 年份;卷(期):页码. doi:XXXXX

- 作者姓，名首字母（无点），最多作者显示至第3位后加", et al."
期刊名用标准缩写（参考 PubMed Journal List）
含 DOI 时必须附 DOI
悬挂缩进: 0.35英寸
字体: Times New Roman 10pt
段后距: 6pt

python-docx 悬挂缩进实现

from docx import Document
from docx.shared import Pt, Inches
from docx.oxml.ns import qn

def add_reference(doc, number, text):
    p = doc.add_paragraph()
    p.paragraph_format.first_line_indent = Inches(-0.35)
    p.paragraph_format.left_indent = Inches(0.35)
    p.paragraph_format.space_after = Pt(6)
    run = p.add_run(f'{number}. {text}')
    run.font.name = 'Times New Roman'
    run._element.rPr.rFonts.set(qn('w:eastAsia'), 'Times New Roman')
    run.font.size = Pt(10)

docx XML 操作规范（进阶）

以下是文档内部操作的硬核规范，修改现有docx时必须遵守。

字体替换（完整遍历run）

CODEBLOCK15

段落删除

CODEBLOCK16

段落插入（指定位置）

CODEBLOCK17

从后往前插入（避免索引偏移）

CODEBLOCK18

段落属性设置

from docx.oxml.ns import qn

p_elem = para._element
pPr = p_elem.get_or_add_pPr()
spacing = OxmlElement('w:spacing')
spacing.set(qn('w:line'), '360')    # 1.5行距 (360=单倍*240)
spacing.set(qn('w:lineRule'), 'auto')
spacing.set(qn('w:after'), '200')   # 段后间距
pPr.append(spacing)

学位论文专门规范（Type 4）

排版要求
项目要求
正文字体宋体小四（12pt）
英文/数字
Times New Roman 12pt |

项目	要求
正文字体	宋体小四（12pt）
英文/数字

章节扩充工作流（扩充+30%等比例要求）

CODEBLOCK20

引用编号映射（学位论文特有问题）

- 插入新引用 → 后续所有编号+1
删除引用 → 后续所有编号-1
必须同步更新：正文引用、全文交叉引用、参考文献列表
生成文件命名：ch8_references_最终版.docx = 每次修订后的最终版本

质量检查清单（每次提交前必查）

引用验证（最高优先级）

- [ ] 所有引用均可 PubMed 查证（含 PMID 或可验证期刊页码）
[ ] 虚构引用已全部替换为真实文献
[ ] 引用编号映射表已生成并保存
[ ] 正文引用编号与参考文献列表完全对应

数据真实性

- [ ] 所有 AAPC/EAPC/β/OR/RR/95%CI/p 值原文照录
[ ] 无任何占位符（[待补充]、[此处数据]等）
[ ] 表格数据与正文数据完全一致

格式

- [ ] 摘要 ≤350 词，无小标题
[ ] 前言 4 段（或各校规定段数）
[ ] 讨论 ≥5 条局限性（学位论文）
[ ] 参考文献：Vancouver，悬挂缩进0.35"，Times New Roman 10pt
[ ] 图表编号连续（Table 1, Table 2...; Figure 1, Figure 2...）

学位论文额外检查

- [ ] 全文无中英混排标点错误
[ ] 目录结构符合学校研究生院规范
[ ] 字数满足学校要求（硕士≥3万字，博士≥5万字）
[ ] 中英文摘要完整（含研究目的、方法、主要结果、结论）

常见修订模式

用户反馈	处理策略
"内容不够充实" / "+30%"	识别可扩充方向，添加最新指南段落/对比数据/机制假说
"引用有误"

Python Docx 生成模板（完整版）

CODEBLOCK21

输出文件命名规范

CODEBLOCK22

关键规则（永久有效）

规则	说明
引用必须先验证	任何无法PubMed查证的引用，必须替换为真实文献，禁止保留虚构引用
编号映射全程追踪

生物医学论文写作技能

使用python-docx将草稿生成为可直接投稿的英文生物医学稿件（或中文学位论文）。

核心工作流（必读）

第一阶段：接收与分析

1. 用户提供中文草稿/大纲 → 确认论文类型（见下）
识别所有数据（统计值、样本量、引用编号）
立即执行引用预验证：将参考文献列表中的每一条与PubMed核对，标记无法验证的条目
如有引用缺失/无法验证 → 先补充验证，再生成正文

第二阶段：生成正文

5. 按论文类型套用标准结构模板（见本文档各类型模板）
所有统计数据（β/OR/RR/AAPC/95%CI/p值）必须原文照录，不得编造
引用编号全程追踪：记录引用编号映射表（见下方规范）

第三阶段：生成参考文献

8. 按Vancouver格式逐条生成引用（见引用生成规范）
引用编号以正文中的实际使用为准，不沿用草稿中的旧编号
参考文献单独存docx，并附加引用编号映射表说明文件

论文类型与模板

类型1：GBD流行病学（疾病负担趋势分析）

- 模板文献：SIICI（亚洲神经母细胞瘤，GBD 2023）
数据：GBD数据库（ghdx.healthdata.org）
方法：Joinpoint回归，EAPC/AAPC，ASIR/ASMR/DALYs
关键词：神经母细胞瘤；新生儿；疾病负担；发病率；死亡率；DALYs；亚洲
表格：4张（按地区/SDI/性别/年龄分层）
图片：5张（趋势线、等值区域图）
伦理：GBD IRB豁免（华盛顿大学）
必须注明：ICD-10和ICD-9代码

类型2：队列/登记数据库分析

- 模板文献：CHARLS（社会参与与糖尿病）
数据：CHARLS，NHANES，MIMIC，SEER，FAERS等
方法：K-means聚类，logistic/线性回归，Cox比例风险，亚组分析
关键词：社会参与；[疾病]；发病率；[数据库]；K-means；中介分析
表格：4–13张（描述性统计、聚类轮廓、回归结果、亚组分析）
图片：5–17张（ROC曲线、K-M曲线、聚类轮廓、趋势图）
伦理：豁免IRB（去标识数据）

类型3：交叉横断面/中介分析

- 模板文献：GBS（邻苯二甲酸酯、SII、认知功能）
数据：NHANES，横断面调查
方法：线性/logistic回归 + 中介分析（bootstrap N=1000）
关键词：邻苯二甲酸酯；全身性炎症；全身免疫炎症指数；认知功能；老年人；中介
表格：4张（人口学特征、回归β+95%CI、中介分解）
关键指标：SII = 血小板×中性粒细胞/淋巴细胞；SIRI = 中性粒细胞×单核细胞/淋巴细胞

类型4：学位论文（中文，硕士/博士）

- 语种：中文（正文）+ 英文摘要
格式要求：依各院校研究生院规范；正文宋体小四，英文Times New Roman 12pt
章节结构：前言 → 资料与方法 → 结果 → 讨论 → 结论 → 参考文献
引用格式：顺序编码制（与期刊Vancouver相同格式）
字数要求：硕士论文 ≥3万字，博士论文 ≥5万字（各校标准）
核心规范：不可有占位符（如[此处补充数据]）；表格内数据须与正文一致

引用预验证工作流（最关键环节）

操作步骤

步骤1：提取用户提供的参考文献列表（全部条目）
步骤2：对每一条执行PubMed搜索或batchwebsearch
查询格式：[第一作者] [期刊缩写] [发表年] 或 PMID: XXXXXXXX
步骤3：标记结果：
✅ 已验证（PMID匹配）→ 可直接使用
⚠️ 需复核 → 作者/年份/期刊有偏差，需修正后使用
❌ 未找到 → 无法验证，必须替换为可验证的真实文献
步骤4：如有未找到条目：
→ 搜索同一研究领域3年内（≤3年）的高质量真实文献替代
→ 记录替换原因（如：原引用#14 [虚构]，替换为Li M等 Syst Rev 2024;13:171）
步骤5：生成最终引用编号映射表（见下）

引用编号映射表（每次必须生成）

markdown

引用编号映射表

旧编号	新编号	作者	期刊	年份	PMID	备注
#1	#1	Lei J等	Lancet Reg Health West Pac	2024	—	替换（原文虚构）
#8

#2 | Lei J等 | Lancet Reg Health West Pac | 2024 | — | 与#1合并/替换 | | #14 | 删除 | — | — | — | — | 删除（虚构引用） | | #15 | #14 | Li M等 | Syst Rev | 2024 | — | 重新编号 | | ... | ... | ... | ... | ... | ... | 递进 |

⚠️ 重要教训：PRISm大论文（2026-03-22）中，草稿含虚构引用（#14等），导致引用需全面重编。以后所有任务必须先验证再使用，任何无法PubMed查证的引用必须替换。

标准摘要格式（所有类型通用）

目的：为了[动词][暴露/主题]是否/如何[关联][人群][利用数据来自][数据库]。

方法：[研究设计]，[N]名参与者/记录来自[数据库，年份范围]。[关键纳入标准]。[统计方法：聚类/回归/等]。[中介/分层（如适用）]。

结果：[主要聚类/概况发现]（n=%，n=%）。[关键关联，含OR/β，95% CI，P值]。[亚组发现]。[中介结果]（ACME比例%）。

结论：[主要发现]。[机制/通路意义]。[政策/实践建议]。

- 字数：250–350词
摘要内不使用小标题（无背景：、方法：等）

标准前言格式（4段递进结构）

第1段 — 疾病/暴露负担：
[疾病/暴露]是一种[定义]。[全球/国家患病率，趋势]。[临床意义]。

第2段 — 流行病学背景：
流行病学研究表明[模式]。[主要危险因素]。[近期变化：COVID-19、老龄化等]。

第3段 — 研究缺口：
尽管[已有知识]，但[缺口：缺乏比较/中介/预测研究]。[地区/数据库比较]有限。

第4段 — 研究目的：
利用[数据库]，本研究旨在：(i) [目的1]；(ii) [目的2]；(iii) [目的3]。（如为学位论文，还需详述各章安排。）

标准方法格式

GBD方法

所有数据均从公开可用的GBD [年份]数据库获取（http://ghdx.healthdata.org/gbd-results-tool）。
GBD研究整合了多个流行病学数据来源——包括人口登记、调查、已发表文献、
医院记录和死因数据——并采用标准化建模框架生成跨国跨时期的可比负担估算。
[疾病]采用ICD-10代码[X]和ICD-9代码[Y]进行识别。
[结局]提取自[国家]，时间为[年份]：[列举结局]，均以每10万人表示，
并按GBD全球标准人群进行年龄标准化。
本研究使用公开可用的去标识化汇总数据，已获得华盛顿大学机构伦理审查委员会豁免；
无需额外伦理审批。

队列/登记数据库方法

本研究为[回顾性/前瞻性] [队列/登记]研究，利用[数据库名称][年份范围]数据。
[纳入标准]：[N]名参与者/记录符合[临床/人口学标准]。
[排除标准]：[因X原因排除的记录数]。
[暴露/干预]：[按X标准定义]。
结局由[临床标准/ICD代码]定义。
统计分析：[回归类型]，调整[协变量]。亚组分析按[因素]分层。
[中介/因果分析]采用[方法，bootstrap N次]。
所有分析使用[软件，版本号]完成。

biomedical-paper生物医学论文