返回顶部
u

unstructured-medical-text-miner 非结构化病历挖掘

Mine unstructured clinical text from MIMIC-IV to extract diagnostic logic.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
89
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

unstructured-medical-text-miner

非结构化医学文本挖掘器(ID:213)

使用时机

  • - 当任务需要挖掘MIMIC-IV中的非结构化临床文本来提取诊断逻辑时使用此技能。
  • 用于需要明确假设、限定范围和可重复输出格式的证据洞察任务。
  • 当需要为缺失输入、执行错误或部分证据提供有文档记录的备用路径时使用此技能。

主要特性

相关详情请参见上方## 特性部分。

  • - 范围聚焦的工作流程,针对:挖掘MIMIC-IV中的非结构化临床文本来提取诊断逻辑。
  • 打包的可执行路径:scripts/init.py 外加1个附加脚本。
  • references/目录中提供参考资料,用于任务特定指导。
  • 结构化执行路径,旨在保持输出一致且可审查。

依赖项

pandas>=1.3.0
spacy>=3.4.0
scispacy>=0.5.1
radlex(用于放射学术语)
negspacy(用于否定检测)

使用示例

相关详情请参见上方## 用法部分。

bash
cd 20260318/scientific-skills/Evidence Insight/unstructured-medical-text-miner
python -m py_compile scripts/main.py
python scripts/main.py --help

示例运行计划:

  1. 1. 确认用户输入、输出路径以及任何必需的配置值。
  2. 如果脚本使用固定设置,编辑文件内的CONFIG块或文档化参数。
  3. 使用验证后的输入运行python scripts/main.py。
  4. 审查生成的输出,并返回最终产物,同时注明任何假设。

实现细节

相关详情请参见上方## 工作流程部分。

  • - 执行模型:验证请求,选择打包的工作流程,并生成限定范围的可交付成果。
  • 输入控制:在运行任何脚本之前,确认源文件、范围限制、输出格式和验收标准。
  • 主要实现界面:scripts/init.py,scripts/下包含额外的辅助脚本。
  • 参考指南:references/包含支持规则、提示或检查清单。
  • 需优先明确的参数:输入路径、输出路径、范围过滤器、阈值以及任何领域特定约束。
  • 输出规范:保持结果可重复,明确标识假设,避免未文档化的副作用。

快速检查

在深入执行之前,使用此命令验证打包脚本入口点是否可解析。

bash
python -m py_compile scripts/main.py

审计就绪命令

使用这些具体命令进行验证。它们特意设计为自包含,避免使用占位符路径。

bash
python -m py_compile scripts/main.py
python scripts/main.py --help
python scripts/main.py -h

工作流程

  1. 1. 在进行详细工作之前,确认用户目标、必需输入和不可协商的约束条件。
  2. 验证请求是否与文档化范围匹配,如果任务需要不支持的假设,则尽早停止。
  3. 仅使用实际可用的输入,使用打包脚本路径或文档化的推理路径。
  4. 返回结构化结果,将假设、可交付成果、风险和未解决事项分开。
  5. 如果执行失败或输入不完整,切换到备用路径,并明确说明阻止完整完成的具体原因。

概述

挖掘MIMIC-IV中长期被忽视的文本数据,提取非结构化的诊断逻辑、医嘱详情和病程记录。

目的

MIMIC-IV数据库包含大量结构化数据(生命体征、实验室结果等),但其真正的临床价值往往隐藏在非结构化文本中:

  • - 出院小结中的诊断推理链
  • 影像报告中的细微发现描述
  • 病程记录中的治疗决策逻辑
  • 医嘱中的个性化用药考量

本技能提供完整的文本挖掘工具链,将原始医学文本转化为可分析的结构化洞察。

特性

1. 文本提取

  • - NOTEEVENTS:从MIMIC-IV NOTE模块提取临床记录
  • 放射报告:提取影像诊断文本
  • 心电图报告:解析心电图解读文本
  • 出院小结:提取完整的诊断和治疗过程

2. 信息提取

  • - 实体识别:疾病、症状、药物、手术、解剖部位
  • 关系提取:药物-疾病治疗关系、症状-疾病诊断关系
  • 时间线提取:事件发生时间、疾病进展序列
  • 否定检测:识别否定的临床发现(例如无发热)

3. 临床逻辑解析

  • - 诊断推理链:从症状→检查→诊断的推理路径
  • 治疗决策树:药物选择和剂量调整的临床依据
  • 疾病进展:疾病进展和结果描述

4. 结构化输出

  • - FHIR兼容的临床文档格式
  • 知识图谱友好的三元组格式
  • 时间事件序列

用法

python
from skills.unstructuredmedicaltext_miner.scripts.main import MedicalTextMiner

初始化挖掘器

miner = MedicalTextMiner()

加载MIMIC-IV记录数据

miner.loadnotes(notespath=path/to/noteevents.csv)

提取特定患者的所有文本记录

patienttexts = miner.getpatienttexts(subjectid=10000032)

执行完整信息提取

insights = miner.extract_insights( text=patient_texts, extract_entities=True, extract_relations=True, extract_timeline=True )

输入

数据源

  • - MIMIC-IV NOTEEVENTS表(csv/parquet格式)
  • 出院小结文件
  • 影像报告文件
  • 自定义医学文本

字段要求
字段名描述必需
subjectid患者唯一标识符
hadmid
住院记录标识符 | 否 |

| note_type | 记录类型(DS/RR/ECG等) | 是 | | note_text | 记录文本内容 | 是 | | charttime | 记录时间 | 否 |

输出

实体提取结果

json { entities: [ { text: 急性心肌梗死, type: DISEASE, start: 156, end: 183, confidence: 0.94 }, { text: 阿司匹林81mg, type: MEDICATION, start: 245, end: 257, attributes: { dose: 81mg, frequency: 每日一次 } } ] }

临床逻辑图

json { clinical_logic: { presenting_complaint: 胸痛, differential_diagnoses: [ACS, PE, 主动脉夹层], workup: [心电图, 肌钙蛋白, 胸部CTA], final_diagnosis: STEMI, treatment_plan: [PCI, 双联抗血小板] } }

时间事件

json { timeline: [ { time: 2020-03-15 08:30, event: 入院, description: 表现为胸痛 }, { time: 2020-03-15 09:15, event: 心电图, description: V1-V4导联ST段抬高 } ] }

配置

yaml

config.yaml

extraction: entity_types: [DISEASE, SYMPTOM, MEDICATION, PROCEDURE, ANATOMY] relationtypes: [TREATS, CAUSES, CONTRAINDICATEDWITH] enablenegationdetection: true

models:
nermodel: encorescilg # 或 encoresci_scibert
relationmodel: customrelation_extractor

output:
format: json # json/fhir/kg
includerawtext: false

CLI用法

text

处理单个文件

python -m skills.unstructuredmedicaltext_miner.scripts.main \ --input notes.csv \ --output extracted.json \ --extract all

处理特定患者

python -m skills.unstructuredmedicaltext_miner.scripts.main \ --subject-id 10000032 \ --db-path mimic_iv.db \ --output patient_insights.json

参考文献

  1. 1. MIMIC-IV临床数据库:https://physionet.org/content/mimiciv/
  2. scispacy:https://allenai.github.io/scispacy/
  3. 用于否定检测的NegEx/negspacy
  4. FHIR临床文档规范

作者

技能ID:213
类别:医学数据挖掘
复杂度:高级

风险评估

风险指标评估级别
代码执行
Python/R脚本在

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 unstructured-medical-text-miner-1775891114 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 unstructured-medical-text-miner-1775891114 技能

通过命令行安装

skillhub install unstructured-medical-text-miner-1775891114

下载

⬇ 下载 unstructured-medical-text-miner v1.0.0(免费)

文件大小: 16.09 KB | 发布时间: 2026-4-12 11:47

v1.0.0 最新 2026-4-12 11:47
Unstructured Medical Text Miner 1.0.0 – Initial Release

- Provides a toolchain for mining unstructured clinical text from MIMIC-IV.
- Extracts diagnostic logic, clinical entities, relationships, timelines, and treatment reasoning from notes.
- Supports FHIR-compatible, knowledge graph, and temporal output formats.
- Includes negation detection and structured error handling/fallback paths.
- Command-line and Python API usage examples provided for easy integration.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部