Data Management Plan (DMP) Creator
Automatically generate draft Data Management and Sharing Plans (DMSP) compliant with NIH 2023 policy requirements and FAIR principles.
Overview
This Skill generates comprehensive Data Management and Sharing Plans (DMSP) that meet NIH's 2023 Final Policy for Data Management and Sharing. The output follows FAIR principles (Findable, Accessible, Interoperable, Reusable) to ensure research data is properly managed and shared.
Requirements
- - Python 3.8+
- No external dependencies required (uses standard library only)
Usage
Command Line
CODEBLOCK0
Interactive Mode
CODEBLOCK1
As a Module
CODEBLOCK2
Parameters
| Parameter | Type | Default | Required | Description |
|---|
| INLINECODE0 | string | - | Yes | Title of the research project |
| INLINECODE1 |
string | - | Yes | Name of the Principal Investigator |
|
--institution | string | - | Yes | Research institution or organization |
|
--data-types | string | - | Yes | Comma-separated list of data types (e.g., "genomic,imaging,clinical") |
|
--estimated-size | float | - | No | Estimated data size in GB |
|
--repository | string | - | Yes | Comma-separated list of target repositories |
|
--sharing-timeline | string | No later than the end of the award period | No | When data will be shared |
|
--access-restrictions | string | - | No | Any access restrictions (e.g., "controlled-access for sensitive data") |
|
--format-standards | string | - | No | Data format standards to be used |
|
--output | string | dmsp_[timestamp].md | No | Output file path |
|
--interactive | flag | - | No | Run in interactive mode |
NIH DMSP Required Elements
The generated plan addresses all six required elements per NIH policy:
- 1. Data Type - Types and estimated amount of scientific data
- Related Tools, Software and/or Code - Tools needed to access/manipulate data
- Standards - Standards for data/metadata to be applied
- Data Preservation, Access, and Associated Timelines - Repository selection and sharing timeline
- Access, Distribution, or Reuse Considerations - Factors affecting subsequent access
- Oversight of Data Management and Sharing - Plans for compliance monitoring
FAIR Principles Implementation
Findable
- - Persistent identifiers (DOIs)
- Rich metadata with standard vocabularies
- Registration in searchable repositories
Accessible
- - Standardized communication protocols
- Metadata available even if data is no longer available
- Access procedures clearly documented
Interoperable
- - Standard data formats
- Standard terminologies and vocabularies
- Qualified references to other data
Reusable
- - Detailed provenance information
- Clear usage licenses
- Domain-relevant community standards
Example Output
The generated DMSP includes:
- - Executive summary
- NIH-compliant section headers
- Specific language for data type descriptions
- FAIR-aligned metadata standards
- Repository recommendations
- Timeline for data sharing
- Access control procedures
- Roles and responsibilities
References
License
MIT License - See project root for details.
Risk Assessment
| Risk Indicator | Assessment | Level |
|---|
| Code Execution | Python/R scripts executed locally | Medium |
| Network Access |
No external API calls | Low |
| File System Access | Read input files, write output files | Medium |
| Instruction Tampering | Standard prompt guidelines | Low |
| Data Exposure | Output files saved to workspace | Low |
Security Checklist
- - [ ] No hardcoded credentials or API keys
- [ ] No unauthorized file system access (../)
- [ ] Output does not expose sensitive information
- [ ] Prompt injection protections in place
- [ ] Input file paths validated (no ../ traversal)
- [ ] Output directory restricted to workspace
- [ ] Script execution in sandboxed environment
- [ ] Error messages sanitized (no stack traces exposed)
- [ ] Dependencies audited
Prerequisites
CODEBLOCK3
Evaluation Criteria
Success Metrics
- - [ ] Successfully executes main functionality
- [ ] Output meets quality standards
- [ ] Handles edge cases gracefully
- [ ] Performance is acceptable
Test Cases
- 1. Basic Functionality: Standard input → Expected output
- Edge Case: Invalid input → Graceful error handling
- Performance: Large dataset → Acceptable processing time
Lifecycle Status
- - Current Stage: Draft
- Next Review Date: 2026-03-06
- Known Issues: None
- Planned Improvements:
- Performance optimization
- Additional feature support
数据管理计划(DMP)生成器
自动生成符合NIH 2023政策要求和FAIR原则的数据管理与共享计划(DMSP)草案。
概述
本技能可生成全面的数据管理与共享计划(DMSP),满足NIH 2023年数据管理与共享最终政策要求。输出内容遵循FAIR原则(可查找、可访问、可互操作、可重用),确保研究数据得到妥善管理和共享。
要求
- - Python 3.8+
- 无需外部依赖(仅使用标准库)
使用方法
命令行模式
bash
python scripts/main.py \
--project-title 您的研究项目标题 \
--pi-name 首席研究员姓名 \
--data-types 基因组学,影像学,临床数据 \
--repository GEO,Figshare \
--output dmsp_draft.md
交互模式
bash
python scripts/main.py --interactive
作为模块使用
python
from scripts.main import DMSPCreator
creator = DMSPCreator(
project_title=癌症基因组学研究,
pi_name=简·史密斯博士,
institution=国家癌症研究所,
data_types=[基因组测序, 临床元数据],
estimatedsizegb=500,
repositories=[dbGaP, GEO],
sharing_timeline=研究完成后6个月内
)
dmsp = creator.generate_plan()
creator.savetofile(dmsp_output.md)
参数
| 参数 | 类型 | 默认值 | 必填 | 描述 |
|---|
| --project-title | 字符串 | - | 是 | 研究项目标题 |
| --pi-name |
字符串 | - | 是 | 首席研究员姓名 |
| --institution | 字符串 | - | 是 | 研究机构或组织 |
| --data-types | 字符串 | - | 是 | 逗号分隔的数据类型列表(例如:genomic,imaging,clinical) |
| --estimated-size | 浮点数 | - | 否 | 预估数据大小(GB) |
| --repository | 字符串 | - | 是 | 逗号分隔的目标存储库列表 |
| --sharing-timeline | 字符串 | 不晚于资助期结束 | 否 | 数据共享时间 |
| --access-restrictions | 字符串 | - | 否 | 任何访问限制(例如:敏感数据的受控访问) |
| --format-standards | 字符串 | - | 否 | 使用的数据格式标准 |
| --output | 字符串 | dmsp_[时间戳].md | 否 | 输出文件路径 |
| --interactive | 标志 | - | 否 | 以交互模式运行 |
NIH DMSP必需要素
生成的计划涵盖NIH政策要求的全部六个要素:
- 1. 数据类型 - 科学数据的类型和预估数量
- 相关工具、软件和/或代码 - 访问/操作数据所需的工具
- 标准 - 应用的数据/元数据标准
- 数据保存、访问及相关时间线 - 存储库选择与共享时间线
- 访问、分发或重用考虑因素 - 影响后续访问的因素
- 数据管理与共享的监督 - 合规性监控计划
FAIR原则实施
可查找
- - 持久标识符(DOI)
- 使用标准词汇表的丰富元数据
- 在可搜索的存储库中注册
可访问
- - 标准化的通信协议
- 即使数据不再可用,元数据仍可访问
- 明确记录的访问程序
可互操作
- - 标准数据格式
- 标准术语和词汇表
- 对其他数据的合格引用
可重用
- - 详细的来源信息
- 明确的使用许可
- 领域相关的社区标准
示例输出
生成的DMSP包括:
- - 执行摘要
- 符合NIH要求的章节标题
- 数据类型描述的具体语言
- 符合FAIR原则的元数据标准
- 存储库建议
- 数据共享时间线
- 访问控制程序
- 角色与职责
参考文献
许可证
MIT许可证 - 详情请参见项目根目录。
风险评估
| 风险指标 | 评估 | 级别 |
|---|
| 代码执行 | 本地执行Python/R脚本 | 中 |
| 网络访问 |
无外部API调用 | 低 |
| 文件系统访问 | 读取输入文件,写入输出文件 | 中 |
| 指令篡改 | 标准提示指南 | 低 |
| 数据暴露 | 输出文件保存到工作区 | 低 |
安全检查清单
- - [ ] 无硬编码的凭证或API密钥
- [ ] 无未授权的文件系统访问(../)
- [ ] 输出不暴露敏感信息
- [ ] 已实施提示注入防护
- [ ] 输入文件路径已验证(无../遍历)
- [ ] 输出目录限制在工作区内
- [ ] 脚本在沙盒环境中执行
- [ ] 错误消息已清理(不暴露堆栈跟踪)
- [ ] 依赖项已审计
先决条件
bash
Python依赖项
pip install -r requirements.txt
评估标准
成功指标
- - [ ] 成功执行主要功能
- [ ] 输出符合质量标准
- [ ] 优雅处理边缘情况
- [ ] 性能可接受
测试用例
- 1. 基本功能:标准输入 → 预期输出
- 边缘情况:无效输入 → 优雅的错误处理
- 性能:大数据集 → 可接受的处理时间
生命周期状态
- - 当前阶段:草案
- 下次审查日期:2026-03-06
- 已知问题:无
- 计划改进:
- 性能优化
- 额外功能支持