返回顶部
d

data-cleaning-annotation-workflow数据清洗标注工作流

Complete workflow for time series datasets (Energy, Manufacturing, Climate) on Kaggle to Data Annotation platform (data.smlcrm.com). Includes downloading, cleaning with pandas, uploading RAW with metadata, configuring columns (Time/Target/Covariate/Group), setting units (kWh, kVarh, tCO2, ratio, seconds), and assigning groups by selecting all variables and applying all group tags. Use when finding Kaggle datasets, cleaning for ML, uploading with metadata, configuring types/units, assigning group

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
833
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

data-cleaning-annotation-workflow

模拟数据标注工作流程

在数据标注平台(data.smlcrm.com)上完成时间序列数据集准备和标注的完整端到端工作流程。

该技能的功能

该技能记录了从发现到CLEAN状态处理时间序列数据集(能源、制造、气候)的精确工作流程:

  1. 1. 查找数据集:在Kaggle上搜索能源/制造/气候时间序列数据
  2. 下载:通过浏览器或Kaggle CLI获取CSV文件
  3. 清洗:运行Python/pandas脚本处理缺失值、重复项、格式问题
  4. 上传RAW:上传原始CSV文件及元数据(名称、领域、来源URL、描述)
  5. 配置表头:设置列类型(时间、目标、协变量、分组)和单位
  6. 分配分组:选择所有变量(目标+协变量),应用所有分组标签
  7. 上传清洗后数据:最终上传 → CLEAN状态

支持的领域

  • - 能源:电力消耗、公用事业、可再生能源、电网数据
  • 制造:工业流程、钢铁生产、排放、设备数据
  • 气候:CO2排放、环境监测、天气相关性数据

快速开始

从Kaggle到标注数据集的完整流程:

  1. 1. 在Kaggle上查找数据集
  2. 下载(浏览器或kaggle CLI)
  3. 使用scripts/clean_dataset.py清洗
  4. 上传RAW数据集到data.smlcrm.com(附带元数据)
  5. 点击Clean并上传清洗后的文件
  6. 配置列元数据(类型、单位)
  7. 为变量分配分组
  8. 上传清洗后的数据集 → CLEAN状态

工作流程步骤

步骤1:查找并下载数据集

从Kaggle(浏览器方法):

  1. 1. 导航至kaggle.com/datasets
  2. 搜索相关数据集(例如钢铁行业能源消耗、制造业排放、气候CO2)
  3. 查看数据描述、文件列表和预览
  4. 点击Download按钮
  5. 从下载的zip文件中提取CSV文件

替代方案:Kaggle CLI
bash

如需安装:pip install kaggle


配置:kaggle competitions list

scripts/download_kaggle.sh <数据集名称> [输出目录]

示例:scripts/download_kaggle.sh csafrit2/steel-industry-energy-consumption

步骤2:清洗数据集

上传前务必运行清洗脚本:

bash
python3 scripts/clean_dataset.py <输入.csv> [-o <输出.csv>]

脚本功能:

  • - 去除列名中的空白字符
  • 删除重复行
  • 用中位数填充缺失的数值
  • 用众数或Unknown填充缺失的分类值
  • 将时间戳列转换为日期时间格式
  • 输出列摘要用于元数据配置

输出:

  • - 清洗后的CSV文件,准备上传
  • 列摘要打印到控制台(保存用于元数据配置)

步骤3:上传原始数据集到平台

  1. 1. 导航至data.smlcrm.com/dashboard
  2. 点击Upload Dataset按钮
  3. 填写RAW数据集的元数据:
- 名称:描述性数据集名称 - 领域:类别(能源、制造、气候等) - 来源URL:Kaggle或原始来源URL - 描述:数据集的简要摘要
  1. 4. 上传原始/未清洗的CSV文件(尚未清洗)
  2. 点击Upload

结果: 数据集出现在列表中,状态为RAW

步骤4:上传清洗后的文件并配置元数据

  1. 1. 在列表中找到RAW数据集
  2. 点击Clean按钮
  3. 上传清洗后的CSV文件(来自步骤2)
  4. 为每列配置表头:
设置描述
名称列名(可编辑)
单位
测量单位(kWh、°C、%、比率、tCO2等) | | 类型 | 时间 / 目标 / 协变量 / 分组 |

列类型指南:

  • - 时间:时间戳/日期时间列(通常必需)
  • 目标:要预测的变量(至少需要一个)
  • 协变量:输入特征/自变量
  • 分组:分类分段变量(WeekStatus、Dayofweek、Load_Type等)

批量配置:

  • - 通过复选框选择多行
  • 使用Apply下拉菜单为所选列设置类型
  • 单独或批量设置单位

常见单位模式:

  • - 能源:kWh、MWh、MW
  • 功率:kVarh、kW
  • 排放:tCO2、kgCO2
  • 比率:比率、%
  • 时间:秒、分钟、小时

步骤5:为变量分配分组

目的: 分组变量定义数据如何分段用于分析。

精确工作流程:

  1. 1. 选择所有变量,勾选其复选框:

- 目标变量
- 所有协变量

  1. 2. 对所有选定变量应用所有分组标签
- 点击第一个分组标签(例如WeekStatus)→ 所有选定变量获得此分组 - 点击第二个分组标签(例如Dayofweek)→ 所有选定变量获得此分组 - 点击第三个分组标签(例如Load_Type)→ 所有选定变量获得此分组 - 对所有可用分组标签重复此操作
  1. 3. 结果: 所有变量都分配了所有分组(例如WeekStatus × Dayofweek × Load_Type)

重要提示: 将分组分配给目标变量和所有协变量。

步骤6:最终上传

  1. 1. 点击Upload Cleaned Dataset按钮
  2. 等待处理
  3. 数据集状态从RAW变为CLEAN
  4. 验证数据点数量是否正确

示例:钢铁行业能源数据集

来源: https://www.kaggle.com/datasets/csafrit2/steel-industry-energy-consumption

元数据:

  • - 名称: 钢铁行业能源消耗(韩国)
  • 领域: 能源
  • 数据点: 350,400

列配置:

类型单位
Timestamps时间-
Usage_kWh
目标 | kWh |
| LaggingCurrentReactive.Power_kVarh | 协变量 | kVarh |
| LeadingCurrentReactivePowerkVarh | 协变量 | kVarh |
| CO2(tCO2) | 协变量 | tCO2 |
| LaggingCurrentPower_Factor | 协变量 | 比率 |
| LeadingCurrentPower_Factor | 协变量 | 比率 |
| NSM | 协变量 | 秒 |
| WeekStatus | 分组 | - |
| Dayofweek | 分组 | - |
| Load_Type | 分组 | - |

分组分配:

  1. 1. 选择:UsagekWh、LaggingCurrentReactive.PowerkVarh、LeadingCurrentReactivePowerkVarh、CO2(tCO2)、LaggingCurrentPowerFactor、LeadingCurrentPowerFactor、NSM
  2. 点击:WeekStatus → 所有选定变量获得WeekStatus
  3. 点击:Dayofweek → 所有选定变量获得Dayofweek
  4. 点击:LoadType → 所有选定变量获得LoadType
  5. 最终:所有变量显示WeekStatus × Dayofweek × Load_Type

参考资料

有关详细的平台配置指南,请参阅references/platform_guide.md

故障排除

Next按钮禁用:

  • - 检查是否至少设置了一个时间列
  • 检查是否至少设置了一个目标列
  • 验证所有列都已分配类型

分组未显示:

  • - 列必须首先标记为Group类型
  • 设置分组类型后继续下一步

上传失败:

  • - 重新运行清洗脚本
  • 检查CSV格式(逗号分隔)
  • 验证没有空列名

脚本

脚本目的
scripts/cleandataset.py清洗并准备CSV文件用于上传
scripts/downloadkaggle.sh
通过Kaggle CLI下载数据集 |

平台URL

数据标注平台:https://data.smlcrm.com

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 data-cleaning-annotation-workflow-1776419994 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 data-cleaning-annotation-workflow-1776419994 技能

通过命令行安装

skillhub install data-cleaning-annotation-workflow-1776419994

下载

⬇ 下载 data-cleaning-annotation-workflow v1.0.0(免费)

文件大小: 8.04 KB | 发布时间: 2026-4-17 19:31

v1.0.0 最新 2026-4-17 19:31
- Initial release of complete end-to-end workflow for preparing, cleaning, and annotating time series datasets (Energy, Manufacturing, Climate) using the Data Annotation platform.
- Step-by-step instructions for finding datasets on Kaggle, downloading, cleaning via pandas scripts, and uploading both raw and cleaned files with full metadata.
- Detailed guidance on configuring column types (Time, Target, Covariate, Group), setting measurement units, and bulk-assigning group tags to all relevant variables.
- Workflow explicitly covers group assignment for both targets and covariates, emphasizing all-variables-to-all-groups mapping.
- Troubleshooting section and script usage notes included for common platform and data preparation issues.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部