Setting	Description
Name	Column name (editable)
Units

Column	Type	Units
Timestamps	Time	-
Usage_kWh

Script	Purpose
INLINECODE0	Clean and prepare CSV for upload
INLINECODE1

模拟数据标注工作流程

在数据标注平台（data.smlcrm.com）上完成时间序列数据集准备和标注的完整端到端工作流程。

该技能的功能

该技能记录了从发现到CLEAN状态处理时间序列数据集（能源、制造、气候）的精确工作流程：

1. 查找数据集：在Kaggle上搜索能源/制造/气候时间序列数据
下载：通过浏览器或Kaggle CLI获取CSV文件
清洗：运行Python/pandas脚本处理缺失值、重复项、格式问题
上传RAW：上传原始CSV文件及元数据（名称、领域、来源URL、描述）
配置表头：设置列类型（时间、目标、协变量、分组）和单位
分配分组：选择所有变量（目标+协变量），应用所有分组标签
上传清洗后数据：最终上传 → CLEAN状态

支持的领域

- 能源：电力消耗、公用事业、可再生能源、电网数据
制造：工业流程、钢铁生产、排放、设备数据
气候：CO2排放、环境监测、天气相关性数据

快速开始

从Kaggle到标注数据集的完整流程：

1. 在Kaggle上查找数据集
下载（浏览器或kaggle CLI）
使用scripts/clean_dataset.py清洗
上传RAW数据集到data.smlcrm.com（附带元数据）
点击Clean并上传清洗后的文件
配置列元数据（类型、单位）
为变量分配分组
上传清洗后的数据集 → CLEAN状态

工作流程步骤

步骤1：查找并下载数据集

从Kaggle（浏览器方法）：

1. 导航至kaggle.com/datasets
搜索相关数据集（例如钢铁行业能源消耗、制造业排放、气候CO2）
查看数据描述、文件列表和预览
点击Download按钮
从下载的zip文件中提取CSV文件

替代方案：Kaggle CLI
bash

如需安装：pip install kaggle

配置：kaggle competitions list

scripts/download_kaggle.sh <数据集名称> [输出目录]

示例：scripts/download_kaggle.sh csafrit2/steel-industry-energy-consumption

步骤2：清洗数据集

上传前务必运行清洗脚本：

bash
python3 scripts/clean_dataset.py <输入.csv> [-o <输出.csv>]

脚本功能：

- 去除列名中的空白字符
删除重复行
用中位数填充缺失的数值
用众数或Unknown填充缺失的分类值
将时间戳列转换为日期时间格式
输出列摘要用于元数据配置

输出：

- 清洗后的CSV文件，准备上传
列摘要打印到控制台（保存用于元数据配置）

步骤3：上传原始数据集到平台

1. 导航至data.smlcrm.com/dashboard
点击Upload Dataset按钮
填写RAW数据集的元数据：

- 名称：描述性数据集名称 - 领域：类别（能源、制造、气候等） - 来源URL：Kaggle或原始来源URL - 描述：数据集的简要摘要

4. 上传原始/未清洗的CSV文件（尚未清洗）
点击Upload

结果： 数据集出现在列表中，状态为RAW

步骤4：上传清洗后的文件并配置元数据

1. 在列表中找到RAW数据集
点击Clean按钮
上传清洗后的CSV文件（来自步骤2）
为每列配置表头：

设置	描述
名称	列名（可编辑）
单位

测量单位（kWh、°C、%、比率、tCO2等） | | 类型 | 时间 / 目标 / 协变量 / 分组 |

列类型指南：

- 时间：时间戳/日期时间列（通常必需）
目标：要预测的变量（至少需要一个）
协变量：输入特征/自变量
分组：分类分段变量（WeekStatus、Dayofweek、Load_Type等）

批量配置：

- 通过复选框选择多行
使用Apply下拉菜单为所选列设置类型
单独或批量设置单位

常见单位模式：

- 能源：kWh、MWh、MW
功率：kVarh、kW
排放：tCO2、kgCO2
比率：比率、%
时间：秒、分钟、小时

步骤5：为变量分配分组

目的： 分组变量定义数据如何分段用于分析。

精确工作流程：

1. 选择所有变量，勾选其复选框：

- 目标变量
- 所有协变量

2. 对所有选定变量应用所有分组标签：

- 点击第一个分组标签（例如WeekStatus）→ 所有选定变量获得此分组 - 点击第二个分组标签（例如Dayofweek）→ 所有选定变量获得此分组 - 点击第三个分组标签（例如Load_Type）→ 所有选定变量获得此分组 - 对所有可用分组标签重复此操作

3. 结果： 所有变量都分配了所有分组（例如WeekStatus × Dayofweek × Load_Type）

重要提示： 将分组分配给目标变量和所有协变量。

步骤6：最终上传

1. 点击Upload Cleaned Dataset按钮
等待处理
数据集状态从RAW变为CLEAN
验证数据点数量是否正确

示例：钢铁行业能源数据集

来源： https://www.kaggle.com/datasets/csafrit2/steel-industry-energy-consumption

元数据：

- 名称： 钢铁行业能源消耗（韩国）
领域： 能源
数据点： 350,400

列配置：

列	类型	单位
Timestamps	时间	-
Usage_kWh

目标 | kWh |
| LaggingCurrentReactive.Power_kVarh | 协变量 | kVarh |
| LeadingCurrentReactivePowerkVarh | 协变量 | kVarh |
| CO2(tCO2) | 协变量 | tCO2 |
| LaggingCurrentPower_Factor | 协变量 | 比率 |
| LeadingCurrentPower_Factor | 协变量 | 比率 |
| NSM | 协变量 | 秒 |
| WeekStatus | 分组 | - |
| Dayofweek | 分组 | - |
| Load_Type | 分组 | - |

分组分配：

1. 选择：UsagekWh、LaggingCurrentReactive.PowerkVarh、LeadingCurrentReactivePowerkVarh、CO2(tCO2)、LaggingCurrentPowerFactor、LeadingCurrentPowerFactor、NSM
点击：WeekStatus → 所有选定变量获得WeekStatus
点击：Dayofweek → 所有选定变量获得Dayofweek
点击：LoadType → 所有选定变量获得LoadType
最终：所有变量显示WeekStatus × Dayofweek × Load_Type

参考资料

有关详细的平台配置指南，请参阅references/platform_guide.md。

故障排除

Next按钮禁用：

- 检查是否至少设置了一个时间列
检查是否至少设置了一个目标列
验证所有列都已分配类型

分组未显示：

- 列必须首先标记为Group类型
设置分组类型后继续下一步

上传失败：

- 重新运行清洗脚本
检查CSV格式（逗号分隔）
验证没有空列名

脚本

脚本	目的
scripts/cleandataset.py	清洗并准备CSV文件用于上传
scripts/downloadkaggle.sh

通过Kaggle CLI下载数据集 |

平台URL

数据标注平台：https://data.smlcrm.com

data-cleaning-annotation-workflow数据清洗标注工作流

data-cleaning-annotation-workflow

Simulacrum Data Annotation Workflow

What This Skill Does

Supported Domains

Quick Start

Workflow Steps

Step 1: Find and Download Dataset

Step 2: Clean the Dataset

Step 3: Upload Raw Dataset to Platform

Step 4: Upload Cleaned File & Configure Metadata

Step 5: Assign Groups to Variables

Step 6: Final Upload

Example: Steel Industry Energy Dataset

Reference Materials

Troubleshooting

Scripts

Platform URL

模拟数据标注工作流程

该技能的功能

支持的领域

快速开始

工作流程步骤

步骤1：查找并下载数据集

如需安装：pip install kaggle

配置：kaggle competitions list

示例：scripts/download_kaggle.sh csafrit2/steel-industry-energy-consumption

步骤2：清洗数据集

步骤3：上传原始数据集到平台

步骤4：上传清洗后的文件并配置元数据

步骤5：为变量分配分组

步骤6：最终上传

示例：钢铁行业能源数据集

参考资料

故障排除

脚本

平台URL

标签

通过对话安装

方式一：安装 SkillHub 和技能

方式二：设置 SkillHub 为优先技能安装源

通过命令行安装

下载

相关推荐

self-improvement

self-improvement

self-improvement

self-improvement