返回顶部
d

dataset-finder数据集查找器

Use this skill when users need to search for datasets, download data files, or explore data repositories. Triggers include: requests to \"find datasets\", \"search for data\", \"download dataset from Kaggle\", \"get data from Hugging Face\", \"find ML datasets\", or mentions of data repositories like Kaggle, UCI ML Repository, Data.gov, or Hugging Face. Also use for previewing dataset statistics, generating data cards, or discovering datasets for machine learning projects. Requires OpenClawCLI i

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 0.1.0
安全检测
已通过
1,584
下载量
免费
免费
1
收藏
概述
安装方式
版本历史

dataset-finder

数据集查找器

从多个存储库(包括Kaggle、Hugging Face、UCI机器学习存储库和Data.gov)搜索、下载和探索数据集。预览统计数据、生成数据卡片,并管理用于机器学习项目的数据集。

⚠️ 前提条件: 安装 OpenClawCLI(Windows、MacOS)

安装:
bash

标准安装


pip install kaggle datasets pandas huggingface-hub requests beautifulsoup4

如果遇到权限错误,请使用虚拟环境

python -m venv venv source venv/bin/activate # 在Windows上:venv\Scripts\activate pip install kaggle datasets pandas huggingface-hub requests beautifulsoup4

切勿使用 --break-system-packages,因为它可能会损坏系统的Python安装。



快速参考


任务命令
搜索Kagglepython scripts/dataset.py kaggle search housing prices
下载Kaggle数据集
python scripts/dataset.py kaggle download username/dataset-name |
| 搜索Hugging Face | python scripts/dataset.py huggingface search sentiment |
| 下载HF数据集 | python scripts/dataset.py huggingface download dataset-name |
| 搜索UCI ML | python scripts/dataset.py uci search classification |
| 预览数据集 | python scripts/dataset.py preview dataset.csv |
| 生成数据卡片 | python scripts/dataset.py datacard dataset.csv --output README.md |
| 列出本地数据集 | python scripts/dataset.py list |


核心功能

1. 多存储库搜索

从单一界面跨多个数据存储库进行搜索。

支持的来源:

  • - Kaggle - 机器学习竞赛和社区数据集
  • Hugging Face - NLP、视觉和音频数据集
  • UCI机器学习存储库 - 经典机器学习数据集
  • Data.gov - 美国政府开放数据
  • 本地 - 管理已下载的数据集

2. 数据集下载

下载数据集并自动检测格式。

支持的格式:

  • - CSV、TSV
  • JSON、JSONL
  • Parquet
  • Excel(XLSX、XLS)
  • ZIP存档
  • HDF5
  • Feather

3. 数据集预览

无需加载整个数据集即可获取快速统计信息和见解。

预览功能:

  • - 形状(行×列)
  • 列名和类型
  • 缺失值计数
  • 基本统计信息(均值、标准差、最小值、最大值)
  • 内存使用情况
  • 样本行

4. 数据卡片生成

自动生成数据集文档。

包括:

  • - 数据集描述
  • 模式信息
  • 统计摘要
  • 使用示例
  • 许可证信息
  • 引用详情



特定存储库命令

Kaggle

从Kaggle搜索和下载数据集。

设置:

  1. 1. 从 https://www.kaggle.com/settings 获取Kaggle API凭据
  2. 将 kaggle.json 放置在 ~/.kaggle/(Linux/Mac)或 %USERPROFILE%\.kaggle\(Windows)

bash

搜索数据集


python scripts/dataset.py kaggle search house prices

带筛选条件的搜索

python scripts/dataset.py kaggle search NLP --file-type csv --sort-by hotness

下载数据集

python scripts/dataset.py kaggle download zillow/zecon

下载特定文件

python scripts/dataset.py kaggle download username/dataset --file train.csv

列出数据集文件

python scripts/dataset.py kaggle list username/dataset-name

搜索选项:

  • - --file-type - 按文件类型筛选(csv、json等)
  • --license - 按许可证类型筛选
  • --sort-by - 按热度、投票数、更新日期或相关性排序
  • --max-results - 限制结果数量

输出:

  1. 1. 房价 - 高级回归技术
所有者:zillow/zecon 大小:1.5 MB 最后更新:2023-06-15 下载量:150,000+ 网址:https://www.kaggle.com/datasets/zillow/zecon
  1. 2. 房价数据集
所有者:username/housing-data 大小:850 KB 最后更新:2023-08-20 下载量:50,000+ 网址:https://www.kaggle.com/datasets/username/housing-data

Hugging Face数据集

从Hugging Face Hub搜索和下载数据集。

bash

搜索数据集


python scripts/dataset.py huggingface search sentiment analysis

带筛选条件的搜索

python scripts/dataset.py huggingface search NLP --task text-classification --language en

下载数据集

python scripts/dataset.py huggingface download imdb

下载特定分割

python scripts/dataset.py huggingface download imdb --split train

下载特定配置

python scripts/dataset.py huggingface download glue --config mrpc

流式传输大型数据集

python scripts/dataset.py huggingface download large-dataset --streaming

搜索选项:

  • - --task - 按任务筛选(文本分类、翻译等)
  • --language - 按语言代码筛选
  • --multimodal - 包含多模态数据集
  • --benchmark - 仅基准数据集
  • --max-results - 限制结果

输出:

  1. 1. IMDB电影评论
数据集ID:imdb 任务:情感分类 语言:en 大小:84.1 MB 下载量:1M+ 网址:https://huggingface.co/datasets/imdb
  1. 2. 斯坦福情感树库
数据集ID:sst2 任务:情感分类 语言:en 大小:7.4 MB 下载量:500K+ 网址:https://huggingface.co/datasets/sst2

UCI机器学习存储库

搜索和下载经典机器学习数据集。

bash

搜索数据集


python scripts/dataset.py uci search classification

按特征搜索

python scripts/dataset.py uci search regression --min-samples 1000

下载数据集

python scripts/dataset.py uci download iris

下载并包含元数据

python scripts/dataset.py uci download wine-quality --include-metadata

搜索选项:

  • - --task-type - 分类、回归、聚类
  • --min-samples - 最小实例数
  • --min-features - 最小特征数
  • --data-type - 表格、文本、图像、时间序列

输出:

  1. 1. 鸢尾花数据集
ID:iris 任务:分类 样本数:150 特征数:4 类别数:3 缺失值:无 网址:https://archive.ics.uci.edu/ml/datasets/iris
  1. 2. 葡萄酒质量
ID:wine-quality 任务:分类/回归 样本数:6497 特征数:11 缺失值:无 网址:https://archive.ics.uci.edu/ml/datasets/wine+quality

Data.gov

搜索美国政府开放数据。

bash

搜索数据集


python scripts/dataset.py datagov search census

按组织筛选搜索

python scripts/dataset.py datagov search health --organization cdc.gov

按主题搜索

python scripts/dataset.py datagov search education --tags schools,students

下载数据集

python scripts/dataset.py datagov download dataset-id

搜索选项:

  • - --organization - 按发布组织筛选
  • --tags - 按标签筛选(逗号分隔)
  • --format - 按格式筛选(csv、json、xml等)
  • --max-results - 限制结果

输出:

  1. 1. 2020年人口普查人口统计数据
组织:census.gov 格式:CSV 大小:125 MB 最后更新:2023-01-15 标签:人口普查、人口统计、人口 网址:https://catalog.data.gov/dataset/...

数据集管理

预览数据集

无需加载整个数据集即可获取快速见解。

bash

基本预览


python scripts/dataset.py preview data.csv

详细统计信息

python scripts/dataset.py preview data.csv --detailed

自定义样本大小

python scripts/dataset.py preview data.csv --sample 20

多个文件

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 dataset-finder-1776340477 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 dataset-finder-1776340477 技能

通过命令行安装

skillhub install dataset-finder-1776340477

下载

⬇ 下载 dataset-finder v0.1.0(免费)

文件大小: 16.47 KB | 发布时间: 2026-4-17 14:50

v0.1.0 最新 2026-4-17 14:50
Initial public release of Dataset Finder.

- Search, download, and explore datasets from Kaggle, Hugging Face, UCI ML Repository, and Data.gov.
- Preview datasets (stats, columns, types, missing values, sample rows).
- Generate data cards with schema, usage, license, and citation details.
- Manage and list local datasets.
- Requires OpenClawCLI for core functionality.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部