Datasets
A data processing toolkit for ingesting, transforming, querying, and managing dataset entries from the command line. All operations are logged with timestamps and stored locally.
Commands
Data Operations
Each data command works in two modes: run without arguments to view recent entries, or pass input to record a new entry.
| Command | Description |
|---|
| INLINECODE0 | Ingest data — record a new ingest entry or view recent ones |
| INLINECODE1 |
Transform data — record a transformation or view recent ones |
|
datasets query <input> | Query data — record a query or view recent ones |
|
datasets filter <input> | Filter data — record a filter operation or view recent ones |
|
datasets aggregate <input> | Aggregate data — record an aggregation or view recent ones |
|
datasets visualize <input> | Visualize data — record a visualization or view recent ones |
|
datasets export <input> | Export data — record an export entry or view recent ones |
|
datasets sample <input> | Sample data — record a sample or view recent ones |
|
datasets schema <input> | Schema management — record a schema entry or view recent ones |
|
datasets validate <input> | Validate data — record a validation or view recent ones |
|
datasets pipeline <input> | Pipeline management — record a pipeline step or view recent ones |
|
datasets profile <input> | Profile data — record a profile or view recent ones |
Utility Commands
| Command | Description |
|---|
| INLINECODE12 | Show summary statistics — entry counts per category, total entries, disk usage |
| INLINECODE13 |
Export all data to a file (formats:
json,
csv,
txt) |
|
datasets search <term> | Search all log files for a term (case-insensitive) |
|
datasets recent | Show last 20 entries from activity history |
|
datasets status | Health check — version, data directory, entry count, disk usage, last activity |
|
datasets help | Show available commands |
|
datasets version | Show version (v2.0.0) |
Data Storage
All data is stored locally at ~/.local/share/datasets/:
- - Each data command writes to its own log file (e.g.,
ingest.log, transform.log) - Entries are stored as
timestamp|value pairs (pipe-delimited) - All actions are tracked in
history.log with timestamps - Export generates files in the data directory (
export.json, export.csv, or export.txt)
Requirements
- - Bash (with
set -euo pipefail) - Standard Unix utilities:
date, wc, du, grep, tail, cat, INLINECODE37 - No external dependencies or API keys required
When to Use
- - To log and track data processing operations (ingest, transform, query, etc.)
- To maintain a searchable history of data pipeline activities
- To export accumulated records in JSON, CSV, or plain text format
- As part of larger automation or data-pipeline workflows
- When you need a lightweight, local-only dataset operation tracker
Examples
CODEBLOCK0
Powered by BytesAgain | bytesagain.com | hello@bytesagain.com
💬 Feedback & Feature Requests: https://bytesagain.com/feedback
数据集
一个用于从命令行摄取、转换、查询和管理数据集条目的数据处理工具包。所有操作均带有时间戳记录并存储在本地。
命令
数据操作
每个数据命令有两种工作模式:不带参数运行可查看最近条目,或传递输入以记录新条目。
| 命令 | 描述 |
|---|
| datasets ingest <输入> | 摄取数据 — 记录新的摄取条目或查看最近条目 |
| datasets transform <输入> |
转换数据 — 记录转换操作或查看最近条目 |
| datasets query <输入> | 查询数据 — 记录查询或查看最近条目 |
| datasets filter <输入> | 过滤数据 — 记录过滤操作或查看最近条目 |
| datasets aggregate <输入> | 聚合数据 — 记录聚合操作或查看最近条目 |
| datasets visualize <输入> | 可视化数据 — 记录可视化操作或查看最近条目 |
| datasets export <输入> | 导出数据 — 记录导出条目或查看最近条目 |
| datasets sample <输入> | 采样数据 — 记录采样或查看最近条目 |
| datasets schema <输入> | 模式管理 — 记录模式条目或查看最近条目 |
| datasets validate <输入> | 验证数据 — 记录验证操作或查看最近条目 |
| datasets pipeline <输入> | 管道管理 — 记录管道步骤或查看最近条目 |
| datasets profile <输入> | 分析数据 — 记录分析或查看最近条目 |
实用命令
| 命令 | 描述 |
|---|
| datasets stats | 显示汇总统计 — 每类条目数、总条目数、磁盘使用量 |
| datasets export <格式> |
将所有数据导出到文件(格式:json、csv、txt) |
| datasets search <词条> | 在所有日志文件中搜索词条(不区分大小写) |
| datasets recent | 显示活动历史中最近20条条目 |
| datasets status | 健康检查 — 版本、数据目录、条目数、磁盘使用量、最近活动 |
| datasets help | 显示可用命令 |
| datasets version | 显示版本(v2.0.0) |
数据存储
所有数据本地存储在 ~/.local/share/datasets/:
- - 每个数据命令写入其自己的日志文件(例如 ingest.log、transform.log)
- 条目存储为 时间戳|值 对(管道符分隔)
- 所有操作在 history.log 中记录并带有时间戳
- 导出在数据目录中生成文件(export.json、export.csv 或 export.txt)
要求
- - Bash(使用 set -euo pipefail)
- 标准Unix工具:date、wc、du、grep、tail、cat、sed
- 无需外部依赖或API密钥
使用场景
- - 记录和跟踪数据处理操作(摄取、转换、查询等)
- 维护可搜索的数据管道活动历史
- 以JSON、CSV或纯文本格式导出累积的记录
- 作为更大自动化或数据管道工作流程的一部分
- 当需要轻量级、仅本地的数据集操作跟踪器时
示例
bash
记录新的摄取条目
datasets ingest 已加载 training_data.csv 10000行
查看最近的转换条目
datasets transform
记录查询
datasets query 按日期 > 2026-01-01 过滤
在所有日志中搜索
datasets search training
以JSON格式导出所有内容
datasets export json
检查总体统计信息
datasets stats
查看最近活动
datasets recent
健康检查
datasets status
由BytesAgain提供 | bytesagain.com | hello@bytesagain.com
💬 反馈与功能请求:https://bytesagain.com/feedback