返回顶部
d

data-pipelines数据管道工作流

Deep data pipeline workflow—ingestion, orchestration, idempotency, data quality, SLAs, observability, and lineage. Use when building batch/stream pipelines, debugging job failures, or hardening ETL/ELT.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
105
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

data-pipelines

数据管道

管道会在静默模式漂移、部分写入和所有权不明确时失败。应设计为至少一次交付、幂等接收端和可观测的阶段。

何时提供此工作流

触发条件:

  • - 批量或流式数据摄入(Kafka、Fivetran、Airflow、Dagster、Spark 等)
  • 延迟数据、回填或导致任务失败的 schema 变更
  • 数据新鲜度或行数未达到 SLA 要求

初始建议:

使用 六个阶段:(1) 需求与 SLA,(2) 源端契约,(3) 转换与幂等性,(4) 编排与依赖,(5) 质量与监控,(6) 血缘与运维。确认批处理与流处理模式及云技术栈。



阶段 1:需求与 SLA

目标: 数据新鲜度(延迟)、完整性预期、成本上限、故障容忍策略(隔离 vs 停止流水线)。

退出条件: SLA 表:管道 → 指标 → 阈值。



阶段 2:源端契约

目标: Schema 版本管理;CDC 与快照拉取;API 速率限制。

实践

  • - 原始落地层不可变;下游构建分层数据集

阶段 3:转换与幂等性

目标: 确定性转换;更新键;支持回滚的分区策略。

实践

  • - 增量加载的水印进度追踪

阶段 4:编排与依赖

目标: 清晰的 DAG;重试策略;无重复计数的回填;SLA 未达标告警。



阶段 5:质量与监控

目标: 数据质量检查(空值激增、行数边界、参照完整性检查);延迟、持续时间、错误率指标。



阶段 6:血缘与运维

目标: 有价值的列级血缘;值班手册;每个管道的所有权归属。



最终审查清单

  • - [ ] 明确 SLA 和故障策略
  • [ ] 源端契约和 schema 演进路径
  • [ ] 幂等写入和检查点机制
  • [ ] 带重试和安全回填的编排
  • [ ] 数据质量检查和告警
  • [ ] 记录血缘和所有权

有效指导技巧

  • - 针对大规模数据混洗,将计算成本与存储成本分开考量。
  • 配合 etl-design 处理批处理模式,配合 message-queues 处理流式传输交接。

处理偏差情况

  • - 单脚本管道:仍需记录输入、输出和调度计划。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 data-pipelines-1775984118 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 data-pipelines-1775984118 技能

通过命令行安装

skillhub install data-pipelines-1775984118

下载

⬇ 下载 data-pipelines v1.0.0(免费)

文件大小: 1.84 KB | 发布时间: 2026-4-13 09:58

v1.0.0 最新 2026-4-13 09:58
- Initial release of the "data-pipelines" skill.
- Provides a comprehensive workflow covering ingestion, orchestration, idempotency, data quality, SLAs, observability, and lineage.
- Includes six structured stages: requirements & SLAs, source contracts, transforms & idempotency, orchestration & dependencies, quality & monitoring, and lineage & operations.
- Offers trigger conditions for when the workflow is relevant and a detailed checklist for final review.
- Contains practical tips and guidance for both batch and streaming pipelines, with emphasis on reliability and clarity.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部