返回顶部
e

etl-designETL设计流程

Deep ETL/ELT design workflow—extract patterns, transforms, loading strategies, idempotency, validation, and reconciliation. Use when designing batch data flows between systems or hardening pipelines for correctness.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
132
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

etl-design

ETL 设计

ETL 是变化中的正确性:模式漂移、部分加载、重试以及与上游系统的对账。

何时提供此工作流

触发条件:

  • - 批量加载到数据仓库或数据湖
  • 在CDC、快照和增量水印之间进行选择
  • 下游出现缺失行、重复数据或不一致的聚合结果

初始建议:

使用六个阶段:(1) 源契约,(2) 抽取策略,(3) 转换规则,(4) 加载与去重,(5) 验证,(6) 运维与回填。确认批处理窗口和服务等级协议。



阶段1:源契约

目标: 记录模式、主键、变更指示器(updated_at、CDC日志位置)以及访问限制(速率限制、只读副本)。



阶段2:抽取策略

目标: 全量转储与增量水印与CDC——权衡新鲜度、源负载和复杂性。

实践

  • - 大型数据源使用CDC;小型或不频繁更新的表使用快照

阶段3:转换规则

目标: 确定性转换;代理键;业务规则版本化;处理删除操作(墓碑标记与硬删除)。



阶段4:加载与去重

目标: 更新插入键;分区;可重入作业使用相同批次ID产生相同结果(幂等加载)。



阶段5:验证

目标: 行数、校验和、键唯一性、参照完整性检查;阈值超限时发出告警。



阶段6:运维与回填

目标: 按日期范围重放;监控延迟;将异常行放入死信队列或隔离区并附带原因代码。



最终审查清单

  • - [ ] 源契约和键已记录
  • [ ] 抽取模式符合服务等级协议和源限制
  • [ ] 转换具有确定性和版本化
  • [ ] 幂等加载策略
  • [ ] 验证和对账已定义

有效指导技巧

  • - 在分析路径中规划延迟到达事实和缓慢变化维度。
  • 配合数据管道进行编排和监控。

处理偏差

  • - 近实时场景:单独记录微批次或流式语义。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 etl-design-1776028621 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 etl-design-1776028621 技能

通过命令行安装

skillhub install etl-design-1776028621

下载

⬇ 下载 etl-design v1.0.0(免费)

文件大小: 1.75 KB | 发布时间: 2026-4-13 10:11

v1.0.0 最新 2026-4-13 10:11
Initial release of the etl-design skill, providing a structured ETL/ELT workflow for robust data pipeline design.

- Introduces a six-stage ETL design framework: source contract, extract strategy, transform rules, load & dedupe, validation, and operations & backfill.
- Covers best practices for handling schema drift, partial loads, retries, and data reconciliation.
- Includes detailed guidance for batch data loads, choosing extract modes, and ensuring idempotency and correctness.
- Provides a comprehensive final review checklist and operational tips.
- Clarifies when to use this workflow and considerations for deviations like near-real-time scenarios.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部