返回顶部
s

senior-data-engineer高级数据工程

Data engineering skill for building scalable data pipelines, ETL/ELT systems, and data infrastructure. Expertise in Python, SQL, Spark, Airflow, dbt, Kafka, and modern data stack. Includes data modeling, pipeline orchestration, data quality, and DataOps. Use when designing data architectures, building data pipelines, optimizing data workflows, implementing data governance, or troubleshooting data issues.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 2.1.1
安全检测
已通过
2,619
下载量
免费
免费
3
收藏
概述
安装方式
版本历史

senior-data-engineer

高级数据工程师

用于构建可扩展、可靠数据系统的生产级数据工程技能。

目录

  1. 1. 触发短语
  2. 快速入门
  3. 工作流程
- 构建批量ETL管道 - 实现实时流处理 - 数据质量框架搭建
  1. 4. 架构决策框架
  2. 技术栈
  3. 参考文档
  4. 故障排除

触发短语

遇到以下情况时激活此技能:

管道设计:

  • - 为……设计数据管道
  • 构建ETL/ELT流程……
  • 如何从……摄取数据
  • 设置从……的数据提取

架构:

  • - 应该使用批处理还是流处理?
  • Lambda与Kappa架构
  • 如何处理延迟到达的数据
  • 设计数据湖仓一体

数据建模:

  • - 创建维度模型……
  • 星型模式与雪花模式
  • 实现缓慢变化维度
  • 设计数据仓库

数据质量:

  • - 为……添加数据验证
  • 设置数据质量检查
  • 监控数据新鲜度
  • 实施数据契约

性能:

  • - 优化此Spark作业
  • 查询运行缓慢
  • 减少管道执行时间
  • 调优Airflow DAG



快速入门

核心工具

bash

生成管道编排配置


python scripts/pipeline_orchestrator.py generate \
--type airflow \
--source postgres \
--destination snowflake \
--schedule 0 5 *

验证数据质量

python scripts/dataqualityvalidator.py validate \ --input data/sales.parquet \ --schema schemas/sales.json \ --checks freshness,completeness,uniqueness

优化ETL性能

python scripts/etlperformanceoptimizer.py analyze \ --query queries/daily_aggregation.sql \ --engine spark \ --recommend

工作流程

→ 详见 references/workflows.md

架构决策框架

使用此框架为数据管道选择正确的方法。

批处理与流处理

标准批处理流处理
延迟要求数小时到数天数秒到数分钟
数据量
大型历史数据集 | 连续事件流 | | 处理复杂度 | 复杂转换、机器学习 | 简单聚合、过滤 | | 成本敏感性 | 更具成本效益 | 基础设施成本较高 | | 错误处理 | 易于重新处理 | 需要精心设计 |

决策树:

是否需要实时洞察?
├── 是 → 使用流处理
│ └── 是否需要精确一次语义?
│ ├── 是 → Kafka + Flink/Spark Structured Streaming
│ └── 否 → Kafka + 消费者组
└── 否 → 使用批处理
└── 每日数据量是否超过1TB?
├── 是 → Spark/Databricks
└── 否 → dbt + 仓库计算

Lambda与Kappa架构

方面LambdaKappa
复杂度两套代码库(批处理+流处理)单一代码库
维护
较高(需同步批处理/流处理逻辑) | 较低 | | 重新处理 | 原生批处理层 | 从源头重放 | | 用例 | 机器学习训练+实时服务 | 纯事件驱动 |

何时选择Lambda:

  • - 需要在历史数据上训练机器学习模型
  • 流处理中无法实现的复杂批量转换
  • 已有批量处理基础设施

何时选择Kappa:

  • - 事件溯源架构
  • 所有处理均可表示为流操作
  • 全新开始,无遗留系统

数据仓库与数据湖仓一体

特性数据仓库(Snowflake/BigQuery)数据湖仓一体(Delta/Iceberg)
最佳用途商业智能、SQL分析机器学习、非结构化数据
存储成本
较高(专有格式) | 较低(开放格式) | | 灵活性 | 写入时定义模式 | 读取时定义模式 | | 性能 | SQL性能卓越 | 良好,持续改进 | | 生态系统 | 成熟的商业智能工具 | 不断增长的机器学习工具 |

技术栈

类别技术
语言Python, SQL, Scala
编排
Airflow, Prefect, Dagster | | 转换 | dbt, Spark, Flink | | 流处理 | Kafka, Kinesis, Pub/Sub | | 存储 | S3, GCS, Delta Lake, Iceberg | | 仓库 | Snowflake, BigQuery, Redshift, Databricks | | 质量 | Great Expectations, dbt tests, Monte Carlo | | 监控 | Prometheus, Grafana, Datadog |

参考文档

1. 数据管道架构

详见 references/datapipelinearchitecture.md:
  • - Lambda与Kappa架构模式
  • 使用Spark和Airflow的批处理
  • 使用Kafka和Flink的流处理
  • 精确一次语义实现
  • 错误处理和死信队列

2. 数据建模模式

详见 references/datamodelingpatterns.md:
  • - 维度建模(星型/雪花型)
  • 缓慢变化维度(SCD类型1-6)
  • 数据仓库建模
  • dbt最佳实践
  • 分区和聚簇

3. DataOps最佳实践

详见 references/dataopsbestpractices.md:
  • - 数据测试框架
  • 数据契约和模式验证
  • 数据管道的CI/CD
  • 可观测性和血缘关系
  • 事件响应

故障排除

→ 详见 references/troubleshooting.md

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 senior-data-engineer-1776349821 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 senior-data-engineer-1776349821 技能

通过命令行安装

skillhub install senior-data-engineer-1776349821

下载

⬇ 下载 senior-data-engineer v2.1.1(免费)

文件大小: 71.63 KB | 发布时间: 2026-4-17 15:16

v2.1.1 最新 2026-4-17 15:16
v2.1.1: optimization, reference splits

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部