data-analysis-sql

大数据开发工程师技能，专注于数据分析、SQL 开发、数仓建模和知识库维护。

核心工作流

写 SQL

1. 澄清需求 — 确认指标定义、数据源、时间口径、排除逻辑、输出格式
确认数据源 — 参考 references/multi-engine.md 选择目标引擎，参考 references/schema-guide.md 理解表结构
分层设计 — 判断放在哪层（ODS/DWD/DWS/ADS），避免跨层直接查询
编写 SQL — 按 references/sql-guide.md 规范编写，优先用 CTE
安全检查 — 按 references/join-rules.md 逐项过检查清单（tenantkey / del_flag / 防零 / 类型兼容）
性能评估 — 检查数据倾斜、JOIN 爆炸因子、全表扫描风险
验证口径 — 与现有报表或指标交叉验证

改 SQL

1. 理解原 SQL 意图（画出数据流：读哪张表 → 做什么计算 → 输出什么）
找到需修改的部分（口径？字段？条件？逻辑？）
改完整体走查：JOIN 方向、NULL 处理、分母防零、边界日期
对比旧 SQL 与新 SQL 输出差异（样本数据验证）

数仓建模

参考 references/schema-guide.md：

- 确定主题域 → 选择事实表/维度表类型 → 设计拉链/快照/累计表
维度退化、缓慢变化维（SCD）处理
命名规范、分层规范

ETL 管线

参考 references/pipeline-patterns.md：

- 全量/增量/CDC 策略选择
任务依赖编排、故障恢复
数据回溯与重刷机制

数据质量

参考 references/data-quality.md：

- 空值率、重复率、波动检测
端到端数据探查流程
异常数据识别与处理

业务指标设计

参考 references/business-metrics.md：

- 指标设计标准流程（7问）
交付准时率、Flow Time、需求缺陷密度、用例通过率完整 SQL 模板
按租户/项目维度的统一扩展模式
指标公式模板

SQL 踩坑修复

参考 references/sql-pitfalls.md：

- 时间字段毫秒时间戳处理
关联表无 tenantkey 的处理
PostgreSQL ROWNUMBER 替代 Oracle KEEP
CTE 别名与列别名冲突解决
delflag 过滤遗漏检查
防踩坑检查清单

知识库目录生成与维护

参考 references/knowledge-base.md：

- 按领域划分目录结构（schema / metrics / relations / enums）
从 xlsx 批量解析表结构、指标 SQL、枚举值，生成 Markdown 文档
从 SQL 自动提取表关联关系，生成 relations.md
README 总索引自动维护

文档自动生成与迁移

参考 references/doc-guide.md：

- 交互式生成表结构 Markdown 文档
从用户输入的表结构文本自动解析并生成文档
SQL 摘要提取（数据源、CTE、过滤条件、输出字段）
完整迁移文档打包生成（表结构 + SQL 清单）
触发词：整理文档、生成 md、迁移文档、沉淀一下

工具脚本

脚本	用途
INLINECODE11	SQL 格式化，统一风格
INLINECODE12

两段 SQL 逻辑对比，输出差异摘要 |
| scripts/doc_generator.py | 表结构文档自动生成，支持交互式/API调用 |

多引擎参考

引擎	适用场景	参考
Hive / SparkSQL	离线大宽表、数仓批处理	references/multi-engine.md
Presto / Trino

References 索引

文件	内容
INLINECODE14	SQL 编写规范（CTE/命名/注释/格式）
INLINECODE15

data-analysis-sql

大数据开发工程师技能，专注于数据分析、SQL 开发、数仓建模和知识库维护。

核心工作流

写 SQL

1. 澄清需求 — 确认指标定义、数据源、时间口径、排除逻辑、输出格式
确认数据源 — 参考 references/multi-engine.md 选择目标引擎，参考 references/schema-guide.md 理解表结构
分层设计 — 判断放在哪层（ODS/DWD/DWS/ADS），避免跨层直接查询
编写 SQL — 按 references/sql-guide.md 规范编写，优先用 CTE
安全检查 — 按 references/join-rules.md 逐项过检查清单（tenantkey / del_flag / 防零 / 类型兼容）
性能评估 — 检查数据倾斜、JOIN 爆炸因子、全表扫描风险
验证口径 — 与现有报表或指标交叉验证

改 SQL

1. 理解原 SQL 意图（画出数据流：读哪张表 → 做什么计算 → 输出什么）
找到需修改的部分（口径？字段？条件？逻辑？）
改完整体走查：JOIN 方向、NULL 处理、分母防零、边界日期
对比旧 SQL 与新 SQL 输出差异（样本数据验证）

数仓建模

参考 references/schema-guide.md：

- 确定主题域 → 选择事实表/维度表类型 → 设计拉链/快照/累计表
维度退化、缓慢变化维（SCD）处理
命名规范、分层规范

ETL 管线

参考 references/pipeline-patterns.md：

- 全量/增量/CDC 策略选择
任务依赖编排、故障恢复
数据回溯与重刷机制

数据质量

参考 references/data-quality.md：

- 空值率、重复率、波动检测
端到端数据探查流程
异常数据识别与处理

业务指标设计

参考 references/business-metrics.md：

- 指标设计标准流程（7问）
交付准时率、Flow Time、需求缺陷密度、用例通过率完整 SQL 模板
按租户/项目维度的统一扩展模式
指标公式模板

SQL 踩坑修复

参考 references/sql-pitfalls.md：

- 时间字段毫秒时间戳处理
关联表无 tenantkey 的处理
PostgreSQL ROWNUMBER 替代 Oracle KEEP
CTE 别名与列别名冲突解决
delflag 过滤遗漏检查
防踩坑检查清单

知识库目录生成与维护

参考 references/knowledge-base.md：

- 按领域划分目录结构（schema / metrics / relations / enums）
从 xlsx 批量解析表结构、指标 SQL、枚举值，生成 Markdown 文档
从 SQL 自动提取表关联关系，生成 relations.md
README 总索引自动维护

文档自动生成与迁移

参考 references/doc-guide.md：

- 交互式生成表结构 Markdown 文档
从用户输入的表结构文本自动解析并生成文档
SQL 摘要提取（数据源、CTE、过滤条件、输出字段）
完整迁移文档打包生成（表结构 + SQL 清单）
触发词：整理文档、生成 md、迁移文档、沉淀一下

工具脚本

脚本	用途
scripts/sqlformatter.py	SQL 格式化，统一风格
scripts/sqldiff.py

两段 SQL 逻辑对比，输出差异摘要 |
| scripts/doc_generator.py | 表结构文档自动生成，支持交互式/API调用 |

多引擎参考

引擎	适用场景	参考
Hive / SparkSQL	离线大宽表、数仓批处理	references/multi-engine.md
Presto / Trino

References 索引

文件	内容
references/sql-guide.md	SQL 编写规范（CTE/命名/注释/格式）
references/join-rules.md

data-analysis-sql数据分析与SQL