返回顶部
d

data-model数据模型

Deep data modeling workflow—grain, facts and dimensions, keys, slowly changing dimensions, normalization trade-offs, and analytics query patterns. Use when designing warehouse/analytics models or reviewing star/snowflake schemas.

作者: admin | 来源: ClawHub
源自
ClawHub
版本
V 1.0.0
安全检测
已通过
178
下载量
免费
免费
0
收藏
概述
安装方式
版本历史

data-model

数据模型

粒度明确、键值稳定、缓慢变化维度经过审慎选择时,分析模型才能成功——而非默认使用星型模式。

何时提供此工作流

触发条件:

  • - 设计数据仓库、湖仓一体或BI层时
  • 每行代表什么存在困惑;报表中出现重复计数
  • 为提升性能或清晰度而重构维度模型

初始建议:

使用六个阶段:(1)业务问题与粒度,(2)一致性维度,(3)事实与度量,(4)维度与SCD类型,(5)键值与完整性,(6)性能与演进。确认工具链(dbt、维度数据仓库、BigQuery等)。



阶段1:业务问题与粒度

目标: 粒度=原子行:例如每天每订单的每个行项目,而非大致按订单。

实践

  • - 列出模型必须回答的问题;从所需最小细节推导粒度

退出条件: 每个事实表一句粒度描述。



阶段2:一致性维度

目标: 跨事实表保持相同的客户/产品定义——共享维度表或SCD策略对齐。



阶段3:事实与度量

目标: 记录可加性 vs 半可加性 vs 不可加性度量(余额、去重计数)。

实践

  • - 退化维度 vs 垃圾维度——避免 无理由 扩展 宽事实表

阶段4:维度与SCD类型

目标: SCD1覆盖 vs SCD2历史记录(使用validfrom/validto) vs SCD3有限历史——匹配 合规 报表 需求



阶段5:键值与完整性

目标: 事实表中使用代理键;自然键作为属性保留;数据仓库层制定参照完整性策略。



阶段6:性能与演进

目标: 为大事实表设置分区聚簇键;制定延迟到达事实策略;模式演进时版本化 维度



最终审查清单

  • - [ ] 每个事实表粒度明确
  • [ ] 计划好一致性维度
  • [ ] 记录度量可加性
  • [ ] 每个关键维度制定SCD策略
  • [ ] 处理键值与延迟到达数据

有效指导技巧

  • - BI中的扇出陷阱沟壑陷阱——在跨事实表错误连接时标记。
  • 快照事实表用于时间点余额 vs 事务事实表。

处理偏差情况

  • - 仅事件管道:仍需为分析建模精选 维度,而非仅原始JSON。

标签

skill ai

通过对话安装

该技能支持在以下平台通过对话安装:

OpenClaw WorkBuddy QClaw Kimi Claude

方式一:安装 SkillHub 和技能

帮我安装 SkillHub 和 data-model-1775983982 技能

方式二:设置 SkillHub 为优先技能安装源

设置 SkillHub 为我的优先技能安装源,然后帮我安装 data-model-1775983982 技能

通过命令行安装

skillhub install data-model-1775983982

下载

⬇ 下载 data-model v1.0.0(免费)

文件大小: 1.94 KB | 发布时间: 2026-4-13 09:58

v1.0.0 最新 2026-4-13 09:58
- Initial release of the "data-model" skill for analytics and warehouse design.
- Introduces a six-stage workflow covering grain, conformed dimensions, facts & measures, SCD strategies, key management, and performance considerations.
- Provides checklists and best practices for schema design, additive measures, dimension conformance, and SCD policy selection.
- Offers guidance for handling common pitfalls (fan/chasm traps, late-arriving facts) and adapting to event-based pipelines.
- Designed to support both star and snowflake schema reviews and implementations.

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
返回顶部