李林超博客
首页
归档
留言
友链
动态
关于
归档
留言
友链
动态
关于
首页
大数据
正文
09.数仓建设之数仓规范建设指南
Leefs
2022-09-30 AM
1321℃
0条
[TOC] ### 一、数仓公共开发规范 #### 1)层次调用规范 **稳定业务**按照标准的数据流向进行开发,即 `ODS –> DWD –> DWS –> APP`。**非稳定业务**或探索性需求,可以遵循 `ODS -> DWD -> APP` 或者 `ODS -> DWD -> DWM ->APP` 两个模型数据流。 在保障了数据链路的合理性之后,也必须**保证模型分层引用原则:** - 正常流向:`ODS -> DWD -> DWM -> DWS -> APP`,当出现 `ODS -> DWD -> DWS -> APP` 这种关系时,说明主题域未覆盖全。应将 DWD 数据落到 DWM 中,对于使用频度非常低的表允许 `DWD -> DWS`。 - 尽量避免出现 DWS 宽表中使用 DWD 又使用(该 DWD 所归属主题域)DWM 的表。 - 同一主题域内对于 DWM 生成 DWM 的表,原则上要尽量避免,否则会影响 ETL 的效率。 - DWM、DWS 和 APP 中禁止直接使用 ODS 的表, ODS 的表只能被 DWD 引用。 - **禁止出现反向依赖,**例如 DWM 的表依赖 DWS 的表。 举例: ![09.数仓建设之数仓规范建设指南01.png](https://lilinchao.com/usr/uploads/2022/09/1077139176.png) #### 2)数据类型规范 需统一规定不同的数据的数据类型,严格按照规定的数据类型执行: - 金额:double 或使用 decimal(11,2) 控制精度等,明确单位是分还是元。 - 字符串:string。 - id类:bigint。 - 时间:string。 - 状态:string #### 3)数据冗余规范 宽表的冗余字段要确保: - 冗余字段要使用高频,**下游3个或以上使用。** - 冗余字段引入**不应造成本身数据产生过多的延后。** - 冗余字段**和已有字段的重复率不应过大,原则上不应超过60%,**如需要可以选择join或原表拓展。 #### 4)NULL字段处理规范 - 对于维度字段,需设置为-1 - 对于指标字段,需设置为 0 #### 5)指标口径规范 **保证主题域内,指标口径一致,无歧义。** 通过数据分层,提供统一的数据出口,统一对外输出的数据口径,避免同一指标不同口径的情况发生。 **① 指标梳理** 指标口径的不一致使得数据使用的成本极高,经常出现口径打架、反复核对数据的问题。在数据治理中,我们将需求梳理到的所有指标进行进一步梳理,明确其口径,如果存在两个指标名称相同,但口径不一致,先判断是否是进行合并,如需要同时存在,那么在命名上必须能够区分开。 **② 指标管理** 指标管理分为原子指标维护和派生指标维护。 **原子指标:** - 选择原子指标的归属产线、业务板块、数据域、业务过程 - 选择原子指标的统计数据来源于该业务过程下的原始数据源 - 录入原子指标的英文名称、中文名称、概述 - 填写指标函数 - 系统根据指标函数自动生成原子指标的定义表达式 - 系统根据指标定义表达式以及数据源表生成原子指标SQL **派生指标:** - 在原子指标的基础之上选择了一些维度或者修饰限定词。 #### 6)数据表处理规范 **① 增量表** 新增数据,增量数据是上次导出之后的新数据。 - 记录每次增加的量,而不是总量; - 增量表,只报变化量,无变化不用报; - 每天一个分区。 **② 全量表** 每天的所有的最新状态的数据。 - 全量表,有无变化,都要报; - 每次上报的数据都是所有的数据(变化的 + 没有变化的); - 只有一个分区。 **③ 快照表** 按日分区,记录截止数据日期的全量数据。 - 快照表,有无变化,都要报; - 每次上报的数据都是所有的数据(变化的 + 没有变化的); - 一天一个分区。 **④ 拉链表** 记录截止数据日期的全量数据。 - 记录一个事物从开始,一直到当前状态的所有变化的信息; - 拉链表每次上报的都是历史记录的最终状态,是记录在当前时刻的历史总量; - 当前记录存的是当前时间之前的所有历史记录的最后变化量(总量); - 只有一个分区。 #### 7)表的生命周期管理 这部分主要是要通过对历史数据的等级划分与对表类型的划分生成相应的生命周期管理矩阵。 **① 历史数据等级划分** 主要将历史数据划分P0、Pl、P2、P3 四个等级,其具体定义如下: - **P0 :**非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团 KPI 数据、 IPO 关联表。 - **Pl :**重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。 - **P2 :**重要的业务数据和重要的应用数据,具有可恢复性,如交易线 ETL 产生的中间过程数据。 - **P3 :**不重要的业务数据和不重要的应用数据,具有可恢复性,如某些 SNS 产品报表。 **② 表类型划分** - **事件型流水表(增量表)** 事件型流水表(增量表)指数据无重复或者无主键数据,如日志。 - **事件型镜像表(增量表)** 事件型镜像表(增量表)指业务过程性数据,有主键,但是对于同样主键的属性会发生缓慢变化,如交易、订单状态与时间会根据业务发生变更。 - **维表** 维表包括维度与维度属性数据,如用户表、商品表。 - **Merge 全量表** Merge 全量表包括业务过程性数据或者维表数据。由于数据本身有新增的或者发生状态变更,对于同样主键的数据可能会保留多份,因此可以对这些数据根据主键进行 Merge 操作,主键对应的属性只会保留最新状态,历史状态保留在前一天分区中。例如,用户表、交易表等都可以进行 Merge 操作。 - **ETL 临时表** ETL 临时表是指 ETL 处理过程中产生的临时表数据,一般不建议保留,最多7天。 - **TT 临时数据** TT 拉取的数据和 DbSync 产生的临时数据最终会流转到 DS 层,ODS 层数据作为原始数据保留下来,从而使得 `TT&DbSync` 上游数据成为临时数据。这类数据不建议保留很长时间,生命周期默认设置为 93天,可以根据实际情况适当减少保留天数。 - **普通全量表** 很多小业务数据或者产品数据,BI一般是直接全量拉取,这种方式效率快,对存储压力也不是很大,而且表保留很长时间,可以根据历史数据等级确定保留策略。 通过上述历史数据等级划分与表类型划分,生成相应的生命周期管理矩阵,如下表所示: ![09.数仓建设之数仓规范建设指南02.png](https://lilinchao.com/usr/uploads/2022/09/364715931.png) ### 二、数仓各层开发规范 #### 1)ODS层设计规范 **① 同步规范:** - 一个系统源表只允许同步一次; - 全量初始化同步和增量同步处理逻辑要清晰; - 以统计日期和时间进行分区存储; - 目标表字段在源表不存在时要自动填充处理。 **② 表分类与生命周期:** - **ods流水全量表:** - 不可再生的永久保存; - 日志可按留存要求; - 按需设置保留特殊日期数据; - 按需设置保留特殊月份数据; + **ods镜像型全量表:** - 推荐按天存储; - 对历史变化进行保留; - 最新数据存储在最大分区; - 历史数据按需保留; - **ods增量数据:** + 推荐按天存储; + 有对应全量表的,建议只保留14天数据; + 无对应全量表的,永久保留; - **ods的etl过程中的临时表:** + 推荐按需保留; + 最多保留7天; + 建议用完即删,下次使用再生成; - **BDSync非去重数据:** - 通过中间层保留,默认用完即删,不建议保留。 **数据质量**: + 全量表必须配置唯一性字段标识; + 对分区空数据进行监控; + 对枚举类型字段,进行枚举值变化和分布监控; + ods表数据量级和记录数做环比监控; + ods全表都必须要有注释; #### 2)公共维度层设计规范 **① 设计准则** - **一致性** 公共维度在不同的物理表中的字段名称、数据类型、数据内容必须保持一致(历史原因不一致,要做好版本控制) - **维度的组合与拆分** + **组合原则:** 将维度与关联性强的字段进行组合,一起查询,一起展示,两个维度必须具有天然的关系,如:商品的基本属性和所属品牌。 无相关性:如一些使用频率较小的杂项维度,可以构建一个集合杂项维度的特殊属性。 行为维度:经过计算的度量,但下游当维度处理,例:点击量 0-1000,100-1000等,可以做聚合分类。 + **拆分与冗余:** 针对重要性,业务相关性、源、使用频率等可分为核心表、扩展表。 数据记录较大的维度,可以适当冗余一些子集。 **② 存储及生命周期管理** 建议按天分区。 - 3个月内最大访问跨度<=4天时,建议保留最近7天分区; - 3个月内最大访问跨度<=12天时,建议保留最近15天分区; - 3个月内最大访问跨度<=30天时,建议保留最近33天分区; - 3个月内最大访问跨度<=90天时,建议保留最近120天分区; - 3个月内最大访问跨度<=180天时,建议保留最近240天分区; - 3个月内最大访问跨度<=300天时,建议保留最近400天分区; #### 3)DWD明细层设计规范 **① 存储及生命周期管理** 建议按天分区。 - 3个月内最大访问跨度<=4天时,建议保留最近7天分区; - 3个月内最大访问跨度<=12天时,建议保留最近15天分区; - 3个月内最大访问跨度<=30天时,建议保留最近33天分区; - 3个月内最大访问跨度<=90天时,建议保留最近120天分区; - 3个月内最大访问跨度<=180天时,建议保留最近240天分区; - 3个月内最大访问跨度<=300天时,建议保留最近400天分区; **② 事务型事实表设计准则** - 基于数据应用需求的分析设计事务型事实表,结合下游较大的针对某个业务过程和分析指标需求,可考虑基于某个事件过程构建事务型事实表; - 一般选用事件的发生日期或时间作为分区字段,便于扫描和裁剪; - 冗余子集原则,有利于降低后续IO开销; - 明细层事实表维度退化,减少后续使用join成本。 **③ 周期快照事实表** - 周期快照事实表中的每行汇总了发生在某一标准周期,如某一天、某周、某月的多个度量事件。 - 粒度是周期性的,不是个体的事务。 - 通常包含许多事实,因为任何与事实表粒度一致的度量事件都是被允许的。 **④ 累积快照事实表** - 多个业务过程联合分析而构建的事实表,如采购单的流转环节。 - 用于分析事件时间和时间之间的间隔周期。 - 少量的且当前事务型不支持的,如关闭、发货等相关的统计。 **4)DWS公共汇总层设计规范** 数据仓库的性能是数据仓库建设是否成功的重要标准之一。**聚集主要是通过汇总明细粒度数据来获得改进查询性能的效果**。通过访问聚集数据,可以减少数据库在响应查询时必须执行的工作量,能够快速响应用户的查询,同时有利于减少不同用访问明细数据带来的结果不一致问题。 **① 聚集的基本原则** - **一致性。**聚集表必须提供与查询明细粒度数据一致的查询结果。 - **避免单一表设计。**不要在同一个表中存储不同层次的聚集数据。 - **聚集粒度可不同。**聚集并不需要保持与原始明细粒度数据一样的粒度,聚集只关心所需要查询的维度。 **② 聚集的基本步骤** - **第一步:确定聚集维度** 在原始明细模型中会存在多个描述事实的维度,如日期、商品类别、卖家等,这时候需要确定根据什么维度聚集,如果只关心商品的交易额情况,那么就可以根据商品维度聚集数据。 - **第二步:确定一致性上钻** 这时候要关心是按月汇总还是按天汇总,是按照商品汇总还是按照类目汇总,如果按照类目汇总,还需要关心是按照大类汇总还是小类汇总。当然,我们要做的只是了解用户需要什么,然后按照他们想要的进行聚集。 - **第三步:确定聚集事实** 在原始明细模型中可能会有多个事实的度量,比如在交易中有交易额、交易数量等,这时候要明确是按照交易额汇总还是按照成交数量汇总。 **③ 公共汇总层设计原则** 除了聚集基本的原则外,公共汇总层还必须遵循以下原则: - **数据公用性。**汇总的聚集会有第三者使用吗?基于某个维度的聚集是不是经常用于数据分析中?如果答案是肯定的,那么就有必要把明细数据经过汇总沉淀到聚集表中。 - **不跨数据域。**数据域是在较高层次上对数据进行分类聚集的抽象。如以业务 - **区分统计周期。**在表的命名上要能说明数据的统计周期,如 _Id 表示最近1天,_td 表示截至当天,_nd 表示最近N天。 ### 三、数仓命名规范 **1)词根设计规范** 词根属于数仓建设中的规范,属于元数据管理的范畴,现在把这个划到数据治理的一部分。完整的数仓建设是包含数据治理的,只是现在谈到数仓偏向于数据建模, 而谈到数据治理,更多的是关于数据规范、数据管理。 表命名,其实在很大程度上是对元数据描述的一种体现,表命名规范越完善,我 们能从表名获取到的信息就越多。比如:一部分业务是关于货架的,英文名是:rack, rack 就是一个词根,那我们就在所有的表、字段等用到的地方都叫 rack,不要叫成别的什么。这就是词根的作用,用来统一命名,表达同一个含义。 指标体系中有很多“率”的指标,都可以拆解成 XXX+率,率可以叫 rate,那我们所有的指标都叫做 XXX+rate。 **词根:可以用来统一表名、字段名、主题域名等等。** 举例:以流程图的方式来展示,更加直观和易懂,本图侧重 dwm 层表的命名规范,其余命名是类似的道理: ![09.数仓建设之数仓规范建设指南03.png](https://lilinchao.com/usr/uploads/2022/09/3605465762.png) 第一个判断条件是该表的用途,是中间表、原始日志还是业务展示用的表如果该表被判断为中间表,就会走入下一个判断条件:表是否有 group 操作 通过是否有 group 操作来判断该表该划分在 dwd 层还是 dwm 和 dws 层如果不是 dwd 层,则需要判断该表是否是多个行为的汇总表(即宽表) 最后再分别填上事业群、部门、业务线、自定义名称和更新频率等信息即可。 **分层:**表的使用范围 **事业群和部门:**生产该表或者该数据的团队 **业务线:**表明该数据是哪个产品或者业务线相关 **主题域:**分析问题的角度,对象实体 **自定义:**一般会尽可能多描述该表的信息,比如活跃表、留存表等 **更新周期**:比如说天级还是月级更新 数仓表的命名规范如下: - **数仓层次:** + 公用维度:dim + DM层:dm + ODS层:ods + WD层:dwd + DWS层:dws + **周期/数据范围**: - 日快照:d - 增量:i - 全量:f - 周:w - 拉链表:l - 非分区全量表:a **2)表命名规范** **① 常规表** 常规表是我们需要固化的表,是正式使用的表,是目前一段时间内需要去维护去 完善的表。 **规范:分层前缀[dwd|dws|ads]_部门_业务域_主题域_XXX_更新周期|数据范围** 业务域、主题域我们都可以用词根的方式枚举清楚,不断完善。 更新周期主要的是时间粒度、日、月、年、周等。 **② 中间表** 中间表一般出现在 Job 中,是 Job 中临时存储的中间数据的表,中间表的作用域只限于当前 Job 执行过程中,Job 一旦执行完成,该中间表的使命就完成了,是可以删除的(按照自己公司的场景自由选择,以前公司会保留几天的中间表数据,用来排查问题)。 **规范:mid_table_name_[0~9|dim]** table_name 是我们任务中目标表的名字,通常来说一个任务只有一个目标表。这里加上表名,是为了防止自由发挥的时候表名冲突,而末尾大家可以选择自由发挥,起一些有意义的名字,或者简单粗暴,使用数字代替,各有优劣吧,谨慎选择。 通常会遇到需要补全维度的表,这里使用 dim 结尾。 如果要保留历史的中间表,可以加上日期或者时间戳。 **③ 临时表** 临时表是临时测试的表,是临时使用一次的表,就是暂时保存下数据看看,后续一般不再使用的表,是可以随时删除的表。 **规范:tmp_xxx** 只要加上 tmp 开头即可,其他名字随意,注意 tmp 开头的表不要用来实际使用,只是测试验证而已。 **④ 维度表** 维度表是基于底层数据,抽象出来的描述类的表。维度表可以自动从底层表抽象出来,也可以手工来维护。 **规范:dim_xxx** 维度表,统一以 dim 开头,后面加上,对该指标的描述。 **⑤ 手工表** 手工表是手工维护的表,手工初始化一次之后,一般不会自动改变,后面变更,也是手工来维护。 一般来说,手工的数据粒度是偏细的,所以暂时统一放在 dwd 层,后面如果有目标值或者其他类型手工数据,再根据实际情况分层。 **规范:`dwd_业务域_manual_xxx`** 手工表,增加特殊的主题域,manual,表示手工维护表。 **3)指标命名规范** **① 公共规则** - 所有单词小写 - 单词之间下划线分割(反例:appName 或 AppName) - 可读性优于长度 (词根,避免出现同一个指标,命名一致性) - 禁止使用 sql 关键字,如字段名与关键字冲突时 +col - 数量字段后缀 _cnt 等标识... - 金额字段后缀 _price 标识 - 天分区使用字段 dt,格式统一(yyyymmdd 或 yyyy-mm-dd) - 小时分区使用字段 hh,范围(00-23) - 分钟分区使用字段 mi,范围(00-59) - 布尔类型标识:is_{业务},不允许出现空值 *原文链接地址* *https://mp.weixin.qq.com/s/gCEXqGKkXrLvEC1zpUOoNQ*
标签:
DataWarehouse
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:
https://lilinchao.com/archives/2424.html
上一篇
08.数仓建设之数据质量建设
下一篇
01.并发编程之进程与线程概述
评论已关闭
栏目分类
随笔
2
Java
326
大数据
229
工具
31
其它
25
GO
47
NLP
4
标签云
排序
字符串
Spark RDD
DataWarehouse
Hadoop
查找
Jenkins
Netty
FastDFS
Zookeeper
JavaSE
Ubuntu
Elastisearch
Spark SQL
Redis
MyBatis
栈
人工智能
Flink
Thymeleaf
哈希表
并发编程
Spark
锁
算法
Spring
Java编程思想
LeetCode刷题
散列
GET和POST
友情链接
申请
范明明
庄严博客
Mx
陶小桃Blog
虫洞
评论已关闭