李林超博客
首页
归档
留言
友链
动态
关于
归档
留言
友链
动态
关于
首页
大数据
正文
02.数仓建设之离线数仓建设核心
Leefs
2022-09-21 AM
1717℃
0条
[TOC] ### 前言 **数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层**。 ### 一、数仓分层 **数仓分层的原则**: - 为便于数据分析,要屏蔽底层复杂业务,简单、完整、集成的将数据暴露给分析层。 - 底层业务变动与上层需求变动对模型冲击最小化,业务系统变化影响削弱在基础数据层,结合自上而下的建设方法削弱需求变动对模型的影响。 - 高内聚松耦合,即主题之内或各个完整意义的系统内数据的高内聚,主题之间或各个完整意义的系统间数据的松耦合。 - 构建仓库基础数据层,使底层业务数据整合工作与上层应用开发工作相隔离,为仓库大规模开发奠定基础仓库层次更加清晰,对外暴露数据更加统一。 一般采用如下分层结构: ![02.数仓建设之离线数仓建设核心01.png](https://lilinchao.com/usr/uploads/2022/09/652561560.png) **1)数据源层:ODS(Operational Data Store)** ODS 层,是最接近数据源中数据的一层,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可,至于数据的去噪、去重、异常值处理等过程可以放在后面的 DWD 层来做。 **2)数据仓库层:DW(Data Warehouse)** 数据仓库层是我们在做数据仓库时要核心设计的一层,在这里,从 ODS 层中获得的数据按照主题建立各种数据模型。 DW 层又细分为 **DWD**(Data Warehouse Detail)层、**DWM**(Data WareHouse Middle)层和 **DWS**(Data WareHouse Servce) 层。 **①数据明细层:DWD(Data Warehouse Detail)** 该层一般保持和 ODS 层一样的数据粒度,并且提供一定的数据质量保证。**DWD 层要做的就是将数据清理、整合、规范化、脏数据、垃圾数据、规范不一致的、状态定义不一致的、命名不规范的数据都会被处理**。 同时,为了提高数据明细层的易用性,**该层会采用一些维度退化手法,将维度退化至事实表中,减少事实表和维表的关联**。 另外,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中,提高数据的可用性 。 **②数据中间层:DWM(Data WareHouse Middle)** 该层会在 DWD 层的数据基础上,数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。 直观来讲,**就是对通用的核心维度进行聚合操作,算出相应的统计指标**。 在实际计算中,如果直接从 DWD 或者 ODS 计算出宽表的统计指标,会存在计算量太大并且维度太少的问题,因此一般的做法是,在 DWM 层先计算出多个小的中间表,然后再拼接成一张 DWS 的宽表。由于宽和窄的界限不易界定,也可以去掉 DWM 这一层,只留 DWS 层,将所有的数据再放在 DWS 亦可。 **③数据服务层:DWS(Data WareHouse Servce)** DWS 层为公共汇总层,会进行轻度汇总,粒度比明细数据稍粗,基于 DWD 层上的基础数据,**整合汇总成分析某一个主题域的服务数据,一般是宽表**。DWS 层应覆盖 80% 的应用场景。又称数据集市或宽表。 按照业务划分,如主题域流量、订单、用户等,生成字段比较多的宽表,用于提供后续的业务查询,OLAP 分析,数据分发等。 一般来讲,该层的数据表会相对比较少,一张表会涵盖比较多的业务内容,由于其字段较多,因此一般也会称该层的表为宽表。 **3)数据应用层:APP(Application)** 在这里,主要是提供给数据产品和数据分析使用的数据,一般会存放在 ES、 PostgreSql、Redis 等系统中供线上系统使用,也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用。比如我们经常说的报表数据,一般就放在这里。 **4)维表层:DIM(Dimension)** 如果维表过多,也可针对维表设计单独一层,维表层主要包含两部分数据: **高基数维度数据**:一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。 **低基数维度数据**:一般是配置表,比如枚举值对应的中文含义,或者日期维表。数据量可能是个位数或者几千几万。 ### 二、数仓建模方法 数仓建模在哪层建设呢?我们以维度建模为例,**建模是在数据源层的下一层进行建设**,在上节的分层架构中,**就是在DW层进行数仓建模**,所以**DW层是数仓建设的核心层**。 那数仓建模怎么建呢?其实数据仓库的建模方法有很多种,**每一种建模方法代表了哲学上的一个观点**,代表了一种归纳、概括世界的一种方法。常见的有 **范式建模法、维度建模法、实体建模法**等,**每种方法从本质上将是从不同的角度看待业务中的问题**。 **1)范式建模法(Third Normal Form,3NF)** 范式建模法其实是我们在构建数据模型常用的一个方法,该方法的主要由 Inmon 所提倡,主要解决关系型数据库的数据存储,利用的一种技术层面上的方法。目前,我们在关系型数据库中的建模方法,大部分采用的是三范式建模法。 范式是符合某一种级别的关系模式的集合。构造数据库必须遵循一定的规则,而在关系型数据库中这种规则就是范式,这一过程也被称为规范化。目前关系数据库有六种范式:第一范式(1NF)、第二范式(2NF)、第三范式(3NF)、Boyce-Codd范式(BCNF)、第四范式(4NF)和第五范式(5NF)。 在数据仓库的模型设计中,一般采用第三范式。 **一个符合第三范式的关系必须具有以下三个条件 :** - 每个属性值唯一,不具有多义性 ; - 每个非主属性必须完全依赖于整个主键,而非主键的一部分 ; - 每个非主属性不能依赖于其他关系中的属性,因为这样的话,这种属性应该归到其他关系中去。 ![02.数仓建设之离线数仓建设核心02.png](https://lilinchao.com/usr/uploads/2022/09/1064094379.png) 根据 Inmon 的观点,数据仓库模型的建设方法和业务系统的企业数据模型类似。在业务系统中,企业数据模型决定了数据的来源,而企业数据模型也分为两个层次,即主题域模型和逻辑模型。同样,主题域模型可以看成是业务模型的概念模型,而逻辑模型则是域模型在关系型数据库上的实例化。 **2)维度建模法(Dimensional Modeling)** 维度模型是数据仓库领域另一位大师Ralph Kimall所倡导,他的《数据仓库工具箱》是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型,构建的数据模型为分析需求服务,因此它重点解决用户如何更快速完成分析需求,同时还有较好的大规模复杂查询的响应性能。 ![02.数仓建设之离线数仓建设核心03.png](https://lilinchao.com/usr/uploads/2022/09/3364028461.png) 典型的代表是我们比较熟知的星形模型(Star-schema),以及在一些特殊场景下适用的雪花模型(Snow-schema)。 维度建模中比较重要的概念就是事实表(Fact table)和维度表(Dimension table)。其最简单的描述就是,按照事实表、维度表来构建数据仓库、数据集市。 **3)实体建模法(Entity Modeling)** 实体建模法并不是数据仓库建模中常见的一个方法,它来源于哲学的一个流派。从哲学的意义上说,客观世界应该是可以细分的,客观世界应该可以分成由一个个实体,以及实体与实体之间的关系组成。那么我们在数据仓库的建模过程中完全可以引入这个抽象的方法,将整个业务也可以划分成一个个的实体,而每个实体之间的关系,以及针对这些关系的说明就是我们数据建模需要做的工作。 虽然实体法粗看起来好像有一些抽象,其实理解起来很容易。即我们可以将任何一个业务过程划分成 3 个部分,**实体**,**事件**,**说明**,如下图所示: ![02.数仓建设之离线数仓建设核心04.png](https://lilinchao.com/usr/uploads/2022/09/3605076603.png) 上图表述的是一个抽象的含义,如果我们描述一个简单的事实:“小明开车去学校上学”。以这个业务事实为例,我们可以把“小明”,“学校”看成是一个实体,“上学”描述的是一个业务过程,我们在这里可以抽象为一个具体“事件”,而“开车去”则可以看成是事件“上学”的一个说明。 ### 三、维度建模详解 目前在互联网公司最常用的建模方法就是维度建模,我们将重点讲解! 维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种"小型数据仓库"。 我们先不着急开始维度建模,先来了解下**维度建模中表的类型**和**维度建模的模式**之后再开始建模,这样能够让我们深刻理解! **1)维度建模中表的类型** 维度建模分为两种表:事实表和维度表: - **事实表**:必然存在的一些数据,像采集的日志文件,订单表,都可以作为事实表 特征:是一堆主键的集合,每个主键对应维度表中的一条记录, 客观存在的,根据主题确定出需要使用的数据 - **维度表**:维度就是所分析的数据的一个量,维度表就是以合适的角度来创建的表,分析问题的一个角度:时间、地域、终端、用户等角度。 **①事实表** 发生在现实世界中的操作型事件,其所产生的可度量数值,存储在事实表中。从最低的粒度级别来看,事实表行对应一个度量事件,反之亦然。 **事实表表示对分析主题的度量**。比如一次购买行为我们就可以理解为是一个事实。 ![02.数仓建设之离线数仓建设核心05.png](https://lilinchao.com/usr/uploads/2022/09/4039682163.png) 图中的订单表就是一个事实表,你可以理解他就是在现实中发生的一次操作型事件,我们每完成一个订单,就会在订单中增加一条记录。事实表的特征:表里没有存放实际的内容,他是一堆主键的集合,这些ID分别能对应到维度表中的一条记录。事实表包含了与各维度表相关联的外键,可与维度表关联。事实表的度量通常是数值类型,且记录数会不断增加,表数据规模迅速增长。 **明细表(宽表)**: 事实表的数据中,有些属性共同组成了一个字段(糅合在一起),比如年月日时分秒构成了时间,当需要根据某一属性进行分组统计的时候,需要截取拼接之类的操作,效率极低。如: ![02.数仓建设之离线数仓建设核心06.png](https://lilinchao.com/usr/uploads/2022/09/2080219535.png) **为了分析方便,可以事实表中的一个字段切割提取多个属性出来构成新的字段,因为字段变多了,所以称为宽表,原来的成为窄表**。 将上述的**local_time**字段扩展为如下6个字段: ![02.数仓建设之离线数仓建设核心07.png](https://lilinchao.com/usr/uploads/2022/09/2986403576.png) 又因为宽表的信息更加清晰明细,所以也可以称之为明细表。 **事实表种类** 事实表分为以下6类: - 事务事实表 - 周期快照事实表 - 累积快照事实表 - 无事实的事实表 - 聚集事实表 - 合并事实表 简单解释下每种表的概念: - **事务事实表** 表中的一行对应空间或时间上某点的度量事件。就是一行数据中必须有度量字段,什么是度量,就是指标,比如说销售金额,销售数量等这些可加的或者半可加就是度量值。另一点就是事务事实表都包含一个与维度表关联的外键。并且度量值必须和事务粒度保持一致。 - **周期快照事实表** 顾名思义,周期事实表就是每行都带有时间值字段,代表周期,通常时间值都是标准周期,如某一天,某周,某月等。粒度是周期,而不是个体的事务,也就是说一个周期快照事实表中数据可以是多个事实,但是它们都属于某个周期内。 - **累计快照事实表** 周期快照事实表是单个周期内数据,而累计快照事实表是由多个周期数据组成,每行汇总了过程开始到结束之间的度量。每行数据相当于管道或工作流,有事件的起点,过程,终点,并且每个关键步骤都包含日期字段。如订单数据,累计快照事实表的一行就是一个订单,当订单产生时插入一行,当订单发生变化时,这行就被修改。 - **无事实的事实表** 我们以上讨论的事实表度量都是数字化的,当然实际应用中绝大多数都是数字化的度量,但是也可能会有少量的没有数字化的值但是还很有价值的字段,无事实的事实表就是为这种数据准备的,利用这种事实表可以分析发生了什么。 - **聚集事实表** 聚集,就是对原子粒度的数据进行简单的聚合操作,目的就是为了提高查询性能。如我们需求是查询全国所有门店的总销售额,我们原子粒度的事实表中每行是每个分店每个商品的销售额,聚集事实表就可以先聚合每个分店的总销售额,这样汇总所有门店的销售额时计算的数据量就会小很多。 - **合并事实表** 这种事实表遵循一个原则,就是相同粒度,数据可以来自多个过程,但是只要它们属于相同粒度,就可以合并为一个事实表,这类事实表特别适合经常需要共同分析的多过程度量。 **②维度表** 每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表的外键,当然,维度表行的描述环境应与事实表行完全对应。维度表通常比较宽,是扁平型非规范表,包含大量的低粒度的文本属性。 维度表示你要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别来进行分析,或按区域来分析。每个类别就构成一个维度。上图中的用户表、商家表、时间表这些都属于维度表,这些表都有一个唯一的主键,然后在表中存放了详细的数据信息。 总的说来,在数据仓库中不需要严格遵守规范化设计原则。因为数据仓库的主导功能就是面向分析,以查询为主,不涉及数据更新操作。**事实表的设计是以能够正确记录历史信息为准则,维度表的设计是以能够以合适的角度来聚合主题内容为准则**。 - **维度表结构** 维度表谨记一条原则,包含单一主键列,但有时因业务复杂,也可能出现联合主键,请尽量避免,如果无法避免,也要确保必须是单一的,这很重要,如果维表主键不是单一,和事实表关联时会出现数据发散,导致最后结果可能出现错误。 维度表通常比较宽,包含大量的低粒度的文本属性。 - **跨表钻取** 跨表钻取意思是当每个查询的行头都包含相同的一致性属性时,使不同的查询能够针对两个或更多的事实表进行查询 钻取可以改变维的层次,变换分析的粒度。它包括上卷/下钻: 上卷(roll-up):上卷是沿着维的层次向上聚集汇总数据。例如,对产品销售数据,沿着时间维上卷,可以求出所有产品在所有地区每月(或季度或年或全部)的销售额。 下钻(drill-down):下钻是上卷的逆操作,它是沿着维的层次向下,查看更详细的数据。 - **退化维度** 退化维度就是将维度退回到事实表中。因为有时维度除了主键没有其他内容,虽然也是合法维度键,但是一般都会退回到事实表中,减少关联次数,提高查询性能 - **多层次维度** 多数维度包含不止一个自然层次,如日期维度可以从天的层次到周到月到年的层次。所以在有些情况下,在同一维度中存在不同的层次。 - **维度表空值属性** 当给定维度行没有被全部填充时,或者当存在属性没有被应用到所有维度行时,将产生空值维度属性。上述两种情况,推荐采用描述性字符串代替空值,如使用 unknown 或 not applicable 替换空值。 - **日历日期维度** 在日期维度表中,主键的设置不要使用顺序生成的id来表示,可以使用更有意义的数据表示,比如将年月日合并起来表示,即YYYYMMDD,或者更加详细的精度。 **2)维度建模三种模式** **①星型模式** 星形模式(Star Schema)是最常用的维度建模方式。**星型模式是以事实表为中心,所有的维度表直接连接在事实表上,像星星一样**。 星形模式的维度建模由一个事实表和一组维表成,且具有以下特点: a. 维表只和事实表关联,维表之间没有关联; b. 每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键; c. 以事实表为核心,维表围绕核心呈星形分布; ![02.数仓建设之离线数仓建设核心08.png](https://lilinchao.com/usr/uploads/2022/09/344033583.png) **②雪花模式** 雪花模式(Snowflake Schema)是对星形模式的扩展。**雪花模式的维度表可以拥有其他维度表的**,虽然这种模型相比星型更规范一些,但是由于这种模型不太容易理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要低。所以一般不是很常用 ![02.数仓建设之离线数仓建设核心09.png](https://lilinchao.com/usr/uploads/2022/09/1545786283.png) **③星座模式** 星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而**星座模式是基于多张事实表的,而且共享维度信息**。前面介绍的两种维度建模方法都是多维表对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能被多个事实表用到。在**业务发展后期,绝大部分维度建模都采用的是星座模式**。 ![02.数仓建设之离线数仓建设核心10.png](https://lilinchao.com/usr/uploads/2022/09/2401429057.png) **3)维度建模过程** 我们知道维度建模的表类型有事实表,维度表;模式有星形模型,雪花模型,星座模型这些概念了,但是实际业务中,给了我们一堆数据,我们怎么拿这些数据进行数仓建设呢,数仓工具箱作者根据自身60多年的实际业务经验,给我们总结了如下四步,请务必记住! **数仓工具箱中的维度建模四步走**: ![02.数仓建设之离线数仓建设核心11.png](https://lilinchao.com/usr/uploads/2022/09/1326440929.png) 请**牢记**以上四步,不管什么业务,就按照这个步骤来,顺序不要搞乱,因为这四步是环环相扣,步步相连。下面详细拆解下每个步骤怎么做 **①选择业务过程** 维度建模是紧贴业务的,所以必须以业务为根基进行建模,那么选择业务过程,顾名思义就是在整个业务流程中选取我们需要建模的业务,根据运营提供的需求及日后的易扩展性等进行选择业务。比如商城,整个商城流程分为商家端,用户端,平台端,运营需求是总订单量,订单人数,及用户的购买情况等,我们选择业务过程就选择用户端的数据,商家及平台端暂不考虑。业务选择非常重要,因为后面所有的步骤都是基于此业务数据展开的。 **②声明粒度** 先举个例子:对于用户来说,一个用户有一个身份证号,一个户籍地址,多个手机号,多张银行卡,那么与用户粒度相同的粒度属性有身份证粒度,户籍地址粒度,比用户粒度更细的粒度有手机号粒度,银行卡粒度,存在一对一的关系就是相同粒度。为什么要提相同粒度呢,因为维度建模中要求我们,在**同一事实表**中,必须具有**相同的粒度**,同一事实表中不要混用多种不同的粒度,不同的粒度数据建立不同的事实表。并且从给定的业务过程获取数据时,强烈建议从关注原子粒度开始设计,也就是从最细粒度开始,因为原子粒度能够承受无法预期的用户查询。但是上卷汇总粒度对查询性能的提升很重要的,所以对于有明确需求的数据,我们建立针对需求的上卷汇总粒度,对需求不明朗的数据我们建立原子粒度。 **③确认维度** 维度表是作为业务分析的入口和描述性标识,所以也被称为数据仓库的“灵魂”。在一堆的数据中怎么确认哪些是维度属性呢,如果该列是对具体值的描述,是一个文本或常量,某一约束和行标识的参与者,此时该属性往往是维度属性,数仓工具箱中告诉我们**牢牢掌握事实表的粒度,就能将所有可能存在的维度区分开**,并且要**确保维度表中不能出现重复数据,应使维度主键唯一。** **④确认事实** 事实表是用来度量的,基本上都以数量值表示,事实表中的每行对应一个度量,每行中的数据是一个特定级别的细节数据,称为粒度。维度建模的核心原则之一**是同一事实表中的所有度量必须具有相同的粒度**。这样能确保不会出现重复计算度量的问题。有时候往往不能确定该列数据是事实属性还是维度属性。记住**最实用的事实就是数值类型和可加类事实**。所以可以通过分析该列是否是一种包含多个值并作为计算的参与者的度量,这种情况下该列往往是事实。 *原文链接地址* *https://mp.weixin.qq.com/s/md49ODhLOOlqv8O_x41lsQ*
标签:
DataWarehouse
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:
https://lilinchao.com/archives/2375.html
上一篇
01.数仓建设之数仓基本概念
下一篇
03.数仓建设之离线数仓建设实战
评论已关闭
栏目分类
随笔
2
Java
326
大数据
229
工具
31
其它
25
GO
47
NLP
4
标签云
Tomcat
Elastisearch
nginx
Java
Hbase
微服务
Thymeleaf
LeetCode刷题
Python
ajax
MyBatis
Java编程思想
递归
SpringCloud
Stream流
Java工具类
设计模式
VUE
CentOS
Ubuntu
JVM
队列
序列化和反序列化
正则表达式
链表
Flink
SpringCloudAlibaba
MySQL
稀疏数组
JavaSE
友情链接
申请
范明明
庄严博客
Mx
陶小桃Blog
虫洞
评论已关闭