08.数仓建设之数据质量建设

[TOC]前言数据治理的范围非常广,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在这么多治理内容中,大家想下最重要的治理是什么?当然是数据质量治理,因为数据质量是数据分析结论有效性和准确性的基础,也是这一切的前提。所以如何保障数据质量,确保数据可用性是数据仓库建设中不容忽视的环节。数据质量涉及的范围也很广,贯穿数仓的整个生命周期,从数据产生->数据接入->数据存储->数据处理->数据输出->数据展示,每个阶段都需要质量治理。在系统建设的各个阶段都应该根据标准进行数据质量检测和规范,及时进行治理,避免事后的清洗工作。一、为什么要进行数据质量评估很多刚入...

大数据 2022-09-29 AM 1352℃ 0条

07.数仓建设之数据治理

[TOC]前言数仓建设真正的难点不在于数仓设计,而在于后续业务发展起来,业务线变的庞大之后的数据治理,包括资产治理、数据质量监控、数据指标体系的建设等。其实数据治理的范围很⼴,包含数据本⾝的管理、数据安全、数据质量、数据成本等。在DAMA 数据管理知识体系指南中,数据治理位于数据管理“车轮图”的正中央,是数据架构、数据建模、数据存储、数据安全、数据质量、元数据管理、主数据管理等10大数据管理领域的总纲,为各项数据管理活动提供总体指导策略。一、数据治理之道是什么1)数据治理需要体系建设为发挥数据价值需要满足三个要素:合理的平台架构、完善的治理服务、体系化的运营手段。根据企业的规模、所属行业...

大数据 2022-09-29 AM 2279℃ 1条

06.数仓建设之基于Flink SQL从0到1构建一个实时数仓

[TOC]前言本小节内容来自大数据技术与数仓实时数仓主要解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析,实时大屏展示,实时监控报警各个场景。虽然关于实时数仓架构及技术选型与传统的离线数仓会存在差异,但是关于数仓建设的基本方法论是一致的。接下来主要介绍Flink SQL从0到1搭建一个实时数仓的demo,涉及到数据采集、存储、计算、可视化整个流程。一、案例简介本文以电商业务为例,展示实时数仓的数据处理流程。另外,本文旨在说明实时数仓的构建流程,所以不会涉及复杂的数据计算。为了保证案例的可操作性和完整性,本文会给出详细的操作步骤。为了方便演示,本文的所有操作都是在Fli...

大数据 2022-09-27 PM 1602℃ 0条

05.数仓建设之实时数仓建设核心

[TOC]一、实时计算初期虽然实时计算在最近几年才火起来,但是在早期也有部分公司有实时计算的需求,但是数据量比较少,所以在实时方面形成不了完整的体系,基本所有的开发都是具体问题具体分析,来一个需求做一个,基本不考虑它们之间的关系,开发形式如下:如上图所示,拿到数据源后,会经过数据清洗,扩维,通过Flink进行业务逻辑处理,最后直接进行业务输出。把这个环节拆开来看,数据源端会重复引用相同的数据源,后面进行清洗、过滤、扩维等操作,都要重复做一遍,唯一不同的是业务的代码逻辑是不一样的。随着产品和业务人员对实时数据需求的不断增多,这种开发模式出现的问题越来越多:数据指标越来越多,“烟囱式”的开发...

大数据 2022-09-26 AM 1143℃ 0条

04.数仓建设之实时计算

[TOC]前言实时计算一般都是针对海量数据进行的,并且要求为秒级。由于大数据兴起之初,Hadoop并没有给出实时计算解决方案,随后Storm,SparkStreaming,Flink等实时计算框架应运而生,而Kafka,ES的兴起使得实时计算领域的技术越来越完善,而随着物联网,机器学习等技术的推广,实时流式计算将在这些领域得到充分的应用。实时计算的三个特征:无限数据:无限数据指的是一种不断增长的,基本上无限的数据集。这些通常被称为“流数据”,而与之相对的是有限的数据集。无界数据处理:一种持续的数据处理模式,能够通过处理引擎重复的去处理上面的无限数据,是能够突破有限数据处理引擎的瓶颈的。低...

大数据 2022-09-23 PM 1610℃ 0条

03.数仓建设之离线数仓建设实战

[TOC]前言技术是为业务服务的,业务是为公司创造价值的,离开业务的技术是无意义的。一、业务介绍需要针对不同需求的用户开发不同的产品,所以公司内部有很多条业务线,但是对于数据部门来说,所有业务线的数据都是数据源。对数据的划分不只是根据业务进行,而是结合数据的属性。二、早期规划之前开发是不同业务线对应不同的数据团队,每个数据团队互不干扰,这种模式比较简单,只针对自己的业务线进行数仓建设及报表开发即可。但是随着业务的发展,频繁迭代及跨部门的垂直业务单元越来越多,业务之间的出现耦合情况,这时再采用这种烟囱式开发就出现了问题:例如权限问题,公司对数据管理比较严格,不同的数据开发组没有权限共享数据...

大数据 2022-09-22 AM 1570℃ 0条

02.数仓建设之离线数仓建设核心

[TOC]前言数据仓库的核心是展现层和提供优质的服务。ETL 及其规范、分层等所做的一切都是为了一个更清晰易用的展现层。一、数仓分层数仓分层的原则:为便于数据分析,要屏蔽底层复杂业务,简单、完整、集成的将数据暴露给分析层。底层业务变动与上层需求变动对模型冲击最小化,业务系统变化影响削弱在基础数据层,结合自上而下的建设方法削弱需求变动对模型的影响。高内聚松耦合,即主题之内或各个完整意义的系统内数据的高内聚,主题之间或各个完整意义的系统间数据的松耦合。构建仓库基础数据层,使底层业务数据整合工作与上层应用开发工作相隔离,为仓库大规模开发奠定基础仓库层次更加清晰,对外暴露数据更加统一。一般采用如...

大数据 2022-09-21 AM 1783℃ 0条

01.数仓建设之数仓基本概念

[TOC]前言本篇以及接下来更新的几篇关于数仓建设的文章都转载于大佬园陌,文章通俗易懂、内容全面非常值得向大家推荐!!!小编最近也在学习数仓相关知识,但是尝试好多次还是不能系统全面的整理出一套让自己满意的文章出来,特地转载大佬的文章大家一起学习,共同进步。再次感谢大佬,每篇文章末尾都会附上原文链接地址。一、数仓基本概念1、数据仓库架构我们在谈数仓之前,为了让大家有直观的认识,先来谈数仓架构,“架构”是什么?这个问题从来就没有一个准确的答案。这里我们引用一段话:在软件行业,一种被普遍接受的架构定义是指系统的一个或多个结构。结构中包括软件的构建(构建是指软件的设计与实现),构建的外部可以看到...

大数据 2022-09-20 PM 1651℃ 0条

04.BurpSuite之Target介绍

[TOC]一、概述Burp Target 组件主要包含站点地图、目标域、Target 工具三部分组成,他们帮助渗透测试人员更好地了解目标应用的整体状况、当前的工作涉及哪些目标域、分析可能存在的攻击面等信息,下面就分别来看看Burp Target的三个组成部分。二、目标域设置 Target ScopeTarget Scope中作用域的定义比较宽泛,通常来说,当我们对某个产品进行渗透测试时,可以通过域名或者主机名去限制拦截内容,这里域名或主机名就是我们说的作用域;如果我们想限制得更为细粒度化,比如,你只想拦截login目录下的所有请求,这时我们也可以在此设置,此时,作用域就是目录。总体来说,...

工具 2022-09-19 PM 1551℃ 0条

03.BurpSuite之Dashboard新建扫描

[TOC]一、概述Burp Scanner的功能主要是用来自动检测web系统的各种漏洞,可以使用Burp Scanner代替手工去对系统进行普通漏洞类型的渗透测试,从而能使测试人员把更多的精力放在那些必须要人工去验证的漏洞上。二、整体流程1、启动扫描可以通过多种方式启动扫描:从特定的 URL 扫描:这通过对一个或多个提供的 URL 中的内容进行爬取并有选择地审核爬取的内容来执行扫描。为此,请转到 Burp 仪表板,然后单击 “新建扫描” 按钮。扫描选定的项目:可以对特定的 HTTP 请求执行仅审核扫描(不进行爬取)。为此,在 Burp 中的任意位置选择一个或多个请求,然后从上下文菜单中选...

工具 2022-09-18 PM 2011℃ 0条